智能知识

研究

我们不训练模型，但是我们很在乎模型学会了什么。深入探索数据科学、人机交互与AI系统的前沿研究。

Majority Vote介绍与一致性算法

多数投票（Majority Vote）是一种广泛应用于数据标注的标签聚合方法。

2025年8月4日

王民从发布

RLVR: 可验证奖励的强化学习

可验证奖励的强化学习（RLVR）是向大型语言模型注入学习信号的主要训练策略之一。

2025年7月23日

李宽野发布

HITL：用户反馈与专家知识的分工与价值

在智能体（Agent）应用中，HITL（Human-in-the-Loop）打开了人类智慧介入 Agent 运转系统的大门。

2025年5月18日

李宽野发布

研究_

我们不训练模型，但是我们很在乎模型学会了什么。 深入探索数据科学、人机交互与AI系统的前沿研究。

王民从发布

Majority Vote介绍与一致性算法

多数投票（Majority Vote）是一种广泛应用于数据标注的标签聚合方法。

2025年8月4日

李宽野发布

RLVR: 可验证奖励的强化学习

可验证奖励的强化学习（RLVR）是向大型语言模型注入学习信号的主要训练策略之一。

2025年7月23日

李宽野发布

HITL：用户反馈与专家知识的分工与价值

在智能体（Agent）应用中，HITL（Human-in-the-Loop）打开了人类智慧介入 Agent 运转系统的大门。

2025年5月18日