博客
研究
人才网络
产品
加入我们
联系我们
研究
我们不训练模型,但是我们很在乎模型学会了什么。 深入探索数据科学、人机交互与AI系统的前沿研究。
Majority Vote介绍与一致性算法
多数投票(Majority Vote)是一种广泛应用于数据标注的标签聚合方法。
2025年8月4日
王民从
发布
RLVR: 可验证奖励的强化学习
可验证奖励的强化学习(RLVR)是向大型语言模型注入学习信号的主要训练策略之一。
2025年7月23日
李宽野
发布
HITL:用户反馈与专家知识的分工与价值
在智能体(Agent)应用中,HITL(Human-in-the-Loop)打开了人类智慧介入 Agent 运转系统的大门。
2025年5月18日
李宽野
发布
研究
_
我们不训练模型,但是我们很在乎模型学会了什么。 深入探索数据科学、人机交互与AI系统的前沿研究。
王民从
发布
Majority Vote介绍与一致性算法
多数投票(Majority Vote)是一种广泛应用于数据标注的标签聚合方法。
2025年8月4日
李宽野
发布
RLVR: 可验证奖励的强化学习
可验证奖励的强化学习(RLVR)是向大型语言模型注入学习信号的主要训练策略之一。
2025年7月23日
李宽野
发布
HITL:用户反馈与专家知识的分工与价值
在智能体(Agent)应用中,HITL(Human-in-the-Loop)打开了人类智慧介入 Agent 运转系统的大门。
2025年5月18日