博客
研究
人才网络
加入我们
联系我们
返回岗位列表

大模型数据工程师(后训练方向)

北京全职On-site
职位概述

负责大模型后训练阶段的数据工程化建设,核心工作包括合成数据生产 pipeline 搭建、大规模评估集构建与验证、数据质量体系建设,为模型的持续迭代提供高质量的数据基础设施。

岗位职责

1. 设计和搭建合成数据生成pipeline,涵盖Prompt工程、多模型协作生成、自动化标注与质检

2. 构建和维护大规模评估集(benchmark),覆盖推理、代码、数学、指令遵循等多维度能力评估

3. 开发评估集的工程化验证框架,确保评估流程的可重复性、一致性和可靠性

4. 建设数据质量监控和治理体系,包括去重、去污染、分布分析、异常检测

5. 持续优化大规模数据处理的效率和成本,推动工具链和基础设施的演进

任职要求

1. 扎实的工程能力,以 Python 为主,有大规模数据处理的实战经验

2. 了解 LLM 后训练流程(SFT / RLHF / DPO 等)及其对数据格式、质量、分布的要求

3. 有合成数据生成或数据标注平台相关的实际项目经验

4. 熟悉常见的 NLP / LLM 评估方法、指标体系和评估流程

5. 良好的系统设计能力,能独立搭建端到端的数据 pipeline

6. 强数据敏感度,关注数据质量而非单纯追求规模

加分项

1. 有 LLM 评估框架(如 lm-eval-harness、OpenCompass 等)的使用或二次开发经验

2. 了解 MCP、Agent Skills 等前沿模型生产力方向,关注 LLM 应用生态的工程化演进

3. 有 Prompt Engineering 的深度实践,能系统性地设计和优化 prompt 策略

4. 有开源社区贡献或相关方向的论文发表

薪酬范围

25~60K*15+期权

工作地点

北京海淀六道口

立即申请
让我们
一起
推动AI
进步!