返回岗位列表
大模型数据工程师(后训练方向)
北京全职On-site
职位概述
负责大模型后训练阶段的数据工程化建设,核心工作包括合成数据生产 pipeline 搭建、大规模评估集构建与验证、数据质量体系建设,为模型的持续迭代提供高质量的数据基础设施。
岗位职责
1. 设计和搭建合成数据生成pipeline,涵盖Prompt工程、多模型协作生成、自动化标注与质检
2. 构建和维护大规模评估集(benchmark),覆盖推理、代码、数学、指令遵循等多维度能力评估
3. 开发评估集的工程化验证框架,确保评估流程的可重复性、一致性和可靠性
4. 建设数据质量监控和治理体系,包括去重、去污染、分布分析、异常检测
5. 持续优化大规模数据处理的效率和成本,推动工具链和基础设施的演进
任职要求
1. 扎实的工程能力,以 Python 为主,有大规模数据处理的实战经验
2. 了解 LLM 后训练流程(SFT / RLHF / DPO 等)及其对数据格式、质量、分布的要求
3. 有合成数据生成或数据标注平台相关的实际项目经验
4. 熟悉常见的 NLP / LLM 评估方法、指标体系和评估流程
5. 良好的系统设计能力,能独立搭建端到端的数据 pipeline
6. 强数据敏感度,关注数据质量而非单纯追求规模
加分项
1. 有 LLM 评估框架(如 lm-eval-harness、OpenCompass 等)的使用或二次开发经验
2. 了解 MCP、Agent Skills 等前沿模型生产力方向,关注 LLM 应用生态的工程化演进
3. 有 Prompt Engineering 的深度实践,能系统性地设计和优化 prompt 策略
4. 有开源社区贡献或相关方向的论文发表
薪酬范围
25~60K*15+期权
工作地点
北京海淀六道口
立即申请
让我们
一起
推动AI
进步!