大模型数据工程师（后训练方向）

北京全职On-site

职位概述

负责大模型后训练阶段的数据工程化建设，核心工作包括合成数据生产 pipeline 搭建、大规模评估集构建与验证、数据质量体系建设，为模型的持续迭代提供高质量的数据基础设施。

岗位职责

1. 设计和搭建合成数据生成pipeline，涵盖Prompt工程、多模型协作生成、自动化标注与质检

2. 构建和维护大规模评估集（benchmark），覆盖推理、代码、数学、指令遵循等多维度能力评估

3. 开发评估集的工程化验证框架，确保评估流程的可重复性、一致性和可靠性

4. 建设数据质量监控和治理体系，包括去重、去污染、分布分析、异常检测

5. 持续优化大规模数据处理的效率和成本，推动工具链和基础设施的演进

任职要求

1. 扎实的工程能力，以 Python 为主，有大规模数据处理的实战经验

2. 了解 LLM 后训练流程（SFT / RLHF / DPO 等）及其对数据格式、质量、分布的要求

3. 有合成数据生成或数据标注平台相关的实际项目经验

4. 熟悉常见的 NLP / LLM 评估方法、指标体系和评估流程

5. 良好的系统设计能力，能独立搭建端到端的数据 pipeline

6. 强数据敏感度，关注数据质量而非单纯追求规模

加分项

1. 有 LLM 评估框架（如 lm-eval-harness、OpenCompass 等）的使用或二次开发经验

2. 了解 MCP、Agent Skills 等前沿模型生产力方向，关注 LLM 应用生态的工程化演进

3. 有 Prompt Engineering 的深度实践，能系统性地设计和优化 prompt 策略

4. 有开源社区贡献或相关方向的论文发表

薪酬范围

25～60K*15+期权

工作地点

北京海淀六道口

立即申请

让我们

一起

推动AI

进步！