← 返回所有文章

数据工程中的Scrum:迭代构建可靠数据管道

By XNM Technologies · April 8, 2023 · 1 min read
数据工程中的Scrum:迭代构建可靠数据管道

针对数据工程最重要的调整,是在完成定义(Definition of Done)和用户故事验收标准中明确定义数据质量。需要纳入的四个质量维度是:完整性(预期记录中必须存在多少百分比?)、准确性(经转换后,目标值是否与源数据匹配?)、新鲜度(数据需要多及时?)以及血缘(每个数据元素的来源和转换历史能否被追溯?)。

  • 将管道故障视为缺陷:在待办列表中进行记录、可见化和优先级排序——缺陷追踪是使团队得以持续改进的反馈回路。

  • 将模式变更视为需要产品负责人优先级排序的功能,并附带干系人沟通和版本控制治理。

  • 生产方与消费方团队之间的数据契约:关于模式、质量保证、SLA以及破坏性变更管理流程的正式协议。

数据产品思维是编写数据工程用户故事最有效的视角转换:「作为财务分析师,我需要一个按地区每日对账的销售数据集,以便我无需手动收集数据就能生成每周地区绩效报告。」这种表述方式产生的验收标准能够反映消费者的真实需求——粒度、新鲜度、字段级准确性、覆盖范围——而不是对产品负责人或干系人意义不大的技术实现细节。数据管道的完成定义通常包括:数据质量验收标准满足且自动化测试通过、血缘有记录、模式变更已与受影响的消费方沟通、监控告警已配置,以及运行历史可供故障排查。

如果贵数据工程团队正在采用Scrum,或发现标准框架需要调整以适应管道和数据仓库工作的现实,XNM的项目群与项目交付实践与技术团队合作,设计符合工作本身而非仅符合框架的敏捷运营模型。