针对数据质量六大核心维度(准确性、完整性、一致性、时效性、有效性和唯一性)的量化评分体系,包含详细的 SLO(服务等级目标)定义、评分标准、计算公式、权重建议,并附有实际案例说明,适用于企业级数据治理与数据质量监控。


一、数据质量评分体系总览

维度权重建议SLO目标(优秀)指标类型评分范围
准确性(Accuracy)20%≥98%百分比0-100
完整性(Completeness)20%≥99%百分比0-100
一致性(Consistency)15%≥98%百分比0-100
时效性(Timeliness)20%延迟 ≤5分钟时间/百分比0-100
有效性(Validity)15%≥99%百分比0-100
唯一性(Uniqueness)10%重复率 ≤1%百分比0-100

综合得分 = Σ(维度得分 × 权重)
🎯 目标SLO:综合得分 ≥ 90分(优秀)


二、各维度详细SLO与评分标准

1. 准确性(Accuracy)

定义:数据真实反映现实世界实体的程度。

SLO等级标准评分规则
优秀(A)准确率 ≥98%得分 = 100
良好(B)95% ≤ 准确率 < 98%得分 = 90
一般(C)90% ≤ 准确率 < 95%得分 = 80
较差(D)80% ≤ 准确率 < 90%得分 = 60
不合格(F)准确率 < 80%得分 = 30

📌 计算公式

Text编辑准确性得分 = (正确记录数 / 总抽样记录数) × 100

案例
某电商平台订单表中“订单金额”字段,随机抽样100条订单,与财务系统对账发现3条金额错误。
→ 准确率 = (97 / 100) × 100 = 97% → 得分 = 90(B级)


2. 完整性(Completeness)

定义:关键字段无缺失的程度。

SLO等级标准评分规则
优秀(A)缺失率 ≤1%得分 = 100
良好(B)1% < 缺失率 ≤2%得分 = 90
一般(C)2% < 缺失率 ≤5%得分 = 80
较差(D)5% < 缺失率 ≤10%得分 = 60
不合格(F)缺失率 >10%得分 = 30

📌 计算公式

Text编辑完整性得分 = (1 - 空值记录数 / 总记录数) × 100

案例
用户注册表中“手机号”为关键字段,总记录10万条,其中980条为空。
→ 缺失率 = 980 / 100,000 = 0.98% → 得分 = 100(A级)


3. 一致性(Consistency)

定义:同一数据在不同系统或表中保持一致。

SLO等级标准评分规则
优秀(A)不一致率 ≤2%得分 = 100
良好(B)2% < 不一致率 ≤5%得分 = 90
一般(C)5% < 不一致率 ≤10%得分 = 80
较差(D)10% < 不一致率 ≤20%得分 = 60
不合格(F)>20%得分 = 30

📌 计算公式

Text编辑一致性得分 = (1 - 冲突记录数 / 关联记录总数) × 100

案例
订单系统与CRM系统中客户ID关联,1万条订单中有150条客户ID不一致。
→ 不一致率 = 150 / 10,000 = 1.5% → 得分 = 100(A级)


4. 时效性(Timeliness)

定义:数据在规定时间内完成更新或同步。

SLO等级标准评分规则
优秀(A)延迟 ≤5分钟得分 = 100
良好(B)5 < 延迟 ≤15分钟得分 = 90
一般(C)15 < 延迟 ≤30分钟得分 = 80
较差(D)30 < 延迟 ≤60分钟得分 = 60
不合格(F)>60分钟得分 = 30

📌 计算公式

Text编辑时效性得分 = max(0, 100 - (延迟分钟数 × 2))  // 每超5分钟扣10分

案例
日志数据要求T+5分钟同步到数仓,某日平均延迟8分钟。
→ 扣分 = (8-5)/5 × 10 ≈ 6分 → 得分 = 94(B级)


5. 有效性(Validity)

定义:数据符合预定义格式、类型或业务规则。

SLO等级标准评分规则
优秀(A)无效率 ≤1%得分 = 100
良好(B)1% < 无效率 ≤2%得分 = 90
一般(C)2% < 无效率 ≤5%得分 = 80
较差(D)5% < 无效率 ≤10%得分 = 60
不合格(F)>10%得分 = 30

📌 计算公式

Text编辑有效性得分 = (1 - 无效记录数 / 总记录数) × 100

案例
用户邮箱字段要求符合邮箱格式,10万条数据中1,200条格式错误(如无@符号)。
→ 无效率 = 1,200 / 100,000 = 1.2% → 得分 = 90(B级)


6. 唯一性(Uniqueness)

定义:关键实体无重复记录。

SLO等级标准评分规则
优秀(A)重复率 ≤1%得分 = 100
良好(B)1% < 重复率 ≤2%得分 = 90
一般(C)2% < 重复率 ≤5%得分 = 80
较差(D)5% < 重复率 ≤10%得分 = 60
不合格(F)>10%得分 = 30

📌 计算公式

Text编辑唯一性得分 = (1 - 重复记录数 / 总记录数) × 100

案例
客户主数据表以“客户ID”为主键,10万条记录中发现1,800条重复(同ID多条记录)。
→ 重复率 = 1,800 / 100,000 = 1.8% → 得分 = 90(B级)


三、综合评分卡示例(某订单系统)

维度得分权重加权得分
准确性97% → 9020%18.0
完整性99.5% → 10020%20.0
一致性98.2% → 10015%15.0
时效性延迟7分钟 → 9620%19.2
有效性98.8% → 10015%15.0
唯一性98.5% → 10010%10.0
合计100%97.2

🎯 综合得分:97.2分 → 质量等级:优秀


四、SLO监控建议

  1. 自动化监控:使用数据质量工具(如Great Expectations、DataDog、自研系统)每日扫描。
  2. 告警机制:任一维度得分 < 80 或综合分 < 85 时触发告警。
  3. 报告周期:每周生成数据质量报告,向数据负责人推送。
  4. 改进闭环:建立“问题发现 → 责任归属 → 修复 → 验证”流程。

五、适用场景

  • 数据仓库/数据湖入湖质检
  • BI报表数据源评估
  • 主数据管理(MDM)
  • 数据共享与API输出
  • 合规审计(如GDPR、金融监管)