数据质量评分卡
针对数据质量六大核心维度(准确性、完整性、一致性、时效性、有效性和唯一性)的量化评分体系,包含详细的 SLO(服务等级目标)定义、评分标准、计算公式、权重建议,并附有实际案例说明,适用于企业级数据治理与数据质量监控。
一、数据质量评分体系总览
| 维度 | 权重建议 | SLO目标(优秀) | 指标类型 | 评分范围 |
|---|---|---|---|---|
| 准确性(Accuracy) | 20% | ≥98% | 百分比 | 0-100 |
| 完整性(Completeness) | 20% | ≥99% | 百分比 | 0-100 |
| 一致性(Consistency) | 15% | ≥98% | 百分比 | 0-100 |
| 时效性(Timeliness) | 20% | 延迟 ≤5分钟 | 时间/百分比 | 0-100 |
| 有效性(Validity) | 15% | ≥99% | 百分比 | 0-100 |
| 唯一性(Uniqueness) | 10% | 重复率 ≤1% | 百分比 | 0-100 |
✅ 综合得分 = Σ(维度得分 × 权重)
🎯 目标SLO:综合得分 ≥ 90分(优秀)
二、各维度详细SLO与评分标准
1. 准确性(Accuracy)
定义:数据真实反映现实世界实体的程度。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 准确率 ≥98% | 得分 = 100 |
| 良好(B) | 95% ≤ 准确率 < 98% | 得分 = 90 |
| 一般(C) | 90% ≤ 准确率 < 95% | 得分 = 80 |
| 较差(D) | 80% ≤ 准确率 < 90% | 得分 = 60 |
| 不合格(F) | 准确率 < 80% | 得分 = 30 |
📌 计算公式:
Text编辑准确性得分 = (正确记录数 / 总抽样记录数) × 100
✅ 案例:
某电商平台订单表中“订单金额”字段,随机抽样100条订单,与财务系统对账发现3条金额错误。
→ 准确率 = (97 / 100) × 100 = 97% → 得分 = 90(B级)
2. 完整性(Completeness)
定义:关键字段无缺失的程度。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 缺失率 ≤1% | 得分 = 100 |
| 良好(B) | 1% < 缺失率 ≤2% | 得分 = 90 |
| 一般(C) | 2% < 缺失率 ≤5% | 得分 = 80 |
| 较差(D) | 5% < 缺失率 ≤10% | 得分 = 60 |
| 不合格(F) | 缺失率 >10% | 得分 = 30 |
📌 计算公式:
Text编辑完整性得分 = (1 - 空值记录数 / 总记录数) × 100
✅ 案例:
用户注册表中“手机号”为关键字段,总记录10万条,其中980条为空。
→ 缺失率 = 980 / 100,000 = 0.98% → 得分 = 100(A级)
3. 一致性(Consistency)
定义:同一数据在不同系统或表中保持一致。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 不一致率 ≤2% | 得分 = 100 |
| 良好(B) | 2% < 不一致率 ≤5% | 得分 = 90 |
| 一般(C) | 5% < 不一致率 ≤10% | 得分 = 80 |
| 较差(D) | 10% < 不一致率 ≤20% | 得分 = 60 |
| 不合格(F) | >20% | 得分 = 30 |
📌 计算公式:
Text编辑一致性得分 = (1 - 冲突记录数 / 关联记录总数) × 100
✅ 案例:
订单系统与CRM系统中客户ID关联,1万条订单中有150条客户ID不一致。
→ 不一致率 = 150 / 10,000 = 1.5% → 得分 = 100(A级)
4. 时效性(Timeliness)
定义:数据在规定时间内完成更新或同步。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 延迟 ≤5分钟 | 得分 = 100 |
| 良好(B) | 5 < 延迟 ≤15分钟 | 得分 = 90 |
| 一般(C) | 15 < 延迟 ≤30分钟 | 得分 = 80 |
| 较差(D) | 30 < 延迟 ≤60分钟 | 得分 = 60 |
| 不合格(F) | >60分钟 | 得分 = 30 |
📌 计算公式:
Text编辑时效性得分 = max(0, 100 - (延迟分钟数 × 2)) // 每超5分钟扣10分
✅ 案例:
日志数据要求T+5分钟同步到数仓,某日平均延迟8分钟。
→ 扣分 = (8-5)/5 × 10 ≈ 6分 → 得分 = 94(B级)
5. 有效性(Validity)
定义:数据符合预定义格式、类型或业务规则。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 无效率 ≤1% | 得分 = 100 |
| 良好(B) | 1% < 无效率 ≤2% | 得分 = 90 |
| 一般(C) | 2% < 无效率 ≤5% | 得分 = 80 |
| 较差(D) | 5% < 无效率 ≤10% | 得分 = 60 |
| 不合格(F) | >10% | 得分 = 30 |
📌 计算公式:
Text编辑有效性得分 = (1 - 无效记录数 / 总记录数) × 100
✅ 案例:
用户邮箱字段要求符合邮箱格式,10万条数据中1,200条格式错误(如无@符号)。
→ 无效率 = 1,200 / 100,000 = 1.2% → 得分 = 90(B级)
6. 唯一性(Uniqueness)
定义:关键实体无重复记录。
| SLO等级 | 标准 | 评分规则 |
|---|---|---|
| 优秀(A) | 重复率 ≤1% | 得分 = 100 |
| 良好(B) | 1% < 重复率 ≤2% | 得分 = 90 |
| 一般(C) | 2% < 重复率 ≤5% | 得分 = 80 |
| 较差(D) | 5% < 重复率 ≤10% | 得分 = 60 |
| 不合格(F) | >10% | 得分 = 30 |
📌 计算公式:
Text编辑唯一性得分 = (1 - 重复记录数 / 总记录数) × 100
✅ 案例:
客户主数据表以“客户ID”为主键,10万条记录中发现1,800条重复(同ID多条记录)。
→ 重复率 = 1,800 / 100,000 = 1.8% → 得分 = 90(B级)
三、综合评分卡示例(某订单系统)
| 维度 | 得分 | 权重 | 加权得分 |
|---|---|---|---|
| 准确性 | 97% → 90 | 20% | 18.0 |
| 完整性 | 99.5% → 100 | 20% | 20.0 |
| 一致性 | 98.2% → 100 | 15% | 15.0 |
| 时效性 | 延迟7分钟 → 96 | 20% | 19.2 |
| 有效性 | 98.8% → 100 | 15% | 15.0 |
| 唯一性 | 98.5% → 100 | 10% | 10.0 |
| 合计 | — | 100% | 97.2 |
🎯 综合得分:97.2分 → 质量等级:优秀
四、SLO监控建议
- 自动化监控:使用数据质量工具(如Great Expectations、DataDog、自研系统)每日扫描。
- 告警机制:任一维度得分 < 80 或综合分 < 85 时触发告警。
- 报告周期:每周生成数据质量报告,向数据负责人推送。
- 改进闭环:建立“问题发现 → 责任归属 → 修复 → 验证”流程。
五、适用场景
- 数据仓库/数据湖入湖质检
- BI报表数据源评估
- 主数据管理(MDM)
- 数据共享与API输出
- 合规审计(如GDPR、金融监管)