數據完整作用及優化策略:確保數據準確性與一致性
作者: 數環通發布時間: 2024-12-13 09:48:09
你是否曾不得不與客服代表溝通,去更正個人信息詳情——比如名字拼寫錯誤(例如:“張三”寫成了“張三豐”)、門牌號順序顛倒(例如:“1/34單元”寫成了“34/1單元”),或者其他缺失或不正確的細節?這些都是數據完整性出現問題的情況。
與數據完整性缺失相關的其他現實后果包括:
由于賬號號碼出錯,難以從一筆金融交易中追回款項。
因嵌入了笑臉表情符號,導致移動支付失敗。
由于地址有誤,例如在不同省份使用了同一地址名稱但錯誤的郵政編碼,而一直收不到包裹。
實際上,旨在保護正確數據的企業政策使得修正數據錯誤變得棘手。而保護個人可識別信息的政府法規也讓客戶在登記后更改個人可識別信息數據變得困難且費力。為避免像上述例子那樣影響客戶體驗,我們需要強有力的數據完整性保障。
數據完整性是一項必要的業務執行流程,對于應對數據在從現實情況及事件中錄入、復制以及以其他方式轉錄時出現的錯誤至關重要。
隨著各類組織日益使用的數據驅動型數字流程,特別是通過機器學習的運用,有效做出數據驅動型業務決策的能力愈發受到組織運營數據和分析數據完整性的影響。
本文將探討數據完整性在您所在組織中所起的作用。
什么是數據完整性?
完整性意味著數據是可信且可靠的。在會計領域,財務結果的報告標準意味著財務報表中所報告的數字必須準確、完整且一致。
同樣的標準也適用于數據完整性。可以通過以下因素來檢驗數據的完整性:
數據是完整的,不存在缺失的數據元素。
數據是準確的,來源上不存在數據錯誤。
數據在不同情境下是一致的。
數據是及時且最新的。
當這四個條件未滿足時,數據可能就無法通過完整性檢測。其中許多問題并不明顯,有時只有通過業務流程出現故障或全面的數據剖析工作才能發現這些問題。
數據不完整性
由于信息系統的歷史局限性,可能因為字段不足而無法采集到所有數據。如今,由于數據模式具有可擴展性,這種情況不太常見了,但它可能導致數據被采集到錯誤的字段中(分類錯誤),或者在需要多個字段時被壓縮到一個字段里。這會引入干擾因素并降低可用性。
雖然許多系統設有必填字段,但過多的必填字段會拖慢客戶登記流程。這種業務選擇也可能導致數據不完整。
數據不準確
許多類型的數據,如身份證號碼和駕照號碼,都由一長串數字組成,容易出現人為錯誤。此外,拼寫錯誤或使用了需要在后續數據整理工作中清理的奇怪字符,也會影響數據的可用性。
其他錯誤,比如虛報出生年份(故意把自己說得更年輕或更年長)則更難察覺。帶有業務邏輯錯誤的派生或推斷字段也會影響準確性。僅支持男/女性別的老舊系統同樣存在問題。
數據不準確(以及不完整)偶爾可以通過對照權威數據源進行追溯性的數據匹配來修復。但對于大型數據集而言,這種方法可能無效,或者會受到法規限制而無法采用。
數據不一致
另一種數據完整性問題是自然事實與將這些真實事實轉錄到企業內部及跨企業的數據存儲庫和登記系統中的業務流程之間存在不一致。或者說,記錄系統與存有該數據副本的輔助系統之間存在不一致——輔助系統本身成為了一個事實來源,從而導致出現兩個不一致的權威來源。
某家大型銀行就曾出現過這種情況,該行新建了一個“貴賓”客戶關系管理(CRM)系統,與原有的零售客戶CRM系統并行使用,新的貴賓CRM系統中采集到的更豐富數據從未反饋回零售CRM系統,盡管它們共享相同的客戶記錄。
數據不及時性
即便數據是完整、準確且一致的,仍可能存在完整性方面的問題。
這可能是因為數據過時了(由于批處理/抽取、轉換、加載(ETL)流程);有效載荷的時間戳計算有誤(系統時間并非事件時間);或者計算生效日期的標準與實際日期不同。又或者僅僅是因為數據陳舊,需要更新了。
當使用發票開具日期而非采購訂單日期(采購訂單日期才是合同約定日期)時,就會出現這種情況。這也是客戶聯絡流程為何要不斷重新確認客戶關鍵主數據的原因。
數據不真實性
雖然與會計數據未必相關,但對于個人可識別信息數據而言,我們尤其必須警惕客戶身份是否真實,特別是在登記環節。隨著網絡釣魚和詐騙行為日益增多,企業必須盡力確保客戶身份數據首次錄入時就是準確且完整的。
生產系統中存在的一種不真實數據是測試數據。盡管最佳實踐建議生產系統中不應存在測試數據,但實際情況很少如此,因為操作人員為應對日常業務變更被迫要在生產環境中進行測試。
數據溯源對數據完整性的重要性
對數據溯源起到強化或削弱作用的業務流程,與那些為組織增加營收或降低成本的業務流程一樣,都需要用心維護。
數據溯源對于確保數據的來源(事實情況)以及數據在復制及其他變更過程中所經歷的情況(數據沿襲)未被篡改或破壞確實非常重要。而且不僅是數據本身,數據的定義(元數據)也必須盡可能保持一致。
許多組織都有健全的事實錄入機制。在銀行業,這被稱為“了解你的客戶”(KYC)。在醫療行業,有FHIR和HL7等高度標準化的患者乃至藥品數據。在其他監管較寬松的行業,這一流程體現在客戶360度視圖中。
監管較寬松的行業可能會選擇優先考慮錄入速度,而非采集詳盡的客戶細節(這會影響完整性)。缺失或不一致的數據對下游流程的影響在于,充分挖掘客戶關系價值的能力會受到限制,例如開展高度個性化的營銷活動時,由于數據缺失,轉化率會一直很低,因為營銷活動缺乏足夠的吸引力。
對于任何要在業務流程間的價值交換中發揮最大效力的業務數據來說,關鍵數據需要與真實(或自然)的事實及事件保持完整、準確且一致,并且在組織業務范圍內的相關數據存儲中也需如此。出于監管和合規目的,面向外部世界的這些事實和事件的數據完整性同樣至關重要。
了解更多關于數環通的應用程序接口集成平臺即服務(iPaaS)如何在進行數據集成的同時提升并強化您的數據完整性工作的內容。