什么是數據完整性?數據溯源對于數據完整性的重要性
您是否曾與客戶服務代表交談以更正個人詳細信息——例如姓名拼寫錯誤(例如:Michelle而不是Michael)、轉置街道號碼(例如:1/34單元,而不是34/1單元)或其他缺失或不正確的細節?這些是數據完整性失敗的情況。
與數據完整性失敗相關的其他現實后果包括:
由于帳號錯誤,難以從金融交易中收回資金。
由于嵌入笑臉表情符號,移動支付失敗。
由于地址錯誤,從未收到過包裹,例如,在不同州為同一郊區名稱使用了錯誤的郵政編碼。
事實上,旨在保護正確數據的業務政策使修復數據錯誤變得痛苦。雖然保護個人身份信息(PII)的政府法規使注冊后更改PII數據對客戶來說變得困難和勞動密集型。為了避免像這些例子中那樣影響客戶體驗,我們需要強大的數據完整性。
數據完整性是一個必要的業務績效流程,對于應對數據在注冊、復制和以其他方式從現實世界的事實和事件中轉錄時所經歷的錯誤至關重要。
隨著組織越來越多地使用的數字流程變得數據驅動,特別是通過使用機器學習,有效做出數據驅動的業務決策的能力越來越受到組織運營和分析數據的完整性的影響。
以下將探討數據完整性在您組織中的作用。
什么是數據完整性?
完整性意味著數據是可信和依賴的。在會計學中,財務業績的報告標準意味著財務報表中報告的數字必須準確、完整和一致。
數據完整性也適用同樣的標準。這些因素可以應用于數據來測試其完整性:
它是完整的,沒有缺失的數據元素
它是準確的,沒有來自源的數據錯誤
它在不同背景下是一致的
它是及時和最新的
當這四個條件不滿足時,數據可能會通過完整性措施。其中許多并不明顯,這些問題有時只能通過業務流程失敗或全面的數據分析工作來發現。
數據不完整
由于信息系統的歷史限制,由于字段不足,可能無法捕獲所有數據。由于數據模式的可擴展性,這在今天不太常見,然而,它可能會導致數據在錯誤的字段中捕獲(錯誤分類)或在需要更多時濃縮到一個字段中。這引入了噪音,降低了可用性。
雖然許多系統都有必填字段,但過多的必填字段將減慢客戶注冊流程。這種商業選擇也可能導致數據不完整。
數據不準確
許多類型的數據,如SSN和駕駛執照號碼,由一長串容易發生人為錯誤的數字組成。此外,拼寫錯誤或使用在下游數據處理工作中需要清除的奇數字符會影響數據的可用性。
其他錯誤,如虛榮的出生年份(故意讓自己看起來更年輕或更老)更難被發現。存在業務邏輯錯誤的派生或推斷字段也會影響準確性。僅支持男性/女性性別的舊系統也有問題。
數據不準確(和不完整)偶爾可以通過與權威來源進行回顧性數據匹配來修復。有了大型數據集,這種方法可能無效或受到監管限制的禁止。
數據不一致
另一類數據完整性問題是自然事實與數據之間的不一致性。
業務流程將真實事實記錄在企業數據倉庫和內部及跨組織的注冊表中?;蛘?,記錄系統和具有數據副本的輔助系統之間存在不一致,這本身成為事實來源,導致兩個權威來源不一致。
這發生在一個主要銀行,一個新的“VP”CRM系統與單獨的零售客戶CRM一起建立起來,新的VIP CRM中捕獲的更豐富的數據從未反饋給零售CRM,即使它們共享相同的客戶記錄。
數據不及時
即使數據完整、準確且一致,也可能存在完整性問題。
這可能是因為數據過時(由于批量/ETL處理);有效載荷的時間戳計算錯誤(系統時間而非事件時間);或用于計算有效日期的標準與實際日期不同?;蛘邇H僅是因為數據陳舊,需要刷新。
這可能發生在使用發票發出日期而非采購訂單日期(即合同日期)時。這也是客戶聯系流程需要不斷重新確認客戶關鍵主數據的原因。
數據不真實
雖然這不一定與會計數據相關,但對于PII(個人可識別信息)數據,我們尤其需要警惕客戶的身份是否真實,尤其是在注冊時。隨著網絡釣魚和欺騙手段的日益猖獗,公司必須竭盡全力確??蛻舻纳矸輸祿状屋斎霑r就是準確和完整的。
生產系統中存在的一種不真實數據是測試數據。雖然最佳實踐表明生產系統中不應包含測試數據,但這種情況很少見,因為操作員不得不在生產系統中進行測試以進行業務常規(BAU)更改。
數據溯源對于數據完整性的重要性
執行或降低數據溯源的業務流程與促進收入增長或降低成本的業務流程同樣重要。
數據溯源對于確保數據的來源(事實)以及數據在復制和其他變化過程中發生的情況(譜系)未被破壞或損壞至關重要。同時,不僅數據本身,數據的定義(元數據)也必須盡可能保持一致。
許多組織都有嚴格的事實登記制度。在銀行中,這被稱為KYC(了解你的客戶)。在醫療領域,FHIR和HL7對病人和藥品數據進行了高度標準化。在其他監管較少的行業中,這一流程則存在于他們的客戶360系統中。
監管較少的行業可能會選擇優先提高登記速度,而不是捕獲詳盡的客戶詳細信息(這會影響完整性)。缺失或不一致的數據對下游流程的影響是,限制了最大限度地發揮這種關系價值的能力,例如通過高度個性化的營銷活動,并且由于數據缺失導致客戶粘性不足,轉化率仍然很低。
為了在任何業務數據中實現業務流程之間價值交換的最大效益,關鍵數據必須完整、準確,并與真實(或自然)的事實和事件以及組織業務邊界內相關數據存儲中的情況保持一致。同時,出于監管和合規目的,向外部世界提供這些事實和事件的數據完整性也至關重要。