国产在线一区二区三区_美女福利网站_日韩一区二区在线视频_天天干视频_亚洲一级毛片_精品免费国产

在線咨詢

NaN

在線咨詢二維碼
聯系電話

微信交流群

微信交流群二維碼
回到頂部

回到頂部

如何正確ETL數據工具?

ETL

作者: 數環通發布時間: 2023-08-30 16:09:16

ETL數據工具對任何公司來講都是必不可少的工具。本文將從從 ETL 對平臺的支持、對數據源的支持、數據轉換功能、管理 和調度功能、集成和開放性、對元數據管理等功能出發介紹如何正確選擇ETL數據工具。


圖5.png


支持平臺


隨著各種應用系統數據量的飛速增長和對業務可靠性等要求的不斷提高,人們對數據抽 取工具的要求往往是將幾十、上百個 GB 的數據在有限的幾個小時內完成抽取轉換和裝載工 作,這種挑戰勢必要求抽取工具對高性能的硬件和主機提供更多支持。 


因此,我們可以從數據抽取工具支持的平臺,來判斷它能否勝任企業的環境,目前主流 的平臺包括 SUN Solaris、HP-UX、IBM AIX、AS/400、OS/390、Sco UNIX、Linux、Windows 等。


支持數據源


對數據源支持的重要性不言而喻,因此這個指標必須仔細地考量。


首先,我們需要對項 目中可能會遇到的各種數據源有一個清晰的認識;


其次對各種工具提供的數據源接口類型也要有深入了解,比如,針對同一種數據庫,使用通用的接口(如 ODBC/JDBC)還是原廠商自 己的專用接口,數據抽取效率都會有很大差別,這直接影響到我們能不能在有限的時間內完 成 ETL 任務。

常見的數據源供參考:DB2、Informix、Oracle、Sybase、SQL Server、 Teredata、OleDB、SAS、Text、Excel、SAP、Peoplesoft、IMS、VSAM、QSAM on 390、FTP、 XML、MessageQueue、Weblog 等。


數據轉換功能


數據轉換是 ETL 中最令人頭疼的問題,由于業務系統的開發一般有一個較長的時間跨度, 這就造成一種數據在業務系統中可能會有多種完全不同的存儲格式,甚至還有許多數據倉庫分析中所要求的數據在業務系統中并不直接存在,而是需要根據某些公式對各部分數據進行 計算才能得到。


因此,這就要求 ETL 工具必須對所抽取的數據進行靈活的計算、合并、拆分 等轉換操作。


通常情況下,我們遇到的 ETL 轉換要求包括:


字段映射;映射的自動匹配;字段的拆分; 多字段的混合運算;跨異構數據庫的關聯;自定義函數;多數據類型支持;復雜條件過濾; 支持臟讀;數據的批量裝載;時間類型的轉換;對各種碼表的支持;環境變量是否可以動態 修改;去重復記錄;抽取斷點;記錄間合并或計算;記錄拆分;抽取的字段是否可以動態修 改;行、列變換;排序;統計;度量衡等常用的轉換函數;代理主鍵的生成;調試功能;抽取遠程數據;增量抽取的處理方式;制造樣品數據;在轉換過程中是否支持數據比較的功能; 數據預覽;性能監控;數據清洗及標準化;按行、按列的分組聚合等。


管理和調度功能

由于我們對數據抽取的要求越來越高以及專業 ETL 工具的不斷涌現,ETL 過程早已不再 是一個簡單的小程序就可完成的,目前主流的工具都采用像多線程、分布式、負載均衡、集 中管理等高性能高可靠性與易管理和擴展的多層體系架構。因此,這就要求 ETL 在管理和調 度功能上都具備相應的功能。

管理和調度的基本功能包括:


抽取過程的備份與恢復;升級;版本管理;開發和發布; 支持統一以及自定義的管理平臺;支持時間觸發方式;支持事件觸發方式;支持命令行執行 方式;支持用戶對計算機資源的管理和分配;負載均衡;文檔的自動生成;調度過程中能否 執行其他任務等。


集成和開放性


隨著數據倉庫技術在國內應用的不斷深入,許多開發商希望不向用戶提供 ETL 工具的原 來操作界面,而是將其一些主要功能模塊嵌入到自己的系統或其他廠商的系統中,因為在大 多數情況下一般項目只會用到 ETL 工具的少數幾個功能,同時也沒有必要給用戶提供那么復 雜的操作環境,其結果反而使用戶容易產生操作錯誤。

上述問題就要求 ETL 工具能提供很好的集成性和開放性,


可以從幾方面考量:


與 OLAP 集成;與前端工具集成;與建模工具集成;開放的 API 可將產品集成到統一界面;是否能調 用各種外部應用,包括存儲過程、各種流行語言開發的應用程序等;是否支持客戶化定制的 轉換過程;是否支持與統計分析工具的集成等。


管理元數據


元數據是關于數據的數據,尤其對于 ETL 來說尤其重要。ETL 中大量的數據源定義、映 射規則、轉換規則、裝載策略等都屬于元數據范疇,如何妥善地存儲這些信息已經關系到 ETL 過程能否順利完成而且影響到后期的使用和維護。任何業務邏輯的微小改變最終都落實為相 應元數據的調整,初期沒有一個完善的元數據管理功能而后期作類似調整幾乎是“不可完成 的任務”。基于元數據的重要性,國際組織提出一些統一的元數據存儲標準,比較知名的如 CWM 等,為不同廠商工具之間互操作提供了可能性,相信也是今后的發展趨勢。

針對 ETL 的元數據管理,應包括:


元數據存儲的開放性;元數據存儲的可移植 性;提供多種方式訪問元數據;元數據的版本控制;支持開放的元數據標準;支持 XML 進行 元數據交換;支持分布式的元數據訪問和管理;生成元數據報表;對于 ETL 過程的沖突分析; 基于元數據的查詢功能;元數據的廣播和重用;對于 ETL 過程的流程分析等。


主流的 ETL 工具


目前市場上主流的 ETL 工具可以分為兩大類:


一類是專業 ETL 廠商的產品,這類產品一 般都具備較完善的體系結構和久經考驗的產品,產品的功能之復雜和詳盡,往往能令初次接 觸的人膛目,但其高昂的價格也會使一般用戶望而卻步;


另一類是整體數據倉庫方案供應商,他們在提供數據倉庫存儲、設計、展現工具的同時也提供相應的 ETL 工具,這類產品一般對 自己廠商的相關產品有很好的支持并能發揮出其最大效率,但結構相對封閉,對其他廠商產 品的支持也很有限。

專業 ETL 廠商和產品包括 Ascential 公司的 DataStageXE、Sagent 公司的 Solution 和 Informatica 公司的產品,


整體方案提供商和產品則包括 Oracle 公司的 Warehouse Builder 和 IBM 公司的 Warehouse Manager , IBM Datastage


來數環通,無需代碼,為你提供ETL數據工具,幫助企業降本增效!


數環通數據連接器iPaaS是一款開箱即用、安全穩定與多場景適用的一站式企業級應用集成平臺?;谠圃ㄟ^預置連接器、可視化流程編排和API治理等能力,將企業內外部不同的業務、活動、應用、數據、API、設備連接起來,實現各個系統間的業務銜接、數據流轉、資源整合,高效實現企業上下游、內外網應用系統的數據互通,從而實現企業流程自動化,助力企業敏捷創新發展和數字化轉型升級。


目前,數環通已對接打通釘釘、金蝶云、維格表、抖音、企業微信、CRM、巨量千川、用友等1000+應用系統,擁有超20000+指令動作,且持續周周更新。能夠快速擴展您現有系統的功能,并將各個系統串聯起來。


中國南方電網、易方達基金、綠城中國、認養一頭牛、迪卡儂等數千家企業已選擇數環通助力企業數字化經營。


品牌墻.jpg

相關文章推薦
ETL是什么?
ETL數據工具有哪些?
市場上常用的4款ETL數據工具優缺點分析
含淚總結的10個ETL數據工具 趕緊收藏
超詳細的六款主流ETL工具介紹及功能對比
免費試用,體驗數環通為業務帶來的新變化