時間:2022-04-25 16:20:12 次數:1783
巨龍信息大數據集成系統是一款基於分布式並行計算架構開發的ETL數據集成系統。具備高吞吐、高可用、高擴展特性,可以爲海量數據的超大規模數據倉庫建設提供抽取、整合、清洗、入庫等集成業務。
產品特徵
■高吞吐處理能力:採用多線程處理算法,高效的內存利用率;任務運行過程無需本地磁盤IO操作,提升整體單位時間的大批量處理能力;支持TB/h級的大數據集成業務性能。
■高擴展、高可靠:並行架構提升單機處理能力的線性擴展;新增執行引擎的快速部署和自動識別,分布式架構提升多機處理能力的線性擴展;執行引擎宕機的自動識別和任務轉移,保證任務的順利執行。
■可視化流程配置:通過簡單的圖形拖拽配置數據集成流程,簡單易用的專業化配置。
■集成業務全流程監控:可對處理過程的每個步驟,每個子流程處理進行實時監控,簡單快速發現處理過程遇到的漏數據,錯處理等問題。
■統一的元數據模型:基於統一公共倉庫元模型,可與公司產品線其他產品無縫對接,簡化整體解決方案的實施運維。
■大數據技術支持:支持主流的關系型數據庫,NOSQL數據庫,全文庫處理等主流大數據產品的抽取入庫,以及異構庫之間的抽取入庫。
■低廉的硬件成本:使用x86架構的PCServer,無需昂貴的unix服務器。
技術亮點
高性能
■任務的水平切分
一個分布式ETL任務會根據分區自動被分片到多臺ETL-執行引擎中,每個執行引擎的執行容器使用多線程並發的對數據進行加工處理後加載到數據倉庫中。當源頭庫單表數據量巨大時,可極大提升整體的數據集成效率和性能
■任務拓撲切分
一個任務的各個步驟,可根據現場物理設備的實際配置,合理地安排到不同的物理設備上,保證硬件資源滿足步驟的執行
高擴展
■集羣處理能力的線性擴展
Ø 集羣處理能力的快速擴充
Ø 集羣自動識別和熱部署新增執行引擎
■多集羣組
Ø 根據業務劃分集羣組,使關注點分離
Ø 集羣組有利於異常幹擾的隔離
■單任務並行計算
Ø 任務步驟的獨立線程數可配置
Ø IO的合理平衡
Ø 內存空間的合理利用,減少內存垃圾回收率
■任務的分布式調度
Ø 帶權重的負載均衡算法,可根據設備處理能力安排並發任務數
Ø 控制中心對集羣環境的自動負載均衡
高可用
■異常數據分流
Ø 可選的異常數據分流機制,保證不影響正常流程的情況下異常數據分流
Ø 保證每個步驟出現的異常數據轉儲到指定地點,不丟失
■控制中心HA
■任務的異常處理
Ø 自動感知執行引擎異常,將異常設備的任務轉發到正常設備上重新執行
Ø 任務在一臺設備上執行過程出現錯誤,自動重新在另外一臺設備重新執行