三级片网址

行業觀點 / Solution Information

“機場交通大腦”數據集成淺析

2020-07-22

三级片网址機場現場交通數據的準確、及時采集是“機場交通大腦”發揮“大腦”能力的基礎,是系統建設內容的核心內容之一。在明確橫向聯通、縱向貫通的數據采集范圍后,本文通過探討數據采集的來源和可行方式,嘗試探討明確各數據采集的技術方案和實施路線。


圖 1 數據是機場交通大腦發揮效能的基礎

一、需要關注的問題

三级片网址數據治理是數據集成的基礎,其通過組織和系統現狀調研,提供一系列規章、流程來明確數據管理責任和數據集成方案,確保數據集成的安全可靠,并構建完善的組織保障體系,構建數據質量的長效機制。

技術上的暫時成功不等于數據集成成功,安全、可靠、長久的數據集成必須借助完善的數據治理過程提供保障和支持。


圖 2 數據治理是數據集成長效機制的保證

二、數據集成方案設計

數據來自組織內部和外部協調,邏輯上劃分為內部數據采集和外部數據采集。基于華東地區幾個典型機場的調研和分析,數據分布大概如下:


圖 3 數據采集來源

1、內部數據采集包括:


圖 4 內部數據采集

2、外部數據采集包括:


圖 5 外部數據采集

數據主要呈現為四種形態,包括關系數據、文本數據(通知通告、宣傳語等)、圖片數據(卡口照片等)和流數據(卡口視頻等)。

三级片网址 異步批量采集、同步流式采集和流批一體采集是當下最為流行的三種數據采集方式。對業務需求、系統現狀和投資成本綜合評估后,建議機場交通大腦采用異步批量數據采集方式:

三级片网址 1、機場交通大腦并不是實時交易系統,批量數據采集(合理的采集周期設計)能夠滿足其數據新鮮度的需求。

2、批量數據采集不需要業務系統改造,通過受限的ETL外掛腳本實現數據采集,因此業務穩定性高、實現成本低。

三级片网址 2、批量數據采集不需要業務系統改造,通過受限的ETL外掛腳本實現數據采集,因此業務穩定性高、實現成本低。

三级片网址 3、外部協調的數據,不能要求外部組織系統對接和改造,通過受限的文件交換,是目前最為可行的方式。

因此,“機場交通大腦”數據采集整體技術方案如下:


圖 6 機場交通大腦數據采集方案

三、集成開發和監測

推薦采用Kettle完成機場交通大腦數據采集,其對關系數據、文本數據和圖片數據的異步批量ETL支持非常穩定,實施成本低廉,并且Kettle具備完善的監控工具。


三级片网址 圖 7 Kettle優勢對比

Kettle是一款開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,數據抽取高效穩定。支持管理來自不同數據庫的數據,包括國內達夢數據庫,通過圖形化的用戶環境來支持腳本編寫和數據監控。Kettle中有兩種腳本文件,Transformation完成針對數據的基礎轉換,Job則完成整個工作流的控制,在國內項目應用日趨廣泛。


三级片网址 圖 8 Kettle六大優勢

以下分別給出關系數據ETL和文本文件ETL,進一步探討Kettle的適用性。

1、關系數據ETL

內部數據采集建議采用可控數據表ETL的方式進行采集,通過Kettle實現增量、周期(秒級)數據采集。


圖 9 內部數據采集

2、文本文件ETL

外部數據通常采用文件交互方式,通過Kettle可以方便對文本文件進行增量、周期(秒級)數據采集,并轉換到數據表中。


圖 10 外部數據采集

三级片网址 另外,Kettle通過JS腳本、Java腳本來支持數據轉換擴展,數據源上支持消息總線、HTTP協議對接、FTP協議對接,轉換目標支持圖片入庫、索引入庫等,并且新版增強了對BIG DATA的支持。Kettle逐漸成為大數據平臺的必要技術組件。

四、陷阱和問題規避

四、陷阱和問題規避 數據集成不僅僅是技術問題,因此僅僅靠構建一套ETL工具并不能實現完善的數據集成,有效的數據集成必須解決數據標準、數據責任、數據質量三個重點問題,解決這些問題的核心過程是數據治理。解決好這三個問題后,即使沒有成套ETL工具支撐,依靠定制化數據接口采集對接開發也能達到數據集成目標。

通過ETL成套工具,可以大大提升數據集成效能和集成監控,能夠實現數據集成的持續,穩固數據集成的長效成果。


圖 10 數據集成的長效機制離不開數據治理和ETL工具

<全文完>

返 回