集成整個(gè)組織的數(shù)據(jù)可以讓您更好地了解客戶、簡(jiǎn)化運(yùn)營(yíng)并幫助團(tuán)隊(duì)做出更好、更快的決策。但整合數(shù)據(jù)并不容易。
通常,組織使用各種工具和系統(tǒng)(例如數(shù)據(jù)攝取服務(wù))從不同來源收集數(shù)據(jù)。數(shù)據(jù)通常存儲(chǔ)在孤島中,這意味著必須將其移至數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)中,然后才能運(yùn)行分析、人工智能 (AI) 或機(jī)器學(xué)習(xí) (ML) 工作負(fù)載。在數(shù)據(jù)準(zhǔn)備好進(jìn)行分析之前,需要對(duì)其進(jìn)行組合、清理和規(guī)范化,這一過程也稱為提取、轉(zhuǎn)換、加載 (ETL),這可能非常費(fèi)力且容易出錯(cuò)。
在 AWS,我們的目標(biāo)是讓組織更輕松地連接到所有數(shù)據(jù),并以客戶所需的速度和敏捷性實(shí)現(xiàn)這一點(diǎn)。我們基于以下目標(biāo)開發(fā)了實(shí)現(xiàn)零 ETL 未來的開創(chuàng)性方法:打破數(shù)據(jù)孤島,使數(shù)據(jù)集成更容易,并加快數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的步伐。
合并來自不同來源的數(shù)據(jù)就像將一堆礫石從一個(gè)地方移動(dòng)到另一個(gè)地方一樣,這是一項(xiàng)困難、耗時(shí)且常常令人不滿意的工作。首先,ETL 經(jīng)常要求數(shù)據(jù)工程師編寫自定義代碼。然后,DevOps 工程師或 IT 管理員必須部署和管理基礎(chǔ)設(shè)施,以確保數(shù)據(jù)管道的擴(kuò)展。當(dāng)數(shù)據(jù)源發(fā)生變化時(shí),數(shù)據(jù)工程師必須手動(dòng)更改代碼并重新部署。
此外,當(dāng)數(shù)據(jù)工程師遇到數(shù)據(jù)復(fù)制滯后、架構(gòu)更新中斷以及源和目標(biāo)之間的數(shù)據(jù)不一致等問題時(shí),他們必須花費(fèi)時(shí)間和資源來調(diào)試和修復(fù)數(shù)據(jù)管道。在準(zhǔn)備數(shù)據(jù)時(shí)(這個(gè)過程可能需要幾天時(shí)間),數(shù)據(jù)分析師無法運(yùn)行交互式分析或構(gòu)建儀表板,數(shù)據(jù)科學(xué)家無法構(gòu)建機(jī)器學(xué)習(xí)模型或運(yùn)行預(yù)測(cè),較終用戶(例如供應(yīng)鏈經(jīng)理)也無法做出數(shù)據(jù)驅(qū)動(dòng)的決策。
這個(gè)漫長(zhǎng)的過程扼殺了任何實(shí)時(shí)用例的機(jī)會(huì),例如根據(jù)交通狀況將司機(jī)分配到路線、放置在線廣告或向乘客提供列車狀態(tài)更新。在這些情況下,可能會(huì)失去改善客戶體驗(yàn)或解決新業(yè)務(wù)前景的機(jī)會(huì)。
零 ETL 支持通過聯(lián)合查詢就地查詢數(shù)據(jù),并以零工作量自動(dòng)將數(shù)據(jù)從源移動(dòng)到目標(biāo)。這意味著您可以近乎實(shí)時(shí)地對(duì)事務(wù)數(shù)據(jù)進(jìn)行分析、連接到軟件應(yīng)用程序中的數(shù)據(jù)以及從數(shù)據(jù)存儲(chǔ)中生成 ML 預(yù)測(cè)以更快地獲得業(yè)務(wù)洞察,而不必將數(shù)據(jù)移動(dòng)到 ML 工具。您還可以跨數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖查詢多個(gè)數(shù)據(jù)源,而移動(dòng)數(shù)據(jù)。為了完成這些任務(wù),我們?cè)诜?wù)之間構(gòu)建了各種零 ETL 集成,以解決許多不同的用例。
例如,假設(shè)一家在十幾個(gè)國(guó)家/地區(qū)設(shè)有工廠的制造公司使用數(shù)據(jù)庫(kù)集群來存儲(chǔ)每個(gè)國(guó)家/地區(qū)的訂單和庫(kù)存數(shù)據(jù)。為了實(shí)時(shí)查看所有訂單和庫(kù)存,該公司必須在每個(gè)集群與中央數(shù)據(jù)倉(cāng)庫(kù)之間構(gòu)建單獨(dú)的數(shù)據(jù)管道,以便跨組合數(shù)據(jù)集進(jìn)行查詢。為此,數(shù)據(jù)集成團(tuán)隊(duì)必須編寫代碼來連接到 12 個(gè)不同的集群并管理和測(cè)試 12 個(gè)生產(chǎn)管道。團(tuán)隊(duì)部署代碼后,必須不斷監(jiān)控和擴(kuò)展管道以優(yōu)化性能,當(dāng)發(fā)生任何變化時(shí),他們必須在 12 個(gè)不同的地方進(jìn)行更新。通過使用Amazon Aurora 零 ETL 與 Amazon Redshift 集成,數(shù)據(jù)集成團(tuán)隊(duì)可以消除構(gòu)建和管理自定義數(shù)據(jù)管道的工作。
另一個(gè)例子是銷售和運(yùn)營(yíng)經(jīng)理正在尋找公司銷售團(tuán)隊(duì)?wèi)?yīng)重點(diǎn)關(guān)注的領(lǐng)域。使用完全托管的無代碼集成服務(wù) Amazon AppFlow,數(shù)據(jù)分析師可以將銷售機(jī)會(huì)記錄從 Salesforce 提取到 Amazon Redshift 中,并將其與來自不同來源(例如計(jì)費(fèi)系統(tǒng)、ERP 和營(yíng)銷數(shù)據(jù)庫(kù))的數(shù)據(jù)相結(jié)合。通過分析所有這些系統(tǒng)中的數(shù)據(jù)進(jìn)行銷售分析,銷售經(jīng)理能夠無縫更新銷售儀表板,并為團(tuán)隊(duì)提供正確的銷售機(jī)會(huì)。
在一個(gè)現(xiàn)實(shí)世界的用例中, Magellan Rx Management (現(xiàn)在是 Prime Therapeutics 的一部分)。使用數(shù)據(jù)和分析來提供改善患者護(hù)理、優(yōu)化成本和改善結(jié)果的臨床解決方案。該公司通過其 MRx Predict 解決方案開發(fā)和提供這些分析,該解決方案使用各種數(shù)據(jù)(包括藥房和醫(yī)療索賠以及人口普查數(shù)據(jù))來優(yōu)化預(yù)測(cè)模型的開發(fā)和部署,并較大限度地提高預(yù)測(cè)準(zhǔn)確性。
在 Magellan Rx Management 開始使用 Redshift ML 之前,其數(shù)據(jù)科學(xué)家通過使用各種工具執(zhí)行一系列步驟得出了預(yù)測(cè)。他們必須在 SageMaker 中確定適當(dāng)?shù)?ML 算法或使用 Amazon SageMaker Autopilot,從數(shù)據(jù)倉(cāng)庫(kù)導(dǎo)出數(shù)據(jù),并準(zhǔn)備訓(xùn)練數(shù)據(jù)以使用這些模型。部署模型后,科學(xué)家們使用新數(shù)據(jù)進(jìn)行了各種迭代以進(jìn)行預(yù)測(cè)(也稱為推理)。這涉及通過一系列手動(dòng)步驟在 Amazon Redshift 和 SageMaker 之間來回移動(dòng)數(shù)據(jù)。
借助 Redshift ML,該公司的分析師可以通過輕松創(chuàng)建和使用 ML 模型來對(duì)新藥進(jìn)行市場(chǎng)分類。通過利用 Redshift ML 支持此流程所獲得的效率提高了生產(chǎn)力、優(yōu)化了資源并產(chǎn)生了高度的預(yù)測(cè)準(zhǔn)確性。
我們的使命是讓客戶輕松地從他們的數(shù)據(jù)中獲得較大價(jià)值,而集成服務(wù)是此過程的關(guān)鍵。這就是我們今天致力于構(gòu)建零 ETL 未來的原因。通過數(shù)據(jù)工程師可以自由地專注于從數(shù)據(jù)中創(chuàng)造價(jià)值,組織可以加速數(shù)據(jù)的使用,以簡(jiǎn)化運(yùn)營(yíng)并推動(dòng)業(yè)務(wù)增長(zhǎng)。