Skip to main content

ETL 挑戰與隱藏成本

在企業中 Canner 所與到的客戶在做很多不同的數據應用時,最常會聽的幾個詞 ETL, Data Warehouse & Data Mart ,這篇我們將會為您探討到一些 ETL 以及 Data Warehouse 的最常會遇到的就是成本被低估的問題,我們會從不同面向來探討各種不同的成本評估與考量的重點。

根據 “麥肯錫的報告” 指出,有超過 45% 的 IT 專案是超過 budget,然後有 56% 最終得到的商業價值是低於預期的。

此篇著重在 Data Warehouse 與 ETL 的成本,主要在 ETL 以及 Data Warehouse 架構有五大成本:

  1. 硬體機台
  2. 軟體授權
  3. 儲存空間
  4. 人力維護
  5. 建置成本

我們這邊會著重在分析在 維護以及隱藏成本部分

關於 ETL 維護成本

ETL 是在資料萃取上最常見的解決方案,我們來看在長期來看他的數據整合上有什麼隱藏成本最常被企業低估。

1. 維護與人力成本

ETL 架構就是把資料從一個地方搬移到另一個地方,會把各種不同資料儲存的資料做進階運算後整合進 Data Warehouse 中,這就會有許多維護上的考量因為需要確保這個數據渠道都是運作正常的,如果運作異常的時候要修復、要需要已經處理到哪個階段可以回溯已處理到的數據,讓數據渠道持續接下去運行。

2. 商務邏輯變更成本

商務數據應用是一個不斷改變的東西,當業務場景改變的時候 ETL 也要跟著更新,常常也因為邏輯變化太大需要重新建置新的 ETL 出來,另外在企業中也會延伸出新的商務應用這時候 ETL 也同時要擴充,最終 ETL 的維護成本會越來越大。

3. 數據架構改變成本

企業中數據儲存方式會不斷動態的調整,像是原本使用 Relational 資料庫會改成使用 NoSQL 或是在資料庫的資料可能會改放置在 Data Lake 的地方,數據架構改變是很常見且 ETL 的變更成本是非常大的一環。

4. 教育與交接成本

企業中有數百或數千個 ETL 是非常常見的,然而這些 ETL 的交接與教育,對於企業是一個非常高的成本,由於人才會流動而建置完成的數據渠道到了數百數千都是相當的難以交接與教育。

5. 資料來源變更成本

資料來源可能因為因為業務調整或是數據架構改變,要使用的數據改變,這時候會導致一個數據源的變更可能牽扯到數十數百個 ETL 需調整。

Canner 的 CannerFlow - 跨資料庫虛擬資料倉儲系統 - 讓您輕鬆的把數據孤島 連結、聚合、轉換、合作、到呈現 轉化為企業影響力。導入 CannerFlow 也只需要短短幾分鐘不需要像過去數日數月的時間建置數據渠道,且不需要擔心數據增長的問題 CannerFlow 會自動化的擴充運算與優化,讓企業可以滿足數據上的應用彈性以及競爭力。

關於 Data Warehouse 隱藏成本

通常 Data Warehouse 以大型企業在評估以及建置會花至少半年以上的時間規劃,因為其影響層面非常大,決定了 Data Warehouse 有很多隱藏成本上需要注意。

1. Schema 變動成本

在前述的 ETL 變動,通常都會牽連到的就是原本儲存在 Data Warehouse 中的數據儲存 schema 以及 data type,所以這時後如果較小的變更的話可能就是變更 type 如果是要變更 schema 例如新增或變更欄位的話會有許多上下游數據的變動成本。

2. Data Query 成本

由於 Data Warehouse 常常收費的方式不外乎就是 Concurrency, named users 以及機台規格,如雲端 Data Warehouse 常見的方式是你所 Query 的 data 量,由於是按照 Query 的使用量去做收費,所以一般在數據應用端還會再建置不同用途的 Data Mart 來降低授權費用。

3. 數據業務建 Data Mart

如果還要維護多套的 Data Mart 將會是一個非常大的成本,可能還會有多台的衛星資料庫在 Data Warehouse 周邊,所以會造成每個衛星資料庫都需要調教以及維護問題。

4. Data Warehouse 授權成本

由於當數據量處理越來越大以及使用者越來越多時,這時候會有許多 Data Warehouse 的授權費用無形中不斷墊高。

5. BI Ad-hoc Query (Hot data) 成本

使用 Data Warehouse 時,如直接連結應用端,會有許多額外的費用。例如在 BI 層的 Hot data cache 這些都是在導入 Data Warehouse 的隱藏成本。

資料虛擬化 - CannerFlow

使用 CannerFlow 資料虛擬化降低 ETL + Data Warehouse 隱藏成本。

使用 CannerFlow 可有效降低:

  1. 授權費用
  2. 初期建置費用
  3. 維護費用
  4. 維護 R&D 費用
  5. 交接及學習成本