Skip to main content

連結至 Azure Blob

開始之前

在開始之前,請先了解如何創建資料來源

Step1: 至 Data Sources 頁面#

請點擊側欄的 Data Sources 至資料來源設定頁面

nav_to_data_source

Step2: 創建資料來源#

點擊右上方的 Create a Data Source,設定以下資訊在彈出表單中

Basic#

  • Name: 資料庫名稱,供顯示使用,後續可作修改
  • Data Source Type: 資料庫類型,請選擇 Azure Blob

Data Source Properties#

表單中有個欄位是 Scan Type,其中有三個模式可選擇

1. Scan Type: Directory#

以下情境適用:

A. 該路徑下有多個資料夾,而每個資料夾下檔案的格式 (csv, parquet, json or orc) 皆為一樣,使用者希望每個資料夾都是獨立的 Table,檔案結構如下圖

sf1/
├─ lineitem/
│ ├─ 2021_1_1.csv
│ ├─ 2021_1_2.csv
├─ orders/
│ ├─ 2021_1_1.csv
│ ├─ 2021_1_2.csv
  • URL: 格式為 wasbs://<container>@<storage account>.blob.core.windows.net/<路徑>,可參考 FAQ > 如何取得 Azure Blob URL ? 了解如何組成 URL,依照上述範例,該 URL 會是 wasbs://container@storage-account.blob.core.windows.net/sf1
  • Recursive Scan: 若資料夾下還有資料夾,希望全部都 Query 到的話,可勾選此欄位

設定成功後,會出現兩張 Table (lineitem 及 orders)

B. 該路徑下有多個檔案,而每個檔案的格式 (csv, parquet, json or orc) 皆為一樣,使用者希望每個檔案都是獨立的 Table,檔案結構如下圖

sf1/
├─ orders/
│ ├─ 2020.csv
│ ├─ 2021.csv
  • URL: 格式為 wasbs://<container>@<storage account>.blob.core.windows.net/<路徑>,可參考 FAQ > 如何取得 Azure Blob URL ? 了解如何組成 URL,依照上述範例,該 URL 會是 wasbs://container@storage-account.blob.core.windows.net/sf1/orders
  • Recursive Scan: 若資料夾下不只檔案,還有資料夾,且希望全部都 Query 到的話,可勾選此欄位

設定成功後,會出現兩張 Table (2020 及 2021)

2. Scan Type: Single file path#

直接連結單一檔案

  • URL: 格式為 wasbs://<container>@<storage account>.blob.core.windows.net/<路徑>,可參考 FAQ > 如何取得 Azure Blob URL ?,該 URL 會是 wasbs://container@storage-account.blob.core.windows.net/sf1/orders/2021.csv

3. Scan Type: Multiple file paths#

適用檔案結構較為雜亂,可指定 include/exclude 特定的 file pattern

event/
├─ other/
│ ├─ test.parquet
├─ lineitem_2021/
│ ├─ 2021_01.csv
│ ├─ 2021_02.csv
│ ├─ .metadata
├─ lineitem_2020/
│ ├─ 2020_01.csv
│ ├─ .metadata
  • Basic URI: 以此 Base URI 為開頭,可接續設定 Include file pathsExclude file paths,格式為 wasbs://<container>@<storage account>.blob.core.windows.net/<路徑>,可參考 FAQ > 如何取得 Azure Blob URL ?,該 URL 會是 wasbs://container@storage-account.blob.core.windows.net/event
  • Include file paths: 包含的檔案路徑,支援 wildcard (*),以上述檔案結構為例,可設定為 /lineitem_2021/*.csv
  • Exclude file paths: 不包含的檔案路徑,支援 wildcard (*)

其他欄位#

  • Blob Storage Account: 欲存取的 Storage Account
  • Blob Access Key: 可在 Storage Account > 存取金鑰 中的機碼複製 azure_blob_key
  • File Format: csv, parquet, json or orc
  • (若選擇 CSV) CSV With Headers: CSV 是否有 header
  • (若選擇 CSV) Separator Character: CSV 的分隔符號
  • Explore Timeout: 若 Explore 失敗並看到 Explore Timeout 錯誤,建議重新編輯,並調高此參數,讓 Explore 可執行較久

connect_az_blob

Submit 後,稍後片刻會跳回列表頁面,並可看到 Azure Blob 的資料來源在列表中

Step3: 探索資料來源的 Metadata#

Azure Blob 的資料來源上點擊 放大鏡 的 Icon,並在下拉選單中可看到 CannerFlow 探索出來的 Table,選擇 Table 後,可看到該 Table 的 Column 資訊

explore_az_blob

後續使用#

接下來,就可在 Workspace 中選擇資料來源中的 Table,請參考 工作區內 Table 管理

FAQ#

如何取得 Azure Blob URL ?#

儲存體帳戶 的頁面,點選欲使用的 storage account,點擊 容器,從清單找欲使用的 container azure_blob_ui

至此步驟,依照格式 wasbs://<container>@<storage account>.blob.core.windows.net/ 您可組成 URL 前面的部分,URL 路徑的部分,就是容器 (container) 中的檔案路徑.