Google Cloud BigQuery 传输算子到 Google Cloud Storage¶
Google Cloud BigQuery 是 Google Cloud 提供的无服务器数据仓库。Google Cloud Storage (GCS) 是一项托管服务,用于存储非结构化数据。此算子可用于将数据从 BigQuery 表格导出到 Cloud Storage 存储分区中的文件。
先决条件任务¶
要使用这些算子,您必须执行以下几项操作
使用 Cloud 控制台 选择或创建 Cloud Platform 项目。
为您的项目启用帐单,如 Google Cloud 文档 中所述。
启用 API,如 Cloud 控制台文档 中所述。
通过 pip 安装 API 库。
pip install 'apache-airflow[google]'有关详细信息,请参阅 安装。
操作符¶
使用 BigQueryToGCSOperator
操作符执行从 BigQuery 到 GCS 的表导出。
使用 Jinja 模板 和 source_project_dataset_table
, destination_cloud_storage_uris
, export_format
, labels
, impersonation_chain
, job_id
动态定义值。
你可以定义多个目标 URI,以及 compression
和 export_format
等其他设置。有关更多信息,请参阅以上链接。
导出表¶
以下操作符将 BigQuery 表导出到 GCS。
bigquery_to_gcs = BigQueryToGCSOperator(
task_id="bigquery_to_gcs",
source_project_dataset_table=f"{DATASET_NAME}.{TABLE}",
destination_cloud_storage_uris=[f"gs://{BUCKET_NAME}/{BUCKET_FILE}"],
)