Google Cloud BigQuery 转移算子到 Google Cloud Storage¶
Google Cloud BigQuery 是 Google Cloud 提供的无服务器数据仓库服务。Google Cloud Storage (GCS) 是一种用于存储非结构化数据的托管服务。此算子可用于将 BigQuery 表中的数据导出到 Cloud Storage 存储桶中的文件中。
先决条件任务¶
要使用这些算子,您必须执行以下几个操作
使用 Cloud Console 选择或创建云平台项目。
按照 Google Cloud 文档 中的说明,启用项目的结算功能。
按照 Cloud Console 文档 中的说明,启用 API。
通过 pip 安装 API 库。
pip install 'apache-airflow[google]'有关详细信息,请参阅 安装。
算子¶
从 BigQuery 到 GCS 的表导出是通过 BigQueryToGCSOperator
算子执行的。
使用 Jinja 模板 和 source_project_dataset_table
、destination_cloud_storage_uris
、export_format
、labels
、impersonation_chain
、job_id
来动态定义值。
您可以定义多个目标 URI,以及其他设置,如 compression
和 export_format
。有关更多信息,请参阅上面的链接。
导出表¶
以下算子将 BigQuery 表导出到 GCS。
bigquery_to_gcs = BigQueryToGCSOperator(
task_id="bigquery_to_gcs",
source_project_dataset_table=f"{DATASET_NAME}.{TABLE}",
destination_cloud_storage_uris=[f"gs://{BUCKET_NAME}/{BUCKET_FILE}"],
)