Google Drive 到 Google Cloud Storage 传输算子¶
Google 有两项存储数据的服务。Google Cloud Storage 用于存储来自各种应用程序的大数据。Google Drive 用于存储日常使用数据,包括文档和照片。Google Cloud Storage 与 Google Cloud 服务紧密集成。Google Drive 具有内置机制,可促进团队协作,例如文档编辑器、文件共享机制。
先决任务¶
要使用这些算子,您必须执行以下操作
使用Cloud 控制台选择或创建一个 Cloud Platform 项目。
为您的项目启用帐单,如Google Cloud 文档中所述。
启用 API,如Cloud 控制台文档中所述。
通过pip安装 API 库。
pip install 'apache-airflow[google]'可以在 安装 中找到详细信息。
操作符¶
使用 GoogleDriveToGCSOperator
操作符在 Google 存储和 Google 云端硬盘之间传输文件。
复制单个文件¶
以下操作符将单个文件从共享的 Google 云端硬盘文件夹复制到 Google Cloud Storage 存储分区。
请注意,可以通过将共享分区的 ID 同时传递给 folder_id
和 drive_id
参数,将文件从共享分区的根文件夹传输。
upload_gdrive_to_gcs = GoogleDriveToGCSOperator(
task_id="upload_gdrive_object_to_gcs",
gcp_conn_id=CONNECTION_ID,
folder_id=FOLDER_ID,
file_name=DRIVE_FILE_NAME,
bucket_name=BUCKET_NAME,
object_name=OBJECT,
)
可以使用 Jinja 模板 和 bucket_name
、object_name
、folder_id
、file_name
、drive_id
、impersonation_chain
参数,这些参数允许你动态确定值。