airflow.providers.trino.transfers.gcs_to_trino
¶
此模块包含 Google Cloud Storage 到 Trino 的操作符。
模块内容¶
类¶
将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。 |
- class airflow.providers.trino.transfers.gcs_to_trino.GCSToTrinoOperator(*, source_bucket, source_object, trino_table, trino_conn_id='trino_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.models.BaseOperator
将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。
假设:1. CSV 文件不应包含标题 2. 具有所需列的 Trino 表已创建 3. (可选)可以提供带有标题的单独 JSON 文件
- 参数
source_bucket ( str ) – 包含 CSV 文件的源 GCS 存储桶
source_object ( str ) – 包括路径的 CSV 文件
trino_table ( str ) – 用于上传数据的 Trino 表
trino_conn_id ( str ) – 目标 Trino 连接
gcp_conn_id ( str ) – (可选)用于连接到 Google Cloud 并与 Google Cloud Storage 服务交互的连接 ID。
schema_fields ( collections.abc.Iterable[str] | None ) – 要填充到表中的列的名称。如果提供了 schema_fields,则在架构对象中提供的任何路径都将被忽略。
schema_object ( str | None ) – 包含架构字段的 JSON 文件
impersonation_chain ( str | collections.abc.Sequence[str] | None ) – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该列表将在请求中进行模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的身份必须将“服务帐户令牌创建者”IAM 角色授予紧接的前一个身份,列表中的第一个帐户将此角色授予原始帐户。
- template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'trino_table')[源代码]¶