airflow.providers.google.cloud.operators.dataplex
¶
此模块包含 Google Dataplex 操作符。
模块内容¶
类¶
在湖中创建任务资源。 |
|
删除任务资源。 |
|
列出给定湖下的任务。 |
|
获取任务资源。 |
|
在湖中创建湖资源。 |
|
删除湖资源。 |
|
创建 DataScan 资源。 |
|
获取 DataScan 资源。 |
|
删除 DataScan 资源。 |
|
按需执行 DataScan。 |
|
获取 Data Scan 作业资源。 |
|
创建 DataScan 数据分析资源。 |
|
获取 DataScan 数据分析资源。 |
|
删除 DataScan 数据分析资源。 |
|
按需执行 DataScan 数据分析扫描。 |
|
获取 DataScan 数据分析作业资源。 |
|
在湖中创建区域资源。 |
|
删除区域资源。必须先删除区域内的所有资产,然后才能删除该区域。 |
|
创建资产资源。 |
|
删除资产资源。 |
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateTaskOperator(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在湖中创建任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
dataplex_task_id (str) – 必需。任务标识符。
validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
asynchronous (bool) – 标记,指示是否应异步创建 Dataplex 任务。这对于长时间运行的创建任务以及使用 DataplexTaskSensor 异步等待它们非常有用。
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
dataplex_task_id (str) – 必需。任务标识符。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexListTasksOperator(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
列出给定湖下的任务。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
page_size (int | None) – 可选。要返回的最大任务数。服务可能会返回少于此值的结果。如果未指定,则最多返回 10 个任务。最大值为 1000;高于 1000 的值将被强制转换为 1000。
page_token (str | None) – 可选。从之前的 ListZones 调用收到的页面令牌。提供此令牌以检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用匹配。
filter (str | None) – 可选。筛选请求。
order_by (str | None) – 可选。结果的排序依据字段。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
dataplex_task_id (str) – 必需。任务标识符。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
-
execute(context
在创建操作符时派生。
上下文与渲染 jinja 模板时使用的字典相同。
有关更多上下文,请参阅 get_template_context。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateLakeOperator(project_id, region, lake_id, body, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在湖中创建湖资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。湖泊标识符。
validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
asynchronous (bool) – 标志,指示是否应异步创建 Dataplex 湖泊。这对于长时间运行的湖泊创建很有用。
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteLakeOperator(project_id, region, lake_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除湖资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。湖泊标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataQualityScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
data_scan_id (str) – 必需。数据质量扫描标识符。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段的掩码。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
Dataplex 数据扫描 ID
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
Dataplex 数据扫描
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
无
- class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, fail_on_dq_failure=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
按需执行 DataScan。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
asynchronous (bool) – 一个标志,指示 Dataplex 作业是否应异步运行。这对于提交长时间运行的作业并使用 DataplexDataQualityJobStatusSensor 异步等待它们非常有用。
fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会引发异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。
result_timeout (float) – 当标志 asynchronous = False 时,运算符将等待数据质量扫描结果的秒数值。如果在指定的秒数后未找到结果,则会引发异常。
polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。
deferrable (bool) – 在可延迟模式下运行运算符。
- Returns
Dataplex 数据质量扫描作业 ID。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, wait_for_results=True, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[源]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 Data Scan 作业资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
job_id (str | None) – 可选。数据质量扫描作业标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 请求完成所等待的时间(以秒为单位)。请注意,如果指定了
retry
,则超时时间适用于每次单独的尝试。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会引发异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。
wait_for_results (bool) – 指示是否等待作业执行结果或返回当前状态作业的标志。
result_timeout (float) – 当标志 wait_for_results = True 时,操作员等待数据质量扫描结果的时间(以秒为单位)。如果在指定的秒数后未找到结果,则会引发异常。
polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。
deferrable (bool) – 在可延迟模式下运行运算符。
- Returns
表示 DataScanJob 的字典。当作业成功完成时,将提供有关数据质量结果的信息。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataProfileScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建 DataScan 数据分析资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
data_scan_id (str) – 必需。数据配置文件扫描标识符。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段的掩码。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
Dataplex 数据配置文件 ID
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan 数据分析资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据配置文件扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
Dataplex 数据配置文件
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 DataScan 数据分析资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据配置文件扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
无
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexRunDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
按需执行 DataScan 数据分析扫描。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据配置文件扫描标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
asynchronous (bool) – 一个标志,指示 Dataplex 作业应异步运行。这对于提交长时间运行的作业并使用 DataplexDataProfileJobStatusSensor 异步等待它们非常有用
result_timeout (float) – 当标志 asynchronous = False 时,运算符等待数据剖析扫描结果的秒数值。如果在指定秒数后未找到结果,则抛出异常。
polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。
deferrable (bool) – 在可延迟模式下运行运算符。
- Returns
Dataplex 数据剖析扫描作业 ID。
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, wait_for_results=True, result_timeout=60.0 * 10, *args, **kwargs)[源代码]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan 数据分析作业资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据配置文件扫描标识符。
job_id (str | None) – 可选。数据剖析扫描作业标识符。
api_version (str) – 将被请求的 API 版本,例如 'v1'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 请求完成所等待的时间(以秒为单位)。请注意,如果指定了
retry
,则超时时间适用于每次单独的尝试。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
wait_for_results (bool) – 指示是否等待作业执行结果或返回当前状态作业的标志。
result_timeout (float) – 当标志 wait_for_results = True 时,运算符等待数据剖析扫描结果的秒数值。如果在指定秒数后未找到结果,则抛出异常。
- Returns
表示 DataScanJob 的字典。当作业以成功状态完成时,有关数据剖析结果的信息可用。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateZoneOperator(project_id, region, lake_id, body, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在湖中创建区域资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含 Zone 的实例。
zone_id (str) – 必需。任务标识符。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
区域
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteZoneOperator(project_id, region, lake_id, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除区域资源。必须先删除区域内的所有资产,然后才能删除该区域。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
zone_id (str) – 必需。区域标识符。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
无
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateAssetOperator(project_id, region, lake_id, body, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建资产资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。湖泊所属的 Google Cloud 湖泊的 ID。
zone_id (str) – 必需。区域标识符。
asset_id (str) – 必需。资产标识符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含 Asset 的实例。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
资产
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteAssetOperator(project_id, region, lake_id, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除资产资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。资产所属的 Google Cloud 湖泊的 ID。
zone_id (str) – 必需。区域标识符。
asset_id (str) – 必需。资产标识符。
api_version (str) – 将被请求的 API 版本,例如“v3”。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。
- Returns
无