airflow.providers.google.cloud.operators.dataplex

此模块包含 Google Dataplex 操作符。

模块内容

DataplexCreateTaskOperator

在湖中创建任务资源。

DataplexDeleteTaskOperator

删除任务资源。

DataplexListTasksOperator

列出给定湖下的任务。

DataplexGetTaskOperator

获取任务资源。

DataplexCreateLakeOperator

在湖中创建湖资源。

DataplexDeleteLakeOperator

删除湖资源。

DataplexCreateOrUpdateDataQualityScanOperator

创建 DataScan 资源。

DataplexGetDataQualityScanOperator

获取 DataScan 资源。

DataplexDeleteDataQualityScanOperator

删除 DataScan 资源。

DataplexRunDataQualityScanOperator

按需执行 DataScan。

DataplexGetDataQualityScanResultOperator

获取 Data Scan 作业资源。

DataplexCreateOrUpdateDataProfileScanOperator

创建 DataScan 数据分析资源。

DataplexGetDataProfileScanOperator

获取 DataScan 数据分析资源。

DataplexDeleteDataProfileScanOperator

删除 DataScan 数据分析资源。

DataplexRunDataProfileScanOperator

按需执行 DataScan 数据分析扫描。

DataplexGetDataProfileScanResultOperator

获取 DataScan 数据分析作业资源。

DataplexCreateZoneOperator

在湖中创建区域资源。

DataplexDeleteZoneOperator

删除区域资源。必须先删除区域内的所有资产,然后才能删除该区域。

DataplexCreateAssetOperator

创建资产资源。

DataplexDeleteAssetOperator

删除资产资源。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateTaskOperator(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在湖中创建任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • body (dict[str, Any]) – 必需。请求正文包含任务的实例。

  • dataplex_task_id (str) – 必需。任务标识符。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • asynchronous (bool) – 标记,指示是否应异步创建 Dataplex 任务。这对于长时间运行的创建任务以及使用 DataplexTaskSensor 异步等待它们非常有用。

template_fields = ('project_id', 'dataplex_task_id', 'body', 'validate_only', 'impersonation_chain')[源代码]
template_fields_renderers[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • dataplex_task_id (str) – 必需。任务标识符。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

template_fields = ('project_id', 'dataplex_task_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexListTasksOperator(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出给定湖下的任务。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • page_size (int | None) – 可选。要返回的最大任务数。服务可能会返回少于此值的结果。如果未指定,则最多返回 10 个任务。最大值为 1000;高于 1000 的值将被强制转换为 1000。

  • page_token (str | None) – 可选。从之前的 ListZones 调用收到的页面令牌。提供此令牌以检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用匹配。

  • filter (str | None) – 可选。筛选请求。

  • order_by (str | None) – 可选。结果的排序依据字段。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

template_fields = ('project_id', 'page_size', 'page_token', 'filter', 'order_by', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • dataplex_task_id (str) – 必需。任务标识符。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

template_fields = ('project_id', 'dataplex_task_id', 'impersonation_chain')[source]
execute(context

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateLakeOperator(project_id, region, lake_id, body, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在湖中创建湖资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。湖泊标识符。

  • body (dict[str, Any]) – 必需。请求正文包含 Lake 的实例。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • asynchronous (bool) – 标志,指示是否应异步创建 Dataplex 湖泊。这对于长时间运行的湖泊创建很有用。

template_fields = ('project_id', 'lake_id', 'body', 'validate_only', 'impersonation_chain')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteLakeOperator(project_id, region, lake_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除湖资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。湖泊标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

template_fields = ('project_id', 'lake_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataQualityScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段的掩码。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

Dataplex 数据扫描 ID

template_fields = ('project_id', 'data_scan_id', 'body', 'impersonation_chain')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

Dataplex 数据扫描

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, fail_on_dq_failure=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

按需执行 DataScan。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • asynchronous (bool) – 一个标志,指示 Dataplex 作业是否应异步运行。这对于提交长时间运行的作业并使用 DataplexDataQualityJobStatusSensor 异步等待它们非常有用。

  • fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会引发异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。

  • result_timeout (float) – 当标志 asynchronous = False 时,运算符将等待数据质量扫描结果的秒数值。如果在指定的秒数后未找到结果,则会引发异常。

  • polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。

  • deferrable (bool) – 在可延迟模式下运行运算符。

Returns

Dataplex 数据质量扫描作业 ID。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

充当触发器触发时的回调 - 立即返回。

依赖触发器抛出异常,否则它会假定执行成功。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, wait_for_results=True, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[源]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 Data Scan 作业资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str | None) – 可选。数据质量扫描作业标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 请求完成所等待的时间(以秒为单位)。请注意,如果指定了 retry,则超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会引发异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。

  • wait_for_results (bool) – 指示是否等待作业执行结果或返回当前状态作业的标志。

  • result_timeout (float) – 当标志 wait_for_results = True 时,操作员等待数据质量扫描结果的时间(以秒为单位)。如果在指定的秒数后未找到结果,则会引发异常。

  • polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。

  • deferrable (bool) – 在可延迟模式下运行运算符。

Returns

表示 DataScanJob 的字典。当作业成功完成时,将提供有关数据质量结果的信息。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain', 'job_id')[源]
execute(context)[源]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[源]

充当触发器触发时的回调 - 立即返回。

依赖触发器抛出异常,否则它会假定执行成功。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataProfileScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 DataScan 数据分析资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • data_scan_id (str) – 必需。数据配置文件扫描标识符。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段的掩码。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

Dataplex 数据配置文件 ID

template_fields = ('project_id', 'data_scan_id', 'body', 'impersonation_chain')[源]
template_fields_renderers[源]
execute(context)[源]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan 数据分析资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据配置文件扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

Dataplex 数据配置文件

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[源]
execute(context)[源]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 DataScan 数据分析资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据配置文件扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.google.cloud.operators.dataplex.DataplexRunDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

按需执行 DataScan 数据分析扫描。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据配置文件扫描标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • asynchronous (bool) – 一个标志,指示 Dataplex 作业应异步运行。这对于提交长时间运行的作业并使用 DataplexDataProfileJobStatusSensor 异步等待它们非常有用

  • result_timeout (float) – 当标志 asynchronous = False 时,运算符等待数据剖析扫描结果的秒数值。如果在指定秒数后未找到结果,则抛出异常。

  • polling_interval_seconds (int) – 轮询作业完成情况之间的秒数。仅在可延迟模式下运行时才考虑该值。必须大于 0。

  • deferrable (bool) – 在可延迟模式下运行运算符。

Returns

Dataplex 数据剖析扫描作业 ID。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[源代码]

充当触发器触发时的回调 - 立即返回。

依赖触发器抛出异常,否则它会假定执行成功。

airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, wait_for_results=True, result_timeout=60.0 * 10, *args, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan 数据分析作业资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据配置文件扫描标识符。

  • job_id (str | None) – 可选。数据剖析扫描作业标识符。

  • api_version (str) – 将被请求的 API 版本,例如 'v1'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 请求完成所等待的时间(以秒为单位)。请注意,如果指定了 retry,则超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

  • wait_for_results (bool) – 指示是否等待作业执行结果或返回当前状态作业的标志。

  • result_timeout (float) – 当标志 wait_for_results = True 时,运算符等待数据剖析扫描结果的秒数值。如果在指定秒数后未找到结果,则抛出异常。

Returns

表示 DataScanJob 的字典。当作业以成功状态完成时,有关数据剖析结果的信息可用。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

充当触发器触发时的回调 - 立即返回。

依赖触发器抛出异常,否则它会假定执行成功。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateZoneOperator(project_id, region, lake_id, body, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在湖中创建区域资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含 Zone 的实例。

  • zone_id (str) – 必需。任务标识符。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

区域

template_fields = ('project_id', 'zone_id', 'body', 'lake_id', 'impersonation_chain')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteZoneOperator(project_id, region, lake_id, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除区域资源。必须先删除区域内的所有资产,然后才能删除该区域。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • zone_id (str) – 必需。区域标识符。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

template_fields = ('project_id', 'lake_id', 'zone_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateAssetOperator(project_id, region, lake_id, body, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建资产资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。湖泊所属的 Google Cloud 湖泊的 ID。

  • zone_id (str) – 必需。区域标识符。

  • asset_id (str) – 必需。资产标识符。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含 Asset 的实例。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

资产

template_fields = ('project_id', 'zone_id', 'asset_id', 'body', 'impersonation_chain')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteAssetOperator(project_id, region, lake_id, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除资产资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。资产所属的 Google Cloud 湖泊的 ID。

  • zone_id (str) – 必需。区域标识符。

  • asset_id (str) – 必需。资产标识符。

  • api_version (str) – 将被请求的 API 版本,例如“v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时要使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选服务帐户,用于使用短期凭据进行模拟,或者用于获取列表中最后一个帐户的 access_token 的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向直接先前的标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(已模板化)。

Returns

template_fields = ('project_id', 'zone_id', 'asset_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?