airflow.providers.amazon.aws.sensors.glue

GlueJobSensor

等待 AWS Glue Job 达到以下任何状态。

GlueDataQualityRuleSetEvaluationRunSensor

等待 AWS Glue 数据质量规则集评估运行达到以下任何状态。

GlueDataQualityRuleRecommendationRunSensor

等待 AWS Glue 数据质量规则推荐运行达到以下任何状态。

模块内容

class airflow.providers.amazon.aws.sensors.glue.GlueJobSensor(*, job_name, run_id, verbose=False, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.sensors.base.BaseSensorOperator

等待 AWS Glue Job 达到以下任何状态。

‘FAILED’, ‘STOPPED’, ‘SUCCEEDED’

另请参阅

有关如何使用此 sensor 的更多信息,请参阅指南: 等待 AWS Glue 作业状态

参数:
  • job_name (str) – AWS Glue Job 的唯一名称

  • run_id (str) – 当前运行的 AWS Glue 作业标识符

  • verbose (bool) – 如果为 True,则会在 Airflow 任务日志中显示更多 Glue Job Run 日志。(默认值: False)

template_fields: collections.abc.Sequence[str] = ('job_name', 'run_id')[source]
job_name[source]
run_id[source]
verbose = False[source]
aws_conn_id = 'aws_default'[source]
success_states: list[str] = ['SUCCEEDED'][source]
errored_states: list[str] = ['FAILED', 'STOPPED', 'TIMEOUT'][source]
next_log_tokens[source]
property hook[source]
poke(context)[source]

在派生此类时覆盖。

class airflow.providers.amazon.aws.sensors.glue.GlueDataQualityRuleSetEvaluationRunSensor(*, evaluation_run_id, show_results=True, verify_result_status=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poke_interval=120, max_retries=60, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.providers.amazon.aws.sensors.base_aws.AwsBaseSensor[airflow.providers.amazon.aws.hooks.glue.GlueDataQualityHook]

等待 AWS Glue 数据质量规则集评估运行达到以下任何状态。

‘FAILED’, ‘STOPPED’, ‘STOPPING’, ‘TIMEOUT’, ‘SUCCEEDED’

另请参阅

有关如何使用此 sensor 的更多信息,请参阅指南: 等待 AWS Glue 数据质量评估运行

参数:
  • evaluation_run_id (str) – AWS Glue 数据质量规则集评估运行标识符。

  • verify_result_status (bool) – 验证所有规则集规则评估运行结果,如果任何规则状态为 Fail 或 Error,则抛出异常。(默认值: True)

  • show_results (bool) – 显示所有规则集规则评估运行结果。(默认值: True)

  • deferrable (bool) – 如果为 True,sensor 将以可延迟模式运行。此模式需要安装 aiobotocore 模块。(默认值: False,但可以通过在配置文件中将 default_deferrable 设置为 True 来覆盖)

  • poke_interval (int) – 轮询周期(秒),用于检查作业状态。(默认值: 120)

  • max_retries (int) – 在返回当前状态之前的重试次数。(默认值: 60)

  • aws_conn_id (str | None) – 用于 AWS 凭据的 Airflow 连接。如果为 None 或空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。参见: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。参见: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

SUCCESS_STATES = ('SUCCEEDED',)[source]
FAILURE_STATES = ('FAILED', 'STOPPED', 'STOPPING', 'TIMEOUT')[source]
aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
evaluation_run_id[source]
show_results = True[source]
verify_result_status = True[source]
aws_conn_id = 'aws_default'[source]
max_retries = 60[source]
poke_interval = 120[source]
deferrable = True[source]
execute(context)[source]

创建 operator 时派生。

执行任务的主要方法。Context 与渲染 jinja 模板时使用的字典相同。

更多 context 请参阅 get_template_context。

execute_complete(context, event=None)[source]
poke(context)[source]

在派生此类时覆盖。

class airflow.providers.amazon.aws.sensors.glue.GlueDataQualityRuleRecommendationRunSensor(*, recommendation_run_id, show_results=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poke_interval=120, max_retries=60, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.providers.amazon.aws.sensors.base_aws.AwsBaseSensor[airflow.providers.amazon.aws.hooks.glue.GlueDataQualityHook]

等待 AWS Glue 数据质量规则推荐运行达到以下任何状态。

‘FAILED’, ‘STOPPED’, ‘STOPPING’, ‘TIMEOUT’, ‘SUCCEEDED’

另请参阅

有关如何使用此 sensor 的更多信息,请参阅指南: 等待 AWS Glue 数据质量推荐运行

参数:
  • recommendation_run_id (str) – AWS Glue 数据质量规则推荐运行标识符。

  • show_results (bool) – 在推荐运行完成时显示推荐的规则集(一组规则)。(默认值: True)

  • deferrable (bool) – 如果为 True,sensor 将以可延迟模式运行。此模式需要安装 aiobotocore 模块。(默认值: False,但可以通过在配置文件中将 default_deferrable 设置为 True 来覆盖)

  • poke_interval (int) – 轮询周期(秒),用于检查作业状态。(默认值: 120)

  • max_retries (int) – 在返回当前状态之前的重试次数。(默认值: 60)

  • aws_conn_id (str | None) – 用于 AWS 凭据的 Airflow 连接。如果为 None 或空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。

  • region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。

  • verify – 是否验证 SSL 证书。参见: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html

  • botocore_config – botocore 客户端的配置字典(键值对)。参见: https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html

SUCCESS_STATES = ('SUCCEEDED',)[source]
FAILURE_STATES = ('FAILED', 'STOPPED', 'STOPPING', 'TIMEOUT')[source]
aws_hook_class[source]
template_fields: collections.abc.Sequence[str][source]
recommendation_run_id[source]
show_results = True[source]
deferrable = True[source]
poke_interval = 120[source]
max_retries = 60[source]
aws_conn_id = 'aws_default'[source]
execute(context)[source]

创建 operator 时派生。

执行任务的主要方法。Context 与渲染 jinja 模板时使用的字典相同。

更多 context 请参阅 get_template_context。

execute_complete(context, event=None)[source]
poke(context)[source]

在派生此类时覆盖。

此条目是否有帮助?