airflow.providers.amazon.aws.hooks.glue
¶
模块内容¶
类¶
与 AWS Glue 交互。 |
|
与 AWS Glue 数据质量交互。 |
属性¶
- class airflow.providers.amazon.aws.hooks.glue.GlueJobHook(s3_bucket=None, job_name=None, desc=None, concurrent_run_limit=1, script_location=None, retry_limit=0, num_of_dpus=None, iam_role_name=None, iam_role_arn=None, create_job_kwargs=None, update_config=False, job_poll_interval=6, *args, **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.hooks.base_aws.AwsBaseHook
与 AWS Glue 交互。
提供围绕
boto3.client("glue")
的厚封装器。- 参数
s3_bucket (str | None) – S3 存储桶,用于上传日志和本地 etl 脚本
job_name (str | None) – 每个 AWS 帐户唯一的作业名称
desc (str | None) – 作业描述
concurrent_run_limit (int) – 允许作业并发运行的最大次数
script_location (str | None) – s3 上 etl 脚本的路径
retry_limit (int) – 如果作业失败,则重试该作业的最大次数
region_name – aws 区域名称(例如:us-east-1)
iam_role_name (str | None) – 用于 Glue 作业执行的 AWS IAM 角色。如果设置了 iam_role_arn 必须等于 None。
iam_role_arn (str | None) – 用于 Glue 作业执行的 AWS IAM 角色 ARN,如果设置了 iam_role_name 必须等于 None。
create_job_kwargs (dict | None) – 用于 Glue 作业创建的额外参数
update_config (bool) – 在 Glue 上更新作业配置(默认值:False)
可以指定其他参数(例如
aws_conn_id
),并将其传递给底层的 AwsBaseHook。- get_job_state(job_name, run_id)[源代码]¶
获取 Glue 作业的状态;作业状态可以是 running、finished、failed、stopped 或 timeout。
- async async_get_job_state(job_name, run_id)[源代码]¶
获取 Glue 作业的状态;作业状态可以是 running、finished、failed、stopped 或 timeout。
get_job_state 的异步版本。
- print_job_logs(job_name, run_id, continuation_tokens)[源代码]¶
将最新的作业日志打印到 Airflow 任务日志中,并更新续传令牌。
- 参数
continuation_tokens (LogContinuationTokens) – 读取日志时从哪里恢复的令牌。此方法会使用新令牌更新该对象。
- job_completion(job_name, run_id, verbose=False, sleep_before_return=0)[source]¶
等待具有 job_name 的 Glue 作业完成;如果完成则返回最终状态,否则引发 AirflowException。
- async async_job_completion(job_name, run_id, verbose=False)[source]¶
等待具有 job_name 的 Glue 作业完成;如果完成则返回最终状态,否则引发 AirflowException。
- has_job(job_name)[source]¶
检查作业是否已存在。
- 参数
job_name – 每个 AWS 账户唯一的作业名称
- 返回
如果作业已存在则返回 True,否则返回 False。
- 返回类型
- class airflow.providers.amazon.aws.hooks.glue.GlueDataQualityHook(*args, **kwargs)[source]¶
基类:
airflow.providers.amazon.aws.hooks.base_aws.AwsBaseHook
与 AWS Glue 数据质量交互。
提供围绕
boto3.client("glue")
的厚封装器。可以指定其他参数(例如
aws_conn_id
),并将其传递给底层的 AwsBaseHook。