apache-airflow-providers-amazon
更新日志¶
注意
此提供程序版本仅适用于 Airflow 2.9+,如Apache Airflow 提供程序支持策略中所述。
9.2.0¶
功能¶
添加 DMS Serverless 操作符 (#43988)
为 SFTPToS3Operator 添加 fail_on_file_not_exist 选项 (#44320)
为 'EmrCreateJobFlowOperator' 添加 'wait_policy' 选项 (#44055)
为 'S3CopyObjectOperator' 添加 meta_data_directive (#44160)
其他¶
移除 对 AIRFLOW_V_2_9_PLUS 的引用 (#44987)
将 提供程序中的 Airflow 最低版本 提升到 Airflow 2.9.0 (#44956)
在 提供程序中 一致地 检查 Airflow 版本 (#44686)
移除 S3 资产导入中 不必要的 兼容性 代码 (#44714)
从 taskinstance 中移除 AIP-44 (#44540)
在 EcsRunTaskOperator 中添加 do_xcom_push 文档 (#44440)
将 面向用户的 Asset 组件 移动到 task_sdk (#43773)
在 Fast API 中设置 JWT 令牌 身份验证 (#42634)
升级到 mypy-boto3-appflow 并 无需 '# type: ignore[arg-type]' 通过 (#44115)
更新 多个 提供程序文档中的 DAG 示例链接 (#44034)
9.1.0¶
功能¶
feat: 为 RedshiftToS3Operator 添加 OpenLineage 支持 (#41632)
添加 'SageMakerProcessingSensor' (#43144)
使 'RedshiftDataOperator' 处理 多个 查询 (#42900)
Bug 修复¶
fix(providers/amazon): 将 is_authorized_dataset 别名为 is_authorized_asset (#43470)
移除 athena 钩子最终子句中的 返回 (#43426)
fix: 在 EksHook 中用空格替换 \s (#43849)
修复 如果未传递 s3_bucket 参数, 'HttpToS3Operator' 抛出异常的问题 (#43828)
添加 'container_name' 并更新 'awslogs_stream_prefix' 模式 (#43138)
检查 awslogs_stream_prefix 是否已经以 container_name 结尾 (#43724)
bugfix 描述 对于 'AthenaOperator' 与 openlineage 集成应该是可选的 (#43576)
(bugfix): 'EcsRunTaskOperator' 将 'volume_configurations' 与 'capacity_provider_strategy' 解耦 (#43047)
GlueJobOperator: 添加选项以在返回作业状态之前等待清理 (#43688)
解决导致 verbose 始终为 True 的 'GlueJobTrigger' 序列化错误 (#43622)
移除 S3ToDynamoDBOperator 最终子句中的 返回 (#43456)
其他¶
移除 sqlalchemy-redshift 依赖项 (#43271)
feat(providers/amazon): 在 通用 提供程序中 使用 资产 (#43110)
限制 looker-sdk 版本为 24.18.0 和 microsoft-kiota-http 为 1.3.4 (#42954)
限制 mypy-boto3-appflow (#43436)
将 PythonOperator 移动到 标准 提供程序 (#42081)
为 DbApiHook、PrestoHook 和 TrinoHook 添加 对分号剥离的支持 (#41916)
移除 cncf.kubernetes 提供程序中的 弃用项 (#43689)
修复 AthenaTrigger 的文档字符串 (#43616)
9.0.0¶
重大变更¶
警告
为了支持 RedshiftData 操作符中的会话重用,引入了以下重大变更
database
参数现在是可选的,因此被移到了位置参数 sql
之后。 如果你的 DAG 依赖于参数顺序,请相应地更新你的 DAG。 适用于
RedshiftDataHook
的execute_query
方法RedshiftDataOperator
RedshiftDataHook
的 execute_query
方法现在返回一个 QueryExecutionOutput
对象,而不是仅返回语句 ID 作为字符串。
RedshiftDataHook
的 parse_statement_resposne
方法已重命名为 parse_statement_response
。
S3ToRedshiftOperator
的 schema
参数现在是可选的,并被移到位置参数 s3_key
之后。 如果你的 DAG 依赖于参数顺序,请相应地更新你的 DAG。
警告
所有已弃用的类、参数和功能都已从 Amazon 提供程序包中移除。 引入了以下重大变更
钩子
从
AthenaHook
中移除了sleep_time
参数。 请改用poll_query_status
移除了
BaseAsyncSessionFactory
移除了
AwsBaseAsyncHook
从
AwsLogsHook.get_log_events
方法中移除了start_from_head
参数从
QuickSightHook
中移除了sts_hook
属性移除了
RedshiftAsyncHook
移除了 S3 连接类型。 请使用
aws
作为conn_type
,并在extras
内的service_config.s3
中指定bucket_name
从
SageMakerHook.start_pipeline
方法中移除了wait_for_completion
、check_interval
和verbose
参数从
SageMakerHook.stop_pipeline
方法中移除了wait_for_completion
、check_interval
和verbose
参数
操作符
从
AppflowRunOperator
中移除了source
参数从
BatchOperator
中移除了overrides
参数。请改用container_overrides
从
BatchCreateComputeEnvironmentOperator
中移除了status_retries
参数从
DataSyncOperator
中移除了get_hook
方法。请改用hook
属性从
EcsDeregisterTaskDefinitionOperator
中移除了wait_for_completion
、waiter_delay
和waiter_max_attempts
参数。请改用waiter_max_attempts
和waiter_delay
从
EcsRegisterTaskDefinitionOperator
中移除了wait_for_completion
、waiter_delay
和waiter_max_attempts
参数。请改用waiter_max_attempts
和waiter_delay
从
EksCreateClusterOperator
中移除了eks_hook
属性。请改用hook
属性从
EksPodOperator
中移除了pod_context
、pod_username
和is_delete_operator_pod
参数从
EmrStartNotebookExecutionOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrStopNotebookExecutionOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrContainerOperator
中移除了max_tries
参数。请改用max_polling_attempts
从
EmrCreateJobFlowOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrServerlessCreateApplicationOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrServerlessStartJobOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrServerlessStopApplicationOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
EmrServerlessDeleteApplicationOperator
中移除了waiter_countdown
和waiter_check_interval_seconds
参数。请改用waiter_max_attempts
和waiter_delay
从
GlueDataBrewStartJobOperator
中移除了delay
参数。请改用waiter_delay
从
RdsBaseOperator
中移除了hook_params
参数从
SageMakerProcessingOperator
的action_if_job_exists
参数中移除了increment
作为可能的值从
SageMakerTransformOperator
的action_if_job_exists
参数中移除了increment
作为可能的值从
SageMakerTrainingOperator
的action_if_job_exists
参数中移除了increment
作为可能的值
密钥
从
SecretsManagerBackend
的kwargs
中移除了full_url_mode
和are_secret_values_urlencoded
作为可能的键
传感器
从
BatchSensor
中移除了get_hook
方法。请改用hook
属性从
DmsTaskBaseSensor
中移除了get_hook
方法。请改用hook
属性从
EmrBaseSensor
中移除了get_hook
方法。请改用hook
属性从
GlueCatalogPartitionSensor
中移除了get_hook
方法。请改用hook
属性从
GlueCrawlerSensor
中移除了get_hook
方法。请改用hook
属性从
QuickSightSensor
中移除了quicksight_hook
属性。请改用QuickSightSensor.hook
从
QuickSightSensor
中移除了sts_hook
属性从
RedshiftClusterSensor
中移除了get_hook
方法。请改用hook
属性从
S3KeySensor
中移除了get_hook
方法。请改用hook
属性从
SageMakerBaseSensor
中移除了get_hook
方法。请改用hook
属性从
SqsSensor
中移除了get_hook
方法。请改用hook
属性从
StepFunctionExecutionSensor
中移除了get_hook
方法。请改用hook
属性
传输
从
AwsToAwsBaseOperator
中移除了aws_conn_id
参数。请改用source_aws_conn_id
从
GCSToS3Operator
中移除了bucket
和delimiter
参数。请使用gcs_bucket
代替bucket
触发器
移除了
BatchOperatorTrigger
。请改用BatchJobTrigger
移除了
BatchSensorTrigger
。请改用BatchJobTrigger
从
EksCreateFargateProfileTrigger
中移除了region
参数。请改用region_name
从
EksDeleteFargateProfileTrigger
中移除了region
参数。请改用region_name
从
EmrCreateJobFlowTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
从
EmrTerminateJobFlowTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
从
EmrContainerTrigger
中移除了poll_interval
参数。请改用waiter_delay
从
GlueCrawlerCompleteTrigger
中移除了poll_interval
参数。请改用waiter_delay
。从
GlueDataBrewJobCompleteTrigger
中移除了delay
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。移除了
RdsDbInstanceTrigger
。请使用其他 RDS 触发器,例如RdsDbDeletedTrigger
、RdsDbStoppedTrigger
或RdsDbAvailableTrigger
。从
RedshiftCreateClusterTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。从
RedshiftPauseClusterTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。从
RedshiftCreateClusterSnapshotTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。从
RedshiftResumeClusterTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。从
RedshiftDeleteClusterTrigger
中移除了poll_interval
和max_attempts
参数。请改用waiter_delay
和waiter_max_attempts
。移除了
SageMakerTrainingPrintLogTrigger
。请改用SageMakerTrigger
。
实用工具
从
AwsConnectionWrapper
的extra_config
中移除了test_endpoint_url
作为可能的键。请在extras
中的service_config.sts
中设置endpoint_url
。从
AwsConnectionWrapper
的conn_type
中移除了s3
作为可能的值。请更新您的连接以使其具有conn_type='aws'
。移除了连接额外配置中的
session_kwargs
键。请直接指定传递给 boto3 会话的参数。从 AWS 连接中移除了
host
,请将其设置在extra['endpoint_url']
中。从
AwsHookParams
中移除了region
参数。请改用region_name
。
从 Amazon 提供程序包中移除已弃用的内容 (#42450)
支持在 'RedshiftDataOperator' 中重用会话 (#42218)
功能¶
将 STOPPED 添加到 Sagemaker 训练作业的失败案例中 (#42423)
Bug 修复¶
'S3DeleteObjects' 操作符:处理作为字符串传递的日期 (#42464)
AWS AVP cli 初始化脚本的小修复 (#42479)
通过减少睡眠量来加快 AWS 日志记录速度 (#42449)
修复 AWS 身份验证管理器中的注销问题 (#42447)
修复(providers/amazon):处理在 table.get_item 期间密钥丢失后引发的 ClientError (#42408)
其他¶
删除 python3.8 支持核心和提供程序 (#42766)
在 airflow 2.8.0 及以上版本中删除了对任务上下文日志记录的条件检查 (#42764)
将数据集相关的 python 变量名称重命名为资产 (#41348)
删除身份中心身份验证管理器 cli (#42481)
重构 AWS 身份验证管理器用户输出 (#42454)
从 Amazon 提供程序中删除 'sqlalchemy-redshift' 依赖项 (#42830)
还原“从 Amazon 提供程序中删除 'sqlalchemy-redshift' 依赖项” (#42864)
8.29.0¶
功能¶
在 ECSRunTaskOperator 中添加对卷配置的支持 (#42087)
Openlineage s3 到 redshift 操作符集成 (#41575)
Bug 修复¶
ECSExecutor:删除与 EC2 不兼容的参数 (#42228)
修复 'GlueDataBrewStartJobOperator' 模板字段 (#42073)
验证等待器中的 aws 服务异常 (#41941)
修复 S3Hook.parse_s3_url() 中对“#”的处理 (#41796)
修复:从 S3ToRedshiftOperator 中删除部分 openlineage 提取 (#41631)
提供程序文件任务处理程序中的文件名模板参数向后兼容性支持 (#41633)
修复:select_query 在 RedshiftToS3Operator 中应优先于默认查询 (#41634)
其他¶
实际将 saml 移动到 amazon 提供程序(错误地添加到 papermill 中)(#42148)
在 AWS Glue DataBrew 操作符/触发器中使用基本 aws 类 (#41848)
将“register_views”移动到身份验证管理器接口 (#41777)
airflow.models.taskinstance 已移除弃用 (#41784)
从提供程序中移除已弃用的 soft_fail (#41710)
从 providers part2 中移除 deprecated soft_fail (#41727)
限制 watchtower 依赖版本为 3.3.0,因为更高的版本会破坏 moin。(#41612)
移除已弃用的日志处理程序参数 filename_template (#41552)
8.28.0¶
注意
如Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.8+。
警告
当为 RedshiftDataOperator
引入可延期模式时(在 8.17.0 版本中),配置了 deferrable=True
和 wait_for_completion=True
的任务不会进入延迟状态。相反,任务会一直占用执行器槽,直到语句完成。一种解决方法可能是设置 wait_for_completion=False
。在此版本中,无论 deferrable
的值如何,使用 wait_for_completion=False
设置的任务将不再等待。
功能¶
在 'DynamoDBToS3Operator' 中添加增量导出和跨账户导出功能 (#41304)
AWS Batch submit_job 的 EKS 覆盖 (#40718)
Bug 修复¶
修复 'AwsTaskLogFetcher' 缺少日志的问题 (#41515)
修复 'RdsHook' 中的异常名称并取消固定依赖 (#41256)
修复 RedshiftDataOperator 未按预期在延迟模式下运行的问题 (#41206)
其他¶
部分修复 example_dynamodb_to_s3.py (#41517)
删除 AWS provider 中已弃用的代码 (#41407)
将 providers 中的最低 Airflow 版本提升至 Airflow 2.8.0 (#41396)
临时限制 moto - 5.0.12 正在破坏我们的测试 (#41244)
8.27.0¶
功能¶
为 'StepFunctionStartExecutionOperator' 添加 RedriveExecution 支持 (#40976)
openlineage: 为 S3Hook 的钩子血缘添加支持 (#40819)
引入 Amazon Kinesis Analytics V2 (Apache Flink 应用程序的托管服务) (#40765)
Bug 修复¶
使 EMR 容器触发器的最大尝试次数与 Operator 匹配 (#41008)
修复 deferrable 模式下的 'RdsStopDbOperator' 运算符 (#41059)
修复 'RedshiftCreateClusterOperator' 始终指定 'PubliclyAccessible' 的问题 (#40872)
修复 使用 deferrable 模式的 Redshift 集群运算符和传感器 (#41191)
修复 deferrable 模式下的 'EmrServerlessStartJobOperator' (#41103)
其他¶
更新 'example_redshift' 和 'example_redshift_s3_transfers' 以使用 'RedshiftDataHook' 而不是 'RedshiftSQLHook' (#40970)
openlineage: 将 OpenLineage provider 迁移到 V2 facet。(#39530)
[AIP-62] 将 AIP-60 URI 转换为 OpenLineage (#40173)
将 AWS Apache Flink 托管服务的传感器状态移至 Hook (#40896)
将任务上下文记录器的用法替换为日志表 (#40867)
弃用 'SageMakerTrainingPrintLogTrigger' (#41158)
8.26.0¶
注意
减少 S3KeyTrigger 装饰器的内存占用,移除了 provide_bucket_name_async
。异步不需要单独的装饰器。旧的装饰器已被移除,用户可以使用 provide_bucket_name
来处理协程函数、异步迭代器和普通的同步函数。Hook 方法 get_file_metadata_async
现在是一个异步迭代器。以前,元数据对象被累积在一个列表中。现在,当我们在结果中分页时,会生成这些对象。要获取列表,可以在列表推导式中使用 async for
。在某些情况下,S3KeyTrigger 避免将所有正匹配项加载到内存中
注意
此版本包含异步会话的资源利用率的重大改进
功能¶
不要动态确定 emr serverless 的操作链接 (#40627)
能够在 S3 hook 的 copy_object 中删除 ACL (#40518)
feat(aws): 在 S3 传感器中为 check_fn 提供上下文 (#40686)
Bug 修复¶
修复 AthenaOperator 的 OpenLineage 提取 (#40545)
减少 s3 key 触发器的内存占用 (#40473)
将集群添加到 ecs 触发器事件,以避免延迟错误 (#40482)
修复可延迟的 AWS SageMaker 运算符 (#40706)
使 'AwsAuthManager' 仅与 Airflow >= 2.9 兼容 (#40690)
向 s3 运算符添加序列化选项 (#40659)
其他¶
在 AWS Glue 数据目录传感器中使用基本 aws 类 (#40492)
在 AWS Glue 爬网程序运算符/传感器/触发器中使用基本 aws 类 (#40504)
在异步 boto 会话之间共享数据加载器 (#40658)
将执行器日志发送到 'EcsExecutor' 中的任务日志 (#40468)
将执行器日志发送到 'AwsBatchExecutor' 中的任务日志 (#40698)
8.25.0¶
功能¶
添加 Amazon Comprehend 文档分类器 (#40287)
Bug 修复¶
修复 aws utils 中的 'importlib_metadata' 导入 (#40134)
openlineage, redshift: 对于 Airflow 2.10 以下的模式,不要调用数据库 (#40197)
在 'RedshiftToS3Operator' 中延迟匹配转义的引号 (#40206)
使用 stdlib 'importlib.metadata' 来检索 'botocore' 包的版本 (#40137)
其他¶
更新 Python 3.12 的 pandas 最低要求 (#40272)
8.24.0¶
功能特性¶
针对 AWS Batch submit_job 的 ECS 覆盖 (#39903)
添加 传输运算符 S3ToDynamoDBOperator (#39654)
添加 Glue 数据质量规则推荐运行 (#40014)
允许在 S3KeySensor 的 check_fn 中使用用户指定的对象属性 (#39950)
添加 Amazon Glue 数据质量服务 (#39923)
错误修复¶
在 SageMakerTransformOperator 中删除重复的模型名称 (#39956)
修复:从 templated_fields 中删除 process_func (#39948)
修复 aws 承担角色会话在可延期时的创建问题 (#40051)
其他¶
解决 ECS fargate 已弃用的警告 (#39834)
解决 EMR notebook 已弃用的警告 (#39829)
更新 boto 最小版本 (#40052)
文档:在使用 Batch 'ecs_properties_override' 时,提及 AWS 提供程序的最低 boto3 1.34.52 (#39983)
8.23.0¶
功能特性¶
Amazon Bedrock - 检索和检索并生成 (#39500)
引入 Amazon Comprehend 服务 (#39592)
错误修复¶
修复: AthenaExtractor 的空 openlineage 数据集名称 (#39677)
修复 aws batch 运算符重试策略的默认值 (#39608)
Sagemaker 触发器:将作业名称作为事件的一部分传递 (#39671)
处理 batch 执行器的任务采用 (#39590)
错误修复: 处理 NeptuneStopDbClusterOperator 中的无效集群状态 (#38287)
修复 'EmrOperator' 中的自动终止问题,通过确保为可延期触发器设置 'waiter_max_attempts' (#38658)
其他¶
解决 EMR 已弃用的警告 (#39743)
其他:添加关于删除未使用代码的注释 (#39748)
8.22.0¶
功能特性¶
'S3DeleteObjectsOperator' 添加了按上次修改时间过滤键的功能 (#39151)
Amazon Bedrock - 添加知识库和数据源集成 (#39245)
错误修复¶
EcsExcecutor 调度程序处理 try_number 的递增 (#39336)
ECS 执行器:在激活后将任务设置为 RUNNING 状态 (#39212)
其他¶
添加 'jmespath' 作为显式依赖项 (#39350)
删除 'xmlsec' 依赖项 (#39534)
为所有提供程序重新应用模板 (#39554)
更快地导入 'airflow_version' (#39552)
增强(amazon_hook):在下载文件时,引发未找到异常,而不是一般异常 (#39509)
简化 'airflow_version' 导入 (#39497)
8.21.0¶
注意
如Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.7+。
功能特性¶
向 aws lambdacreatefunctionoperator 添加 logging_config、snapstart、ephemeral_storage 参数 (#39300)
错误修复¶
修复 GlueJobOperator 中的错误,当使用本地脚本文件时,连续运行会失败 (#38960)
更新 auth manager 中的 'is_authorized_custom_view' 以处理自定义操作 (#39167)
更新逻辑以允许 AWS Batch 客户端 hook 中的重试生效 (#38998)
Amazon Bedrock - 模型吞吐量配置 (#38850)
其他¶
在 Microsoft Azure 提供程序中添加 MSGraphOperator (#38111)
将提供程序中的最低 Airflow 版本提升至 Airflow 2.7.0 (#39240)
允许使用较短的路径导入 aws 执行器 (#39093)
从 AWS 身份验证管理器中删除标志以使用它 (#39033)
限制 xmlsec<1.3.14 (#39104)
8.20.0¶
功能特性¶
AWS Batch 执行器 (#37618)
向 AWS 执行器添加回退 'region_name' 值 (#38704)
引入 Amazon Bedrock 服务 (#38602)
Amazon Bedrock - 模型定制作业 (#38693)
ECS 执行器 - 添加对采用孤立任务的支持。 (#37786)
更新 AWS 身份验证管理器 CLI 命令,使其不禁用 AVP 模式验证 (#38301)
错误修复¶
减少 's3hook' 的内存使用量 (#37886)
添加 AWS 身份验证管理器中的检查 , 以检查 Amazon Verified Permissions 架构是否为最新 (#38333)
修复: 当使用 partial/expand 时,EmrServerlessStartJobOperator 无法正确序列化 DAG 。 (#38022)
修复(amazon): 在 触发器中 ,向 while 循环内的 yield 添加 return 语句 (#38396)
修复 'MappedOperator' 中设置已弃用的 amazon 操作符参数 (#38346)
'ECSExecutor' API 重试错误修复 (#38118)
修复 'MappedOperator' 中基于 'AwsBaseOperator' / 'AwsBaseSensor' 的 'region' 参数 (#38178)
修复 ECS 执行器中 ,当一个任务失败时跳过其他任务的错误。(#37979)
修复 aws redshift 到 s3 操作符的初始化检查 (#37861)
其他¶
使 'BaseAuthManager.is_authorized_custom_view' 方法抽象化 (#37915)
在 AWS 身份验证管理器中将 "Role" 替换为 "Group" (#38078)
避免在测试之外使用 'assert' (#37718)
在获取 Glue 作业日志时使用 'AwsLogsHook' (#38010)
在 AWS 身份验证管理器中实现 'filter_permitted_dag_ids' (#37666)
AWS 身份验证管理器 CLI:在执行更新时持久化策略存储描述 (#37946)
将 Batch 执行器的日志消息中的 f-string 更改为格式化 (#37929)
8.19.0¶
功能¶
在 AWS 身份验证管理器中实现 'filter_permitted_menu_items' (#37627)
在 AWS 身份验证管理器中实现 'batch_is_authorized_*' API (#37430)
Bug 修复¶
修复 aws 'eks' 的初始化检查 (#37674)
修复 aws gcs_to_s3 的初始化检查 (#37662)
其他¶
使用命名记录器代替根记录器 (#37801)
避免不推荐的日志记录用法 (#37792)
统一 'aws_conn_id' 类型始终为 'str | None' (#37768)
将 'pandas' 限制为 '<2.2' (#37748)
实现 AIP-60 数据集 URI 格式 (#37005)
升级 openapi 验证器的最低版本 (#37691)
更新 AWS 身份验证管理器中的操作名称 (#37572)
8.18.0¶
功能¶
ECS 执行器 - 在任务重试失败时添加回退 (#37109)
SqlToS3Operator:功能/添加 max_rows_per_file 参数 (#37055)
添加 Amazon Neptune Hook 和操作符 (#37000)
在 'EmrContainerOperator' 中添加重试配置 (#37426)
为 AWS 身份验证管理器创建 CLI 命令,以创建与 AWS Identity Center 相关的资源 (#37407)
为 EMR Serverless 添加额外的操作符链接 (#34225)
Bug 修复¶
修复 'AthenaOperator' 中 'log_query' 以正确格式化 SQL 语句 (#36962)
在推迟 'SageMakerTrainingOperator' 之前检查 sagemaker 训练作业状态 (#36685)
其他¶
按照递归的 python 字典更新合并所有 ECS 执行器配置 (#37137)
更新 'BatchSensor' 的默认值 (#37234)
从 download_file 中删除信息日志 (#37211)
S3ToRedshiftOperator 模板化 aws_conn_id (#37195)
更新 ECS 文档 (#37125)
功能:将所有类、函数、方法的弃用切换为装饰器 (#36876)
替换提供程序中 'datetime.utcnow' 和 'datetime.utcfromtimestamp' 的用法 (#37138)
为 Amazon 提供程序的 "execute_coplete" 方法添加类型注释 (#36330)
8.17.0¶
功能¶
向 RedshiftDataOperator 添加可延迟模式 (#36586)
为 ECS 执行器添加对容量提供程序的支持 (#36722)
为允许 'S3KeySensor' 使用正则表达式检查 s3 密钥添加 use_regex 参数 (#36578)
向 RedshiftClusterSensor 添加可延迟模式 (#36550)
AthenaSqlHook 实现 (#36171)
为 AWS 身份验证管理器创建 CLI 命令,以创建与 Amazon Verified Permissions 相关的资源 (#36799)
在 AWS 身份验证管理器中实现 'is_authorized_dag' (#36619)
Bug 修复¶
修复提供程序中 warnings.warn 中的堆栈级别 (#36831)
EC2 'CreateInstance':在 on_kill 中终止实例 (#36828)
如果未设置 '[aws] cloudwatch_task_handler_json_serializer',则回退到默认值 (#36851)
AWS 身份验证管理器:针对 AVP 命令引发 AirflowOptionalProviderfeature 异常 (#36824)
在推迟 SageMakerTransformOperator 之前检查转换作业状态 (#36680)
在推迟之前检查 sagemaker 处理作业状态 (#36658)
在可延迟模式下,在 BatchOperator 执行之前检查 job_status (#36523)
更新 redshift 主机名检查以避免可能的错误 (#36703)
刷新 ’AwsEcsExecutor’ 中的 凭据 (#36179)
其他¶
修复 ’S3ListOperator’ 中 apply_wildcard 参数的 文档字符串。 更改了 文档字符串的 顺序 以进行 修复 (#36679)
在 AWS DMS 操作符/传感器中 使用 基本 aws 类 (#36772)
在 AWS Redshift 数据 API 操作符中 使用 基本 aws 类 (#36764)
在 Amazon EventBridge 操作符中 使用 基本 aws 类 (#36765)
在 Amazon QuickSight 操作符/传感器中 使用 基本 aws 类 (#36776)
在 AWS Datasync 操作符中 使用 基本 aws 类 (#36766)
在 Amazon DynamoDB 传感器中 使用 基本 aws 类 (#36770)
在 AWS CloudFormation 操作符/传感器中 使用 基本 aws 类 (#36771)
将 所有 提供程序和 Airflow 的 最小 pandas 依赖项 设置为 1.2.5 (#36698)
提升 与 amazon-provider 相关的 依赖项的 最小 版本 (#36660)
8.16.0¶
功能¶
添加 AWS Step Functions 链接 (#36599)
为 Redshift SQL 添加 OpenLineage 支持 (#35794)
错误修复¶
修复 ’AwsToAwsBaseOperator’ 中 ’__init__’ 中 模板字段的 赋值 (#36604)
修复 ’DataSyncOperator’ 中 ’__init__’ 中 模板字段的 赋值 (#36605)
在 推迟到触发器之前 检查 redshift 集群状态 (#36416)
其他¶
在 Amazon SQS 操作符/传感器/触发器中 使用 基本 aws 类 (#36613)
在 Amazon SNS 操作符中 使用 基本 aws 类 (#36615)
在 AWS Step Functions 操作符/传感器/触发器中 使用 基本 aws 类 (#36468)
8.15.0¶
功能¶
添加 Amazon Athena 查询结果 额外链接 (#36447)
错误修复¶
fix(providers/amazon): 移除 EmrContainerOperator.execute_complete 中的 event['message'] 调用 ,因为 键 message 不再存在 (#36417)
处理 S3Hook.is_keys_unchanged_async 中的 tzinfo (#36363)
其他¶
在 Amazon ECS 操作符/传感器/触发器中 使用 基本 aws 类 (#36393)
8.14.0¶
功能¶
为 ’SqsSensor’ 添加 ’jsonpath_ng.ext.parse’ 支持 (#36170)
将 ConflictException 重试次数 增加到 总共 4 次 (#36337)
增加 trigger.html 中 execution_date 输入的 宽度 (#36278) (#36304)
允许 传递 存储选项 (#35820)
错误修复¶
从 auth 管理器中 移除 ’is_authorized_cluster_activity’ (#36175)
在 子类中 遵循 BaseHook 连接字段 方法签名 (#36086)
其他¶
通过 Ruff 在文档字符串中 添加 代码片段格式 (#36262)
从 Amazon Provider 中 移除 剩余的 Airflow 2.6 向后兼容代码 (#36324)
8.13.0¶
注意
此提供程序的版本仅适用于 Airflow 2.6+,如Apache Airflow 提供程序支持策略中所述。
功能¶
支持 Redshift 无服务器的 IAM 身份验证 (#35897)
在 AWS auth 管理器中 实现 ’is_authorized_variable’ (#35804)
增强 ’DynamoDBValueSensor’ 中的 ’attribute_value’ 以接受 列表 (#35831)
错误修复¶
修复 ’RedshiftToS3Operator’ 中 单引号的处理 (#35986)
修复 Redshift 无服务器的 get_iam_token 中的一个 错误 (#36001)
修复 ’AthenaHook.get_output_location’ 中 try 块之外的 reraise (#36008)
修复 EKS 触发器中访问 hook 的一个 错误 (#35989)
修复 ’GlacierToGCSOperator’ 中使用的方法名称中的一个 错误 (#35978)
修复 客户端类型 api 的 EC2Hook get_instance (#35960)
避免 在 EmrServerlessCancelJobsTrigger 初始化中创建 hook (#35992)
在将 ’EmrContainerTrigger’ 迁移到 ’AwsBaseWaiterTrigger’ 后,停止从 事件中获取 消息 (#35892)
修复 ’EksCreateClusterOperator’ 可延迟模式的 问题 (#36079)
其他¶
将 提供程序中的 最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)
更新 ’boto3’ 和 ’botocore’ 版本说明 (#36073)
改进 only_client_type 装饰器的 类型提示 (#35997)
重构 EmrContainerHook 中的一些 方法 (#35999)
重构 AthenaHook 中的 get_output_location (#35996)
将 RDS hook 移动到 RDS 触发器中的 缓存属性 (#35990)
在 AzureBlobStorageToS3Operator 中将 默认 空字典值 替换为 None (#35977)
更新 ’set_context’ 签名以匹配超类签名,并停止在 CloudwatchTaskHandler 中设置实例属性 (#35975)
在 AWS S3 FS 中使用 S3 hook 而不是 AwsGenericHook (#35973)
AWS 身份验证 管理器: 实现 所有 'is_authorized_*' 方法 (除了 'is_authorized_dag') (#35928)
移除 在 S3Hook 中 设置 不存在的 对象 参数 并 使用 本地变量 代替 (#35950)
8.12.0¶
特性¶
添加 'EC2HibernateInstanceOperator' 和 'EC2RebootInstanceOperator' (#35790)
为 'S3FileTransformOperator' 添加 OpenLineage 支持 (#35819)
为 S3Operators - 复制、 删除 和 创建 对象 添加 OpenLineage 支持 (#35796)
为 Amazon AWS 提供程序的 Batch 操作符 添加了 重试策略 参数, 以允许 动态 Batch 重试策略 (#35789)
在 EmrServerlessStartJobOperator 中为 template_fields 添加了 name 字段 (#35648)
openlineage, aws: 为 AthenaOperator 添加 OpenLineage 支持。 (#35090)
在 AWS 身份验证 管理器中 实现 登录 和 注销 (#35488)
Bug 修复¶
修复 Batch 操作符的 retry_strategy (#35808)
修复并重新应用 提供程序 文档的模板 (#35686)
使 EksPodOperator 的 exec 配置 不依赖于 日志级别 (#35771)
修复 'EmrServerlessStartJobOperator' 中的 'configuration_overrides' 参数 (#35787)
其他¶
更新了 文档字符串: 'check_key_async' 现在与 '_check_key_async' 的描述一致 (#35799)
检查父级上的 attr 而不是 TaskContextLogger set_context 上的自身 (#35780)
允许更大范围的 watchtower 版本 (#35713)
扩展使用 AWS S3 进行远程日志记录的任务上下文日志记录支持 (#32950)
如果 ECS 执行器的任务失败, 则记录容器的失败原因 (#35496)
8.11.0¶
重大更改¶
特性¶
为 objectstorage 添加对 匿名访问 s3 存储桶的支持 (#35273)
ECS 执行器 健康检查 (#35412)
Bug 修复¶
修复 AWS RDS 钩子的 DB 实例状态检查 (#34773)
修复 Amazon 文档字符串中的参数语法 (#35349)
改进 AWS 链接中的错误处理 (#35518)
使用 catchall except 更新 ECS 执行器健康检查 (#35512)
其他¶
将 ECS 执行器 移动到 其自己的文件 (#35418)
在 ECS 执行器 日志消息中阐明 “任务” (#35304)
使 'AthenaOperator' 中的 'output_location' 属性成为可选 (#35265)
8.10.0¶
注意
此版本引入了实验性功能:AWS ECS 执行器。
特性¶
添加 AWS ECS 执行器 (#34381)
AIP-58: 添加 Airflow 对象存储 (AFS) (#34729)
向 s3 操作符添加 Http (#35176)
Bug 修复¶
在 S3 download_files() 钩子中启用加密。 (#35037)
其他¶
在 Amazon AppFlow 操作符中使用基础 aws 类 (#35082)
在 Amazon Athena 操作符/传感器/触发器中使用基础 aws 类 (#35133)
在 Amazon Lambda 操作符/传感器中使用基础 aws 类 (#34890)
在 Amazon S3 Glacier 操作符/传感器中使用基础 aws 类 (#35108)
在 'AthenaOperator' 中公开 catalog 参数 (#35103)
8.9.0¶
特性¶
添加 Glue 'DataBrew' 操作符 (#34807)
添加 'check_interval' 和 'max_attempts' 作为 'DynamoDBToS3Operator' 的参数 (#34972)
Bug 修复¶
将 'EcsRunTaskOperator' 默认的等待器持续时间设置为 70 天 (#34928)
8.8.0¶
注意
如Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.5+。
特性¶
实现 'AwsBaseOperator' 和 'AwsBaseSensor' (#34784)
将 hooks 参数扩展到 'AwsBaseWaiterTrigger' (#34884)
允许在 AWS 连接中按服务设置 'endpoint_url' (#34593)
将 AWS Lambda 执行日志包含在任务日志中 (#34692)
Bug 修复¶
fix(providers/amazon): 在引发异常时尊重 soft_fail 参数 (#34134)
如果我们找不到日志,则不要使操作符失败 (#34570)
在运行 'BatchSensors' 时尊重 'soft_fail' 参数 (#34592)
在运行 'SqsSensor' 时尊重 'soft_fail' 参数 (#34569)
在运行 'EcsBaseSensor' 时尊重 'soft_fail' 参数 (#34596)
在运行 'SageMakerBaseSensor' 时尊重 'soft_fail' 参数 (#34565)
在 'S3KeysUnchangedSensor' 和 'S3KeySensor' 中尊重 'soft_fail' 参数 (#34550)
在 'LambdaFunctionStateSensor' 中尊重 'soft_fail' 参数 (#34551)
在 'AthenaSensor' 中尊重 'soft_fail' 参数 (#34553)
在 'QuickSightSensor' 中尊重 'soft_fail' 参数 (#34555)
在 'GlacierJobOperationSensor' 中尊重 'soft_fail' 参数 (#34557)
在 'GlueJobSensor'、 'GlueCatalogPartitionSensor' 和 'GlueCrawlerSensor' 中尊重 'soft_fail' 参数 (#34559)
尊重 'StepFunctionExecutionSensor' 中的 'soft_fail' 参数 (#34560)
其他¶
重构 合并 providers 中 io 的 导入 (#34378)
将 watchtower 升级到 3.0.1 (#25019) (#34747)
提升 providers 的 最低 airflow 版本 (#34728)
重构: 合并 providers 中 time 的 导入 (#34402)
重构 providers 中 str() 的 用法 (#34320)
重构 从 collections 的 导入 (#34406)
阐明 Amazon Lambda 的 调用 和 感知 (#34653)
重构 providers 中 多个 equals 为 contains (#34441)
在 'GCSToS3Operator' 中 将 'bucket' 重命名为 'gcs_bucket' (#33031)
删除 Amazon Provider 中重复的 'asgiref' 依赖项 (#34580)
更新 'BatchOperator' 的 operator_extra_links 属性 (#34506)
sagemaker.py 拼写 错误 修复 (#34445)
在 providers 中 使用 'airflow.exceptions.AirflowException' (#34511)
在 Amazon provider 中 的 已弃用 的 装饰器 中 使用 'AirflowProviderDeprecationWarning' (#34488)
在 EMR 操作符 中 使用 'AirflowProviderDeprecationWarning' (#34453)
弃用 DataSyncOperator 中的 get_hook 并 改为使用 hook (#34427)
重构 providers 中 更短 的 默认值 (#34347)
8.7.1¶
Bug 修复¶
Bug修复: 修复 RDS 触发器 参数,以便它们可以处理序列化/反序列化 (#34222)
在 EmrAddStepsOperator 的 延迟模式中 使用 基于 AwsBaseWaiterTrigger 的 触发器 (#34216)
其他¶
重构: 在 providers 中 积极思考 (#34279)
从 'EksPodOperator' 的文档字符串中 删除 未使用的参数 'cluster_role_arn' (#34300)
更正 'S3CreateObjectOperator' 文档字符串中 的 参数名称 (#34263)
重构: 简化 比较 (#34181)
简化 为 bool(...) (#34258)
8.7.0¶
警告
8.0.0 版本中引入的一个错误导致所有 EcsRunTaskOperator
任务在 10 分钟后与 ECS 任务分离并失败,即使 ECS 任务仍在运行。在此版本中,我们通过将默认的 waiter_max_attempts
值返回到 sys.maxsize
来修复此问题。
功能¶
添加 Amazon SQS 通知器 (#33962)
添加 Amazon SNS 通知器 (#33828)
Bug 修复¶
增加 'EcsRunTaskOperator' 中 'waiter_max_attempts' 的 默认值 (#33712)
修复 AWS 'EmrStepSensor' 在 延迟模式中 忽略指定的 'aws_conn_id' 的错误 (#33952)
修复 AppflowHook 中的 类型注释 (#33881)
使 Amazon Chime 连接 延迟加载,并与文档保持一致 (#34000)
在 可延迟模式 下运行 BatchSensor 时 尊重 “soft_fail” 参数 (#33405)
其他¶
重构: 合并 random 的导入和用法 (#34108)
合并 os.path.* 的导入 (#34060)
重构 providers 中的 正则表达式 (#33898)
重构: 简化 aws/triggers/batch.py 中的循环 (#34052)
合并 providers 中 类似的 if 逻辑 (#33987)
在 测试中 将单引号替换为双引号 (#33864)
从 providers 中删除无用的字符串连接 (#33968)
将 'aws.session_factory' 作为 Amazon provider 配置文档的一部分 (#33960)
重构 providers 中 不必要的跳转 (#33833)
在 providers 中将 try - except pass 替换为 contextlib.suppress (#33980)
从 providers 代码中删除一些无用的 try/except (#33967)
重构: 在 providers 中将 lambdas 替换为 推导式 (#33771)
在 Airflow providers 中将序列串联替换为解包 (#33933)
在 airflow's setup.py 中重新组织 devel_only extra (#33907)
从 Airflow providers 包和测试中删除显式的 str 连接 (#33860)
通过将一些模块移动到类型检查块中来改进 AWS provider 中的 模块导入 (#33780)
始终使用 'typing_extensions' 中的 'Literal' (#33794)
在 providers 中使用文字字典而不是调用 dict() (#33761)
在 providers 中删除不必要的代码并使用列表重写 (#33763)
8.6.0¶
功能¶
添加了 Amazon SageMaker Notebook 钩子和操作符 (#33219)
向 'LambdaCreateFunctionOperator' 添加 'deferrable' 选项 (#33327)
向 GlueCatalogPartitionSensor 添加 可延迟模式 (#33239)
向 'S3ToSqlOperator' 添加 'sql_hook_params' 参数 (#33427)
向 'SqlToS3Operator' 添加 'sql_hook_params' 参数 (#33425)
添加 参数以将角色 ARN 传递给 'GlueJobOperator' (#33408)
添加 新的 RdsStartExportTaskOperator 参数 (#33251)
Bug 修复¶
修复使用 AWS CloudWatch 时任务日志中的错误。不设置 'start_time' (#33673)
修复 AWS Batch 等待器的失败状态 (#33656)
修复 AWS appflow 等待器 (#33613)
修复 回退到 'SageMakerEndpointOperator' 更新时 去除 标签 (#33487)
其他¶
简化 providers/amazon 中 len() 的 条件 (#33565)
移除 EcsRunTaskOperator 中 非公开 接口 的使用 (#29447)
升级 botocore/aiobotocore 最低 要求 (#33649)
整合 itertools 的 导入 和 使用 (#33479)
整合 pandas 的 导入 和 使用 (#33480)
始终 将 ECS 任务 ARN 推送 到 'EcsRunTaskOperator' 中的 xcom (#33703)
使用 链接到 资源 元数据的 'boto3.client' ,而不是为 等待器 创建 新的 客户端 (#33552)
8.5.1¶
错误修复¶
获取 EMR 作业 失败时 的 失败信息 (#32151)
修复 AWS 日志 钩子 中的 get_log_events() (#33290)
其他¶
改进 从 AWS 获取 日志 (#33231)
重构: 简化 providers/amazon 中的 代码 (#33222)
实现 EventBridge 启用 和 禁用 规则 操作符 (#33226)
更新 mypy-boto3-appflow 依赖项 (#32930)
在 'RdsBaseOperator' 中 使用 functools 中的 'cached_property' (#33133)
为 'EcsDeregisterTaskDefinitionOperator' 的 'template_fields' 使用 set (#33129)
8.5.0¶
功能¶
openlineage, sagemaker: 为 SageMaker 的 Processing、Transform 和 Training 操作符添加 OpenLineage 支持 (#31816)
添加 Amazon EventBridge PutRule 钩子 和 操作符 (#32869)
为 GCSToS3Operator 添加 GCS 请求者付费 存储桶 支持 (#32760)
错误修复¶
在 GCSToS3Operator 中 检查 google provider 版本 ,然后再提供 match_glob 参数 (#32925)
为 延迟 BatchJobOperator 设置 更长的 默认 'waiter_max_attempts' (#33045)
其他¶
openlineage, sagemaker: 添加 缺少的 OpenLineage 类型 签名 (#33114)
为 mypy 添加 S3Bucket (#33028)
8.4.0¶
功能¶
在 test_connection 中 添加 endpoint_url (#32664)
添加 对 查询 Redshift 无服务器 集群 的 支持 (#32785)
为 StepFunctionStartExecutionOperator 添加 可延迟 模式 (#32563)
为 EMR 无服务器 启动 作业 操作符 添加 可延迟 模式 (#32534)
添加 Eventbridge PutEvents 操作符 和 钩子 (#32498)
为 rds 启动 & 停止 DB 添加 可延迟 模式 (#32437)
EMR 无服务器 创建/启动/停止/删除 应用程序 可延迟 模式 (#32513)
使 启动 和 停止 SageMaker 管道 操作符 可延迟 (#32683)
EKS 创建/删除 操作符的 可延迟 模式 (#32355)
错误修复¶
修复 AWS 可延迟 操作符,在 使用 'assume_role' 时 使用 AioCredentials (#32733)
[bugfix] 修复 AWS 触发器,如果未指定区域,反序列化会导致崩溃 (#32729)
修复 prune_dict 中的 错误,即使在严格模式下,也会删除空字典和列表 (#32573)
修复 S3ToRedshiftOperator 不支持 UPSERT 的 默认值 (#32558)
在 达到 max_attempts 后,不要从 AWS ECS 触发器返回成功 (#32589)
其他¶
将所有 k8S 类 移动到 cncf.kubernetes provider (#32767)
将 Appflow mypy 限制为 1.28.12,因为它引入了奇怪的类型问题 (#32901)
进一步限制 mypy-boto3-appflow,因为修复方案尚未出现 (#32927)
8.3.0¶
功能¶
添加 'ChimeWebhookHook' (#31939)
添加 'ChimeNotifier' (#32222)
为 S3KeysUnchangedSensor 添加 可延迟 模式 (#31940)
为 'RdsCreateDbInstanceOperator' 和 'RdsDeleteDbInstanceOperator' 添加 可延迟 模式 (#32171)
为 'AthenaOperator' 添加 可延迟 模式 (#32186)
为 'BatchCreateComputeEnvironmentOperator' 添加 可延迟 模式 (#32036)
在 EMR 操作符 和 传感器 中添加 可延迟 模式 (#32029)
为 “with logging” aws utils 添加 异步等待方法 (#32055)
为 EMR 无服务器 添加 自定义 等待器 (#30463)
为 'GlueJobOperator' 添加一个选项,以便在 TI 被终止时停止作业运行 (#32155)
为 'SageMakerTuningOperator' 和 'SageMakerEndpointOperator' 添加 可延迟 模式 (#32112)
EKS 创建/删除 节点组 可延迟 模式 (#32165)
ECS 操作符的 可延迟 模式 (#31881)
功能: AWS - GlueJobOperator - job_poll_interval (#32147)
添加 'AzureBlobStorageToS3Operator' 传输操作符 (#32270)
为 aws 触发器引入 一个基类 (#32274)
错误修复¶
bugfix: 分解 ECS 操作符中的 run+wait 方法 (#32104)
处理 解析无效的 's3_url' 时发生的 'UnboundLocalError' (#32120)
修复 'LambdaInvokeFunctionOperator' 有效负载参数类型 (#32259)
Bug 修复 GCSToS3Operator: 当 'replace=False' 且 S3 中已存在文件时,避免出现 'ValueError' (#32322)
其他¶
弃用 'delimiter' 参数和 GCS 中源对象的通配符,引入 'match_glob' 参数。 (#31261)
aws waiter 工具:在 waiter 错误时,使用错误级别记录状态信息 (#32247)
重写 ecs 中用于获取更少日志的方法 (#31786)
重构 Eks 创建集群操作符代码 (#31960)
在 'AthenaHook' 中使用 waiter (#31942)
为 'KubernetesPodOperator' 添加 'on_finish_action' (#30718)
添加 default_deferrable 配置 (#31712)
弃用 将任意参数传递给 RDS 钩子的行为 (#32352)
快速修复 RDS 操作符,防止参数冲突 (#32436)
移除在 AWS RDS 触发器中指定任意钩子参数的能力 (#32386)
仅当 配置字典中存在时,才更新爬虫标签 (#32331)
8.2.0¶
注意
此版本放弃了对 Python 3.7 的支持
功能¶
为 EmrTerminateJobFlowOperator 添加 deferrable 选项 (#31646)
为 EmrCreateJobFlowOperator 添加 Deferrable 选项 (#31641)
为 'BatchSensor' 添加 deferrable 模式 (#30279)
为 S3KeySensor 添加 deferrable 模式 (#31018)
为 Emr 添加步骤操作符添加 Deferrable 模式 (#30928)
在 Redshift 删除集群中添加 deferrable 模式 (#30244)
为 AWS glue 操作符(Job & Crawl)添加 deferrable 模式 (#30948)
在 BatchOperator 中添加 deferrable 参数 (#30865)
为 RedshiftCreateClusterSnapshotOperator 添加 Deferrable 模式 (#30856)
EksCreateFargateProfileOperator 和 EksDeleteFargateProfileOperator 的 Deferrable 模式 (#31657)
允许匿名 AWS 访问 (#31659)
在 S3ListOperator 和 S3ToGCSOperator 中支持通配符 (#31640)
在 'EmrContainerSensor' 中添加 'deferrable' 参数 (#30945)
为 BatchOperator 添加实时容器执行日志 (#31837)
Bug 修复¶
对 ECS 运行任务操作符的各种修复 (#31838)
修复 glue 操作符可延期模式的返回值 (#31694)
添加回缺失的 AsyncIterator 导入 (#31710)
使用 延续令牌 在 ecs 中获取日志 (#31824)
在 while 循环中获取状态,以便不会过早退出 (#31804)
[AWS 钩子] 使用提供的客户端在回退时获取官方 waiter (#31748)
处理 emr 'describe_cluster' API 响应中缺失的 LogUri (#31482)
其他¶
添加 Python 3.11 支持 (#27264)
为 EmrServerlessStartJobOperator 添加了配置模板字段 (#31746)
在 Amazon Redshift 连接中添加主机空检查 (#31567)
将工作组添加到模板化字段 (#31574)
为 _read_remote_logs 添加文档字符串和签名 (#31623)
弃用 'EcsRegisterTaskDefinitionOperator' 和 'EcsDeregisterTaskDefinitionOperator' 中的 'wait_for_completion' (#31884)
移除 Python 3.7 支持 (#30963)
更改 RedshiftResumeClusterOperator 的可延期实现以遵循标准 (#30864)
更改 RedshiftPauseClusterOperator 的可延期实现以遵循标准 (#30853)
8.1.0¶
注意
如 Apache Airflow 提供程序支持策略 中所述,此提供程序版本仅适用于 Airflow 2.4+
功能¶
DynamoDBToS3Operator - 添加一个将表导出到时间点的功能。 (#31142)
在 SageMakerTransformOperator 中添加 deferrable 参数 (#31063)
在 SageMakerTrainingOperator 中添加 deferrable 参数 (#31042)
在 SageMakerProcessingOperator 中添加 deferrable 参数 (#31062)
通过 AWS 连接为 Amazon Redshift 连接添加 IAM 身份验证 (#28187)
'StepFunctionStartExecutionOperator':在失败的情况下获取日志 (#31072)
为 EMR Serverless Job 操作符添加 on_kill (#31169)
为 EC2StateSensor 添加 Deferrable 模式 (#31130)
Bug 修复¶
bigfix: EMRHook 循环遍历分页响应以检查集群 id (#29732)
其他¶
提升 providers 中的 Airflow 最低版本 (#30917)
添加 模板 字段 到 S3ToRedshiftOperator (#30781)
为 更多的 EMR 操作符 和 传感器 添加 额外的 链接 (#31032)
为 S3 delete_bucket 添加 重试 (#31192)
在 RedshiftCreateClusterSnapshotOperator 中添加 tags 参数 (#31006)
改进/修复 glue 作业 日志 打印 (#30886)
仅当 deferrable 为 true 时才导入 aiobotocore (#31094)
更新 'S3Hook' 上 'get_key' 方法的 返回类型 (#30923)
支持 BatchOperator 中的 'shareIdentifier' (#30829)
BaseAWS - 当 resource_type 为 user 时,覆盖 客户端 以获取自定义等待器 (#30897)
添加 未来兼容的 mongo Hook 类型 (#31289)
当 resource_type 用于获取自定义等待器时,处理临时凭据 (#31333)
8.0.0¶
重大更改¶
警告
在此版本的提供程序中,已从以下操作符中删除了已弃用的 GCS hook 参数 delegate_to
:GCSToS3Operator
、GlacierToGCSOperator
和 GoogleApiToS3Operator
。 可以通过使用 impersonation_chain
参数来实现模拟。
从 GCSToS3Operator
中删除了已弃用的参数 google_cloud_storage_conn_id
,应改为使用 gcp_conn_id
。
删除了 Athena 和 EMR hook & 操作符中已弃用的参数 max_tries
,改用 max_polling_attempts
。
删除了 emr hook 中已弃用的方法 waiter
,改用更通用的 airflow.providers.amazon.aws.utils.waiter.waiter
从 Redshift 集群的 hook 方法 get_cluster_snapshot_status
中删除了已弃用的未使用参数 cluster_identifier
从 Sagemaker hook 中删除了已弃用的方法 find_processing_job_by_name
,改用 count_processing_jobs_by_name
。
删除了已弃用的模块 airflow.providers.amazon.aws.operators.aws_lambda
,改用 airflow.providers.amazon.aws.operators.lambda_function
删除了 EcsOperator,改用 EcsRunTaskOperator。EcsTaskLogFetcher 和 EcsProtocol 应从 hook 中导入。
删除了 AwsLambdaInvokeFunctionOperator,改用 LambdaInvokeFunctionOperator。
从 RedshiftDataOperator 中删除了已弃用的参数 await_result
,改用 wait_for_completion
。此操作符的某些方法应从 hook 中导入。
删除了已弃用的 RedshiftSQLOperator
,改用通用的 SQLExecuteQueryOperator
。作为 redshift_conn_id
传递的参数需要更改为 conn_id
,行为应保持不变。
从 secrets manager 中删除了已弃用的方法 get_conn_uri
,改用 get_conn_value
。还从 systems manager 中删除了已弃用的方法 get_conn_uri
。应改为使用 deserialize_connection(...).get_uri()
。
从 ImapAttachmentToS3Operator
、MongoToS3Operator
和 S3ToSFTPOperator
中删除了已弃用且未使用的参数 s3_conn_id
。
从 GCP 操作符 和 hooks 中删除 delegate_to (#30748)
从 Amazon provider 中删除 已弃用的 代码 (#30755)
特性¶
为 emr serverless 添加一个停止 操作符 (#30720)
SqlToS3Operator - 添加 对 SQL 表进行分区 的功能 (#30460)
新的 AWS 传感器 — DynamoDBValueSensor (#28338)
为 emr serverless 停止/删除操作符添加一个 "force" 选项 (#30757)
添加 对 AMPP 中可延迟操作符的支持 (#30032)
Bug 修复¶
修复了 日志记录 问题 (#30703)
DynamoDBHook - waiter_path() 考虑 'resource_type' 或 'client_type' (#30595)
在 EcsRunTaskOperator 中添加覆盖等待器延迟的能力 (#30586)
在 AWS Batch 操作符中添加对多节点作业的支持 (#29522)
AWS 日志。当从 AWS Cloudwatch 日志返回 3 个连续响应时,快速退出 (#30756)
修复 没有 aws_session_token 时的 异步 连接 (#30868)
其他¶
从 EmrStepSensor 中删除 @poke_mode_only (#30774)
组织 Amazon providers 文档索引 (#30541)
在 EksPodOperator 中删除重复的参数文档字符串 (#30634)
更新 AWS EMR 集群 链接 以使用新的仪表板 (#30844)
恢复 aiobotocore 作为 amazon provider 的可选依赖项 (#30874)
7.4.1¶
Bug 修复¶
修复 'RedshiftResumeClusterOperator' 可延迟的实现 (#30370)
其他¶
向 quicksight 错误消息添加更多信息 (#30466)
为 s3 bucket 添加模板字段 (#30472)
将 s3_bucket 添加到 SFTP 到 S3 操作符中的模板字段 (#30444)
7.4.0¶
特性¶
为 'RedshiftResumeClusterOperator' 添加可延迟模式 (#30090)
添加 'AwsToAwsBaseOperator' (#30044)
在 RedshiftPauseClusterOperator 中添加可延迟模式 (#28850)
添加对 DynamoDB 使用不同的 AWS 连接的支持 (#29452)
添加 'EC2CreateInstanceOperator', 'EC2TerminateInstanceOperator' (#29548)
使 GlueJobOperator 中的更新配置行为 成为可选 (#30162)
具有 动态值的自定义等待器,应用于 appflow (#29911)
支持在使用远程日志记录时删除本地日志文件 (#29772)
其他¶
将 字符串枚举类移动到 utils 模块 + 添加测试 (#29906)
将 cncf provider 文件名与 AIP-21 对齐 (#29905)
为 appflow hook 重写轮询代码 (#28869)
7.3.0¶
功能¶
向 Redshift Data API 钩子 添加 受影响的 行数 (#29797)
在 'RedshiftCreateClusterOperator' 中添加 'wait_for_completion' 参数 (#29657)
将 Amazon Redshift-data 添加到 S3<>RS 传输 操作符 (#27947)
允许使用 *_lookup_pattern 参数指定在后端查找哪个连接、变量或配置 (#29580)
为 AWS 钩子 AssumeRoleWithWebIdentity 实现文件凭据提供程序 (#29623)
为某些 EMR 操作符实现自定义 boto 等待器 (#29822)
错误修复¶
修复 sagemaker 中检查作业名称的代码 (#29245)
如果正在流式传输日志,则避免为 S3TaskHandler 发出回退消息 (#29708)
在 ECS 操作符中使用等待器而不是内部传感器 (#29761)
其他¶
RedshiftDataOperator 的改进:更好的错误报告以及返回 SQL 结果的能力 (#29434)
标准化 AWS lambda 命名 (#29749)
AWS Glue 作业钩子:使 s3_bucket 参数可选 (#29659)
'RedshiftDataOperator' 将 'await_result' 替换为 'wait_for_completion' (#29633)
7.2.1¶
错误修复¶
显式处理 AWS 提供程序中配置解析引发的异常 (#29587)
其他¶
修复 EcsRunTaskOperator 的文档字符串 region_name -> region (#29562)
7.2.0¶
功能¶
添加在 EmrCreateJobFlowOperator 上等待完成的选项 (#28827)
添加 S3 到(通用) SQL 的传输操作符 (#29085)
在冲突时为 stop_pipeline 添加重试 (#29077)
为 AWS Glue 作业控制台 URL 添加日志 (#28925)
启用单个触发器日志记录 (#27758)
错误修复¶
修复: 'num_of_dpus' 类型提示- GlueJobHook/Operator (#29176)
修复 DataSyncHook 中用于在 NFS 和 EFS 中创建位置的 boto3 方法中的错别字 (#28948)
解密 SsmHook 获取的 SecureString 值 (#29142)
其他¶
记录 redshift 传感器中观察到的状态 (#29274)
使用 thin/passthrough 钩子而不是单行钩子方法 (#29252)
将 AWS SqlToS3Operator 传输中的导入移动到可调用函数 (#29045)
为 EKS 传感器引入基类 (#29053)
引入一种将字典转换为 boto 样式键值列表的方法 (#28816)
更新 provide_bucket_name() 装饰器以处理新的 conn_type (#28706)
统一 aws 传感器中通过缓存属性获取钩子的方式 (#29001)
在文档/文档字符串中使用 boto3 intersphinx 清单 。(#28945)
7.1.0¶
功能¶
将 ''configuration_overrides'' 添加到模板字段 (#28920)
添加新的 SSM 钩子并在系统测试上下文构建器中使用它 (#28755)
向 emr.add_job_flow_steps 添加等待器配置参数 (#28464)
添加 AWS Sagemaker Auto ML 操作符和传感器 (#28472)
用于创建 sagemaker 实验的新操作符 (#28837)
错误修复¶
避免从 S3HookUriParseFailure 进行循环导入 (#28908)
在 AWS Batch 模块中使用 compat for cached_property (#28835)
在 "provide bucket" 之前应用 "统一存储桶和键" (#28710)
其他¶
更新 S3ToRedshiftOperator 文档,告知用户有关多个键功能的信息 (#28705)
重构等待器函数并改进单元测试 (#28753)
在缺少 numpy 的情况下引发更好的异常 (#28722)
不要从 provide_bucket_name 调用 get_connection (#28716)
7.0.0¶
重大更改¶
在 ‘SecretsManagerBackend’ 中,JSON 密钥永远不会被解析为 URL 编码。在 5.x
和 6.x
版本中,代码会根据上下文线索推断 JSON 密钥值是否为 URL 编码;现在,总是 使用未经修改的值来构建 Connection
对象。
Pandas 现在是 provider 的一个可选依赖项。SqlToS3Operator
和 HiveToDynamoDBOperator
需要安装 Pandas (您可以通过在安装 provider 时添加 [pandas]
额外项来自动安装它)。
使 pandas 依赖项 对于 Amazon Provider 成为可选 (#28505)
功能¶
弃用 SecretsManagerBackend 的 'full_url_mode';是否 将 密钥 识别为 JSON 或 URL 通过推断 (#27920)
为 AddStepsOperator 添加 执行角色 参数 (#28484)
添加 AWS SageMaker 操作符 来 注册 模型的 版本 (#28024)
为 EMR 步骤 传感器 日志 添加 链接 (#28180)
添加 Amazon Elastic Container Registry (ECR) Hook (#28279)
添加 EMR Notebook 操作符 (#28312)
创建 'LambdaCreateFunctionOperator' 和 传感器 (#28241)
更好地 支持 Boto 等待器 (#28236)
Amazon Provider 软件包 用户 代理 (#27823)
允许 通过 EmrServerless 操作符 配置 等待器 (#27784)
为 aws sagemaker pipelines 添加 操作符 + 传感器 (#27786)
更新 RdsHook 文档字符串 以匹配 正确的 参数名称 (#28108)
在 aws athena hook 中添加 一些 重要的 日志 (#27917)
Lambda hook: 使 runtime 和 handler 成为可选 (#27778)
Bug 修复¶
修复 EmrAddStepsOperature 的 wait_for_completion 参数不工作的问题 (#28052)
正确 地 模板化 Glue Jobs 的 'create_job_kwargs' 参数 (#28403)
修复 S3KeySensor 中模板渲染的 bucket_key (#28340)
修复 使用 DynamoDBToS3Operator 时出现的 类型错误 (#28158)
AWSGlueJobHook 如果 作业配置存在则更新它 (#27893)
修复 使用 tags 时 GlueCrawlerOperature 失败的问题 (#28005)
其他¶
修复 S3KeySensor 文档 (#28297)
改进 'AwsLambdaInvokeFunctionOperator' 的文档字符串 (#28233)
从 providers 中删除 过时的 compat 导入/代码 (#28507)
添加 关于重大更改的描述 (#28582)
[misc] 去除 条件语句中的 'pass' 语句 (#27775)
[misc] 在 providers 中用 'exactly_one' 助手替换 XOR '^' 条件 (#27858)
6.2.0¶
功能¶
对于 RDS 操作符,使用 Boto 等待器 而不是自定义的 _await_status 方法 (#27410)
在 'RedshiftResumeClusterOperator' 和 'RedshiftPauseClusterOperator' 中处理 瞬态状态错误 (#27276)
在 RedshiftDeleteClusterOperator 中添加 重试选项,以便在集群中正在运行操作时重试 (#27820)
Bug 修复¶
更正 SagemakerProcessingOperator 中的 作业名称匹配 (#27634)
将 common.sql provider 升级到 1.3.1 (#27888)
6.1.0¶
注意
如 Apache Airflow provider 支持策略 中所述,此版本的 provider 仅适用于 Airflow 2.3+。
其他¶
将 所有 provider 的 最小 Airflow 版本 移至 2.3.0 (#27196)
用 urlsplit 替换 urlparse (#27389)
功能¶
为 AWS SSM Parameter Store Secrets Backend 添加 有关 JSON 连接格式的信息 (#27134)
为 EMR Serverless 作业添加默认名称 (#27458)
将 'preserve_file_name' 参数添加到 'S3Hook.download_file' 方法 (#26886)
添加 GlacierUploadArchiveOperator (#26652)
添加 RdsStopDbOperator 和 RdsStartDbOperator (#27076)
'GoogleApiToS3Operator' : 将 'gcp_conn_id' 添加到模板字段 (#27017)
添加 SQLExecuteQueryOperator (#25717)
添加 关于 Amazon Elastic MapReduce 连接的信息 (#26687)
添加 BatchOperator 模板字段 (#26805)
改进 测试 AWS 连接响应 (#26953)
Bug 修复¶
SagemakerProcessingOperator 停止了对 'existing_jobs_found' 的处理 (#27456)
当未找到 Amazon CloudWatch 日志时,CloudWatch 任务处理程序不会回退到本地日志 (#27564)
修复 RedshiftSQLOperator 的向后兼容性 (#27602)
修复 redshift sql hook get_ui_field_behaviour 中的拼写错误 (#27533)
修复 example_emr_serverless 系统测试 (#27149)
修复 RedshiftSQLHook get_table_primary_key 方法中 文档字符串中的参数 (#27330)
将 s3_key_prefix 添加到模板字段 (#27207)
如果用户显式设置了凭证,则修复角色承担问题 (#26946)
修复 EmrServerlessStartJobOperator 的等待器调用中的失败状态 (#26853)
修复 AWS 测试中的一些弃用警告 (#26857)
修复 SqlToS3Operator 中非 parquet 格式的空字符串错误 (#26676)
Sagemaker hook: 当等待完成时,删除末尾的额外调用 (#27551)
ECS 小缺陷 (#26921)
如果从配置中获取密钥,请避免在 AWS 密钥后端中使用循环导入 (#26784)
6.0.0¶
重大更改¶
警告
在此版本的提供程序中,由于 Amazon S3 连接 (conn_type="s3"
) 始终是 AWS 连接 conn_type="aws"
的别名,因此已将其删除。实际上,唯一的影响是您将无法在 Web UI/API 中 测试
连接。为了恢复测试连接的能力,您需要手动将连接类型从 Amazon S3 (conn_type="s3"
) 更改为 Amazon Web Services (conn_type="aws"
)。
删除 Amazon S3 连接 类型 (#25980)
功能¶
将 RdsDbSensor 添加到 amazon 提供程序包 (#26003)
在 RDS 运算符上设置 template_fields (#26005)
在 Web UI 中自动 tail 文件 日志 (#26169)
Bug 修复¶
修复 SageMakerEndpointConfigOperator 的 返回值 (#26541)
EMR Serverless 修复 即使在失败时也将作业标记为成功的问题 (#26218)
修复 AWS 连接 对于无效 'profile_name' 参数的警告条件 (#26464)
Athena 和 EMR 运算符 max_retries 混淆修复 (#25971)
修复 SageMaker 运算符返回值 (#23628)
删除 Amazon 日志 任务处理程序中的冗余 catch 异常 (#26442)
其他¶
删除 提供程序内重复的连接类型 (#26628)
5.1.0¶
功能¶
添加 额外的 掩码 aws 凭据 (#26014)
添加 RedshiftDeleteClusterSnapshotOperator (#25975)
添加 redshift 创建 集群 快照 运算符 (#25857)
为 common-sql 添加 common-sql 下限 (#25789)
允许 AWS 密钥后端 使用 AWS 连接 功能 (#25628)
实现 'EmrEksCreateClusterOperator' (#25816)
改进 围绕 存储桶存在检查的错误处理/消息传递 (#25805)
Bug 修复¶
修复 显示 aws 连接信息 (#26025)
修复 'EcsBaseOperator' 和 'EcsBaseSensor' 参数 (#25989)
修复 RDS 系统测试 (#25839)
避免 实例化 AWS SM 后端时出现循环导入问题 (#25810)
修复 5.0.0rc3 版本中 Connection 对象的构建错误 (#25716)
5.0.0¶
重大更改¶
避免 AWS 密钥管理器 JSON 值必须进行 URL 编码的要求 (#25432)
删除 已弃用的模块 (#25543)
在包装器中解析 Amazon Hook 的 'region_name' 和 'config' (#25336)
在包装器中解析并验证 AWS 连接 参数 (#25256)
标准化 AwsLambda (#25100)
将单体 ECS 运算符重构为运算符、传感器和钩子 (#25413)
从 Amazon 提供程序包中删除 已弃用的模块 (#25609)
功能¶
添加 EMR Serverless 运算符和钩子 (#25324)
隐藏 Amazon Web Services 连接的未使用字段 (#25416)
在 SageMakerTransformOperator 中启用自动递增转换作业名称 (#25263)
统一 DbApiHook.run() 方法及其重写方法 (#23971)
SQSPublishOperator 应允许向 FIFO 队列发送消息 (#25171)
Glue 作业驱动程序日志记录 (#25142)
为 ParamSpec 增加 typing-extensions 和 mypy (#25088)
在 RedshiftDataOperator 中启用多个查询执行 (#25619)
Bug 修复¶
修复 S3Hook 传输配置参数验证 (#25544)
修复 wait_for_completion = True 时 BatchOperator 的链接 (#25228)
对 SqlToS3Operator 方法 _fix_int_dtypes 进行更改 (#25083)
重构: 将参数 'host' 弃用为连接的额外属性。弃用是为了支持 extra 中的 'endpoint_url' (#25494)
通过适当的方法获取 boto3.session.Session (#25569)
4.1.0¶
功能¶
向 AWS 钩子添加 test_connection 方法 (#24662)
添加 用于创建和删除 RDS 数据库的 AWS 运算符 (#24099)
向 'SqsSensor' 添加 批量选项 (#24554)
添加 AWS Batch & AWS CloudWatch 额外链接 (#24406)
重构 EmrClusterLink 并为其他 AWS EMR 运算符添加链接 (#24294)
将所有 SQL 类移动到 common-sql 提供程序 (#24836)
Amazon appflow (#24057)
使 S3Hook 中的 extra_args 在调用之间保持不变 (#24527)
Bug 修复¶
重构 并 修复 AWS 密钥 管理器 无效 异常 (#24898)
修复: RedshiftDataHook 和 RdsHook 不 使用 缓存 连接 (#24387)
修复 示例 的 源代码 链接 (#24386)
修复 S3KeySensor。 请参阅 #24321 (#24378)
修复: 'EmrCreateJobFlowOperator' 中 'emr_conn_id' 应该是 可选的 (#24306)
更新 提供程序 以 使用 functools 兼容性 的 ''cached_property'' (#24582)
4.0.0¶
重大更改¶
注意
此提供程序版本仅适用于 Airflow 2.2+,如 Apache Airflow 提供程序支持策略中所述。
新功能¶
向 GlueCatalogHook 添加 分区 相关 方法: (#23857)
添加 对 将 自定义 标签 关联到 通过 EmrContainerOperator 提交的 作业 运行 的支持 (#23769)
仅在 RedshiftCreateClusterOperator 中 为 单节点 集群 添加 节点 参数 数量 (#23839)
错误修复¶
修复: StepFunctionHook 忽略 显式 设置的 'region_name' (#23976)
修复 Amazon EKS 示例 DAG 在 导入期间 引发 警告 (#23849)
将 字符串 参数 评估 移动到 'EksCreateClusterOperator' 的 'execute()' 中 (#23877)
修复: 修补 #24215。 当 'create_job_kwargs' 包含 'Command' 键时, 不会引发 KeyError。 (#24308)
其他¶
轻量 重构 和 清理 AWS 提供程序 (#23907)
更新 RDS 的 示例 dag 和 文档 (#23651)
重新格式化 整个 AWS 文档 (#23810)
在 pathlib 对象中 将 "absolute()" 替换为 "resolve()" (#23675)
将 每次运行的 日志 模板 应用于 日志 处理程序 (#24153)
重构 GlueJobHook 的 get_or_create_glue_job 方法。 (#24215)
更新 DMS 示例 DAG 和 文档 (#23681)
更新 Quicksight 的 文档和 示例 dag (#23653)
更新 EMR 容器 的 文档和 示例 dag (#24087)
添加 AWS 项目 结构 测试 (关于: AIP-47) (#23630)
为 GCSToS3Operator 添加 文档和 示例 dag (#23730)
删除 旧的 Athena 示例 DAG (#24170)
清理 日志调用中的 f-strings (#23597)
3.4.0¶
新功能¶
添加 Quicksight 创建 摄取 Hook 和 Operator (#21863)
将 默认的 'aws_conn_id' 添加到 SageMaker Operators #21808 (#23515)
添加 RedshiftCreateClusterOperator
添加 'S3CreateObjectOperator' (#22758)
添加 'RedshiftDeleteClusterOperator' 支持 (#23563)
错误修复¶
修复 检索 日志事件时 的 连接关闭 错误 (#23470)
修复 LocalFilesystemToS3Operator 和 S3CreateObjectOperator 以 支持 完整的 s3:// 风格 键 (#23180)
修复 在 'ECSOperator' 中 尝试重新附加 (#23370)
修复 main 上的 文档构建失败 (#23240)
修复 "不支持对不同长度的 Iterable 进行链式操作"
'S3Hook': 修复 'load_bytes' 文档字符串 (#23182)
弃用 'S3PrefixSensor' 和 'S3KeySizeSensor' ,转而使用 'S3KeySensor' (#22737)
允许 Glue 中的 script_location 回退为 None (#23357)
其他¶
为 Amazon SQS 运算符 添加 文档和 示例 dag (#23312)
为 S3CopyObjectOperator 和 S3DeleteObjectsOperator 添加 文档和 示例 dag (#22959)
为 S3KeysUnchangedSensor 添加 示例 dag 和 文档
为 S3FileTransformOperator 添加 文档和 示例 dag
为 AWS Step Functions 运算符 添加 文档和 示例 dag
为 S3ListOperator 添加 示例 dag 和 文档 (#23449)
为 EC2 添加 文档和 示例 dag (#23547)
为 S3ListPrefixesOperator 添加 示例 dag 和 文档 (#23448)
Amazon Sagemaker 示例 DAG 和 文档 更新 (#23256)
更新 Athena 示例 DAG 和 文档 (#23428)
更新 Datasync 的 示例 dag 和 文档 (#23511)
3.3.0¶
新功能¶
在 SES 电子邮件 后端中 传递 自定义 标头 (#22667)
更新 secrets 后端 以使用 get_conn_value 代替 get_conn_uri (#22348)
其他¶
为 SqlToS3Operator 添加 文档 和 示例 DAG (#22603)
添加 HiveToDynamoDB 传输 示例 DAG 和 文档 (#22517)
为 MongoToS3Operator 添加 文档 和 示例 DAG (#22575)
为 LocalFilesystemToS3Operator 添加 文档 (#22574)
为 AWS CloudFormation 运算符 添加 文档 和 示例 DAG (#22533)
为 S3ToFTPOperator 和 FTPToS3Operator 添加 文档 和 示例 DAG (#22534)
GoogleApiToS3Operator: 更新 示例 DAG 和 文档 (#22507)
SalesforceToS3Operator: 更新 示例 DAG 和 文档 (#22489)
3.2.0¶
功能¶
添加 参数 以筛选列表: start_after_key, from_datetime, to_datetime, object_filter callable (#22231)
Bug 修复¶
修复 错误添加的 所有 providers 的 install_requires (#22382)
ImapAttachmentToS3Operator: 修复它, 更新示例 DAG 和 更新文档 (#22351)
3.1.1¶
功能¶
添加了 AWS RDS 传感器 (#21231)
添加了 AWS RDS 运算符 (#20907)
添加 RedshiftDataHook (#19137)
功能: 添加 invoke lambda 函数 运算符 (#21686)
在 SqlToS3Operator 上添加 JSON 输出 (#21779)
添加 SageMakerDeleteModelOperator (#21673)
为 Amazon RDS 添加了 Hook。 为 自动完成添加了 'boto3_stub' 库。 (#20642)
添加了 SNS 示例 DAG 和 rst (#21475)
在非常特殊的 eni 预置失败时重试 (#22002)
可配置的 AWS 会话工厂 (#21778)
S3KeySensor 使用 S3Hook url 解析器 (#21500)
在 sleep 后获取日志事件 以获取所有日志 (#21574)
在 GCSToS3Operator 中使用 临时文件 (#21295)
Bug 修复¶
AWS RDS 集成修复 (#22125)
修复 ''RedshiftSQLOperator'' 中的类型提示 (#21885)
Bug 修复 - S3DeleteObjectsOperator 将尝试删除所有键 (#21458)
修复 Amazon SES 电子邮件发送器的签名 (#21681)
修复 EcsOperatorError,使其可以从 picklefile 加载 (#21441)
修复 RedshiftDataOperator 并更新文档 (#22157)
修复在预置失败时重试的错误(#22137)
如果 将任务日志上传到 S3 失败,则重试一次 (#21981)
Bug 修复 - GCSToS3Operator (#22071)
修复查询状态轮询逻辑 (#21423)
使用不同的记录器以避免重复的日志条目 (#22256)
其他¶
在 PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)
支持 Python 3.10
[文档] 通过添加任务 upload_keys 来改进 s3 运算符示例 (#21422)
将 'S3' hook 名称重命名为 'Amazon S3' (#21988)
将模板字段添加到 DynamoDBToS3Operator (#22080)
3.0.0¶
重大更改¶
CloudFormationCreateStackOperator 和 CloudFormationDeleteStackOperator 使用 params
作为构造函数参数之一,但是此名称与在 Airflow 2.2 中以不同方式处理的 params
参数字段冲突。 params
参数已重命名为 cloudformation_parameters
以使其明确。
任何使用 params
传递的 CloudFormationCreateStackOperator 和 CloudFormationDeleteStackOperator 都应该更改为使用 cloudformation_parameters
。
在 CloudFormation 运算符中将 params 重命名为 cloudformation_parameter 。 (#20989)
功能¶
[SQSSensor] 添加选择加入以禁用自动删除消息 (#21159)
创建一个通用的 SqlToS3Operator 运算符并弃用 MySqlToS3Operator。 (#20807)
将一些 base_aws 日志记录从 info 移动到 debug 级别 (#20858)
AWS: 在 EKS 运算符中添加对可选 kwargs 的支持 (#20819)
AwsAthenaOperator: 如果没有提供,则不生成 ''client_request_token'' (#20854)
添加更多 SQL 模板字段渲染器 (#21237)
为新的 SQL 词法分析器添加条件 'template_fields_renderers' 检查 (#21403)
Bug 修复¶
修复: cloudwatch 日志提取逻辑 (#20814)
修复所有 Amazon Provider MyPy 错误 (#20935)
AWS glue 运算符中与 num_of_dpus #19787 相关的 Bug 修复 (#21353)
修复以检查值是整数还是浮点数并相应地转换。 (#21277)
其他¶
减轻 在已弃用的 AWS 模块中 'EmrClusterLink' 的导入警告 (#21195)
重命名 amazon EMR 钩子 名称 (#20767)
标准化 AWS SQS 类 名称 (#20732)
标准化 AWS Batch 命名 (#20369)
标准化 AWS Redshift 命名 (#20374)
标准化 DynamoDB 命名 (#20360)
标准化 AWS ECS 命名 (#20332)
重构 操作符 链接 以 不创建 临时的 TaskInstances (#21285)
eks_hook 日志 级别 fatal -> FATAL (#21427)
2.6.0¶
功能¶
添加 aws_conn_id 到 DynamoDBToS3Operator (#20363)
添加 RedshiftResumeClusterOperator 和 RedshiftPauseClusterOperator (#19665)
在 AWSAthenaHook 中添加了 获取 s3 输出 查询 结果 文件 URI 的函数 (#20124)
为 AWS Batch 添加 传感器 (#19850) (#19885)
将 状态 详细信息 添加到 EMR 容器 失败 原因 (#19579)
添加 对 在 MySqlToS3Operator 上替换 S3 文件的支持 (#20506)
Bug 修复¶
修复 AWS 提供商的 _get_credentials 中的 向后兼容性 问题 (#20463)
修复 拆分 redshift 模块 后的 弃用 消息 (#20366)
ECSOperator: 修复 缺少 exitCode 时的 KeyError (#20264)
修复 在 指定 WorkerType & NumberOfWorkers 时 AWS glue 运算符中的错误 (#19787)
其他¶
在 Amazon 提供商中 组织 Sagemaker 类 (#20370)
移动 emr_container 钩子 (#20375)
标准化 AWS Athena 命名 (#20305)
标准化 AWS EKS 命名 (#20354)
标准化 AWS Glue 命名 (#20372)
标准化 Amazon SES 命名 (#20367)
标准化 AWS CloudFormation 命名 (#20357)
标准化 AWS Lambda 命名 (#20365)
标准化 AWS Kinesis/Firehose 命名 (#20362)
标准化 Amazon SNS 命名 (#20368)
拆分 redshift sql 和 集群 对象 (#20276)
在 Amazon 提供商中 组织 EMR 类 (#20160)
重命名 DataSync 钩子 和 操作符 (#20328)
弃用 将 execution_date 传递给 XCom 方法 (#19825)
在 Amazon 提供商中 组织 Dms 类 (#20156)
在 Amazon 提供商中 组织 S3 类 (#20167)
在 Amazon 提供商中 组织 Step Function 类 (#20158)
在 Amazon 提供商中 组织 EC2 类 (#20157)
移动到 watchtower 2.0.1 (#19907)
修复 mypy aws 示例 dags (#20497)
默认情况下 在 KubernetesPodOperator 中删除 pod (#20575)
2.5.0 (已撤回)¶
警告
此版本已因以下原因被撤回:包含 重大更改
功能¶
添加 对 使用 ''client_type'' API 与 EC2 交互和 支持 过滤器的 支持 (#9011)
在尝试 下载 之前 不检查 S3 密钥 (#19504)
MySQLToS3Operator 实际上允许 将 parquet 文件 写入 s3。 (#19094)
Bug 修复¶
Amazon 提供商 删除 弃用, 第二次尝试 (#19815)
捕获 AWS Secrets Manager 后端中的 AccessDeniedException (#19324)
2.4.0¶
功能¶
MySQLToS3Operator 添加 对 parquet 格式的 支持 (#18755)
添加 RedshiftSQLHook, RedshiftSQLOperator (#18447)
从 AWS 提供商中 删除 额外的 postgres 依赖项 (#18844)
删除了 S3ToRedshiftOperator 上的重复代码 (#18671)
Bug 修复¶
修复 ses 电子邮件 后端 (#18042)
修复 字符串 连接 (#19099)
更新 S3PrefixSensor 以支持 检查 存储桶中的 多个 前缀 (#18807)
将模板化输入参数的 验证 移动到上下文初始化之后运行 (#19048)
修复 SagemakerProcessingOperator ThrottlingException (#19195)
修复 S3ToRedshiftOperator (#19358)
2.3.0¶
此版本中的 Redshift 运算符至少需要 2.3.0
版本的 Postgres 提供程序。这反映在 [postgres]
extra 中,但 extra 不能保证安装了正确版本的依赖项(取决于安装方法)。如果您在运行 Redshift 运算符时遇到问题,请将 apache-airflow-providers-postgres
提供程序升级到至少 2.3.0 版本。
功能¶
将 IAM 角色 凭据 添加到 S3ToRedshiftTransfer 和 RedshiftToS3Transfer (#18156)
在文档字符串中添加了 缺少的 'replace' 参数 (#18241)
在 S3ToRedshift 运算符上添加 upsert 方法 (#18027)
为 作业流示例 将 Spark 添加到 EMR 集群 (#17563)
更新 s3_list.py (#18561)
ECSOperator 实时 日志记录 (#17626)
弃用 EKSPodOperator 中的 默认 pod 名称 (#18036)
Aws Secrets Manager 后端 (#17448)
sftp_to_s3 流式 文件 选项 (#17609)
AwsBaseHook 使 client_type resource_type 成为 get_client_type, get_resource_type 的 可选 参数 (#17987)
删除 EKSPodOperator 中 不必要 的 参数 (#17960)
启用 AWS Secrets Manager 后端 以 使用 不同的 字段 检索 连接 (#18764)
添加 emr 集群 链接 (#18691)
AwsGlueJobOperator: 添加 wait_for_completion 到 Glue 作业 运行 (#18814)
启用 FTPToS3Operator 以 传输 多个 文件 (#17937)
Amazon Athena 示例 (#18785)
AwsGlueJobOperator: 添加 run_job_kwargs 到 Glue 作业 运行 (#16796)
Amazon SQS 示例 (#18760)
添加 一个 s3 列表 前缀 操作符 (#17145)
为 amazon provider 添加 postgres 额外依赖项 (#18737)
支持 S3KeySensor 中的 所有 Unix 通配符 (#18211)
添加 AWS Fargate 配置文件 支持 (#18645)
错误修复¶
ECSOperator 在 ECS 任务 失败时 返回 最后的 日志 (#17209)
刷新 EKS 上 长时间运行的 pod 的 凭据 (#17951)
ECSOperator: 在 找不到 cloudwatch 日志 流 时 出现 airflow 异常 (#18733)
2.2.0¶
功能¶
添加 一个 Amazon EMR on EKS 提供程序 软件包 (#16766)
在 ''RedshiftToS3Operator'' 中 添加 可选的 SQL 参数 (#17640)
在 Amazon provider 下添加 新的 LocalFilesystemToS3Operator (#17168) (#17382)
将 Mongo 投影 添加到 hook 和 传输 (#17379)
将 平台 版本 作为 ECSOperator 的 独立 参数 (#17281)
改进 AWS SQS 传感器 (#16880) (#16904)
实现了 基本的 EKS 集成 (#16571)
错误修复¶
修复 在 Glue hooks/operators 中 执行 load_file 时 出现的 ParamValidationError (#16012)
修复 #16972 - 在 AWS 基础 hook 中 规范化 角色会话名称 (#17210)
修复 EKSPodOperator 中 损坏的 XCOM (#17918)
其他¶
优化 Airflow 2.2.0 的 连接 导入
修复 provider.yaml 因 测试中 的 exit(0) 而引起的 错误 (#17858)
将 secrets 后端/日志/身份验证 信息 添加到 provider yaml (#17625)
2.1.0¶
功能¶
允许 在 ECSOperator 中 附加到 先前启动的任务 (#16685)
更新 AWS 基础 hook 以使用 可刷新 的 凭据 (#16770) (#16771)
将 select_query 添加到 RedshiftToS3Operator 中的 模板化字段 (#16767)
AWS Hook - 允许 IDP HTTP 重试 (#12639) (#16612)
更新 ECSOperator 中的 Boto3 API 调用 (#16050)
添加 自定义的 Salesforce 连接类型 + SalesforceToS3Operator 更新 (#17162)
将 SalesforceToS3Operator 添加到 Amazon Provider (#17094)
错误修复¶
AWS DataSync 默认轮询时间 从 5秒 调整到 30秒 (#11011)
修复 AWS 操作符 的 错误 的 template_fields_renderers (#16820)
AWS DataSync 在 异常时 取消 任务 (#11011) (#16589)
修复了 Amazon provider 的 template_fields_renderers (#17087)
删除 try-catch 块 (#17081)
ECSOperator / 将 上下文 传递给 self.xcom_pull,因为它 丢失了 (当使用重新附加时) (#17141)
使 S3ToRedshiftOperator 事务安全 (#17117)
2.0.0¶
重大更改¶
自动应用 apply_default 装饰器 (#15667)
警告
由于移除了 apply_default 装饰器,此版本的提供程序需要 Airflow 2.1.0+。如果你的 Airflow 版本低于 2.1.0,并且你想安装此提供程序版本,请先将 Airflow 升级到至少 2.1.0 版本。否则,你的 Airflow 包版本将自动升级,你必须手动运行 airflow upgrade db
来完成迁移。
功能¶
CloudwatchTaskHandler 从 Cloudwatch 事件中读取 时间戳 (#15173)
暂时移除 重试 (#16150)
删除 S3_hook 上的 “不允许尾部斜杠” 规则 (#15609)
添加 ECSOperator 的 容量提供程序策略 支持 (#15848)
更新 s3 到 redshift 的 复制 命令 (#16241)
使 SageMakerTrainingOperator 中的 作业名称检查 成为可选 (#16327)
添加 AWS DMS 复制任务操作符 (#15850)
错误修复¶
修复 S3 Select 有效负载 连接 (#16189)
修复 'AwsBatchWaitersHook' 文档字符串中的 间距 (#15839)
当 使用单个查询(而不是聚合管道) 运行时 ,MongoToS3Operator 失败 (#15680)
修复: AwsGlueJobOperator 更改 load_file 的 args 顺序 (#16216)
修复 S3ToFTPOperator (#13796)
1.4.0¶
功能¶
S3Hook.load_file 应该 接受 Path 对象 以及 str (#15232)
Bug 修复¶
修复 'logging.exception' 冗余 (#14823)
修复 AthenaSensor 错误地 调用 AthenaHook (#15427)
为 已弃用的 模块 添加 指向 新 模块 的链接 (#15316)
修复 SQSSensor 的文档 (#15323)
1.3.0¶
功能¶
大量的 template_fields_renderers 添加 (#15130)
将 region_name 发送到 AwsGlueJobHook 的父类 (#14251)
为 ECS Operator 添加 重试 (#14263)
使 script_args 在 AwsGlueJobOperator 中可模板化 (#14925)
添加 FTPToS3Operator (#13707)
实现了 S3 存储桶 标记 (#14402)
S3DataSource 不是 必需的 (#14220)
Bug 修复¶
AWS: 当 SSM & SecretsManager 密钥 未找到时,不要记录信息 (#15120)
在初始化 'CloudFormationCreateStackSensor' 时缓存 Hook (#14638)
1.2.0¶
功能¶
避免在 S3 远程日志上传中使用线程 (#14414)
允许 AWS Operator RedshiftToS3Transfer 运行自定义查询 (#14177)
如果使用 STS 凭据,则包含 STS 令牌 (#11227)
1.1.0¶
功能¶
添加 对为 Glue Job 添加额外参数的支持。 (#14027)
添加 aws ses 电子邮件 后端 以与 EmailOperator 一起使用。 (#13986)
将 bucket_name 添加到 S3 运算符中的 模板字段 (#13973)
添加 ExasolToS3Operator (#13847)
AWS Glue 爬虫 集成 (#13072)
向 S3CopyObjectOperator 添加 acl_policy (#13773)
在 MongotoS3Operator 中允许 AllowDiskUse 参数和文档 (#12033)
添加 S3ToFTPOperator (#11747)
为 ECSOperator 添加 xcom push (#12096)
[AIRFLOW-3723] 为 mongo_to_S3 运算符添加 Gzip 功能 (#13187)
添加 S3KeySizeSensor (#13049)
将 'mongo_collection' 添加到 MongoToS3Operator 中的 template_fields (#13361)
允许在 AWS Batch 作业提交上使用标签 (#13396)
Bug 修复¶
修复 GCSToS3Operator 中的错误 (#13718)
修复 S3KeysUnchangedSensor,使其模板字段正常工作 (#13490)
1.0.0¶
提供程序的初始版本。