apache-airflow-providers-openlineage
更新日志¶
2.0.0¶
注意
如 Apache Airflow providers 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.9+。
重大更改¶
警告
所有已弃用的类、参数和功能已从 OpenLineage 提供程序包中删除。引入了以下重大更改
实用程序
从
openlineage.utils
模块中删除normalize_sql
函数。
移除 OpenLineage 中的 提供程序 弃用 (#44636)
功能¶
添加 clear_number 到 OpenLineage 的 dagrun 级别 事件 运行 ID 生成 (#44617)
利用 更多 信息 来 确定性地 生成 OpenLineage run_id (#43936)
特性: 在 DataprocSubmitJobOperator 中 自动将 OL 信息 注入 spark 作业 (#44477)
其他¶
删除 对 AIRFLOW_V_2_9_PLUS 的 引用 (#44987)
将 提供程序 中的 最低 Airflow 版本 提升 到 Airflow 2.9.0 (#44956)
在 提供程序 中 检查 Airflow 版本的 一致 方式 (#44686)
为 OpenLineage 添加 基本 系统 测试 (#43643)
将 Asset 面向 用户的 组件 移动到 task_sdk (#43773)
将 整个 代码库中的 execution_date 重命名为 logical_date (#43902)
1.14.0¶
功能¶
为 DbApiHook, PrestoHook 和 TrinoHook 添加 对 分号剥离的 支持 (#41916)
将 ProcessingEngineRunFacet 添加到 OL DAG 启动 事件 (#43213)
Bug 修复¶
在 OpenLineage 信息中 序列化 asset/dataset 时间表 条件, 也 适用于 Airflow 2 (#43434)
OpenLineage: 在实例化 OpenLineageClient 时接受整个配置。 (#43740)
其他¶
暂时 将 openlineage 限制为 <1.24.0 (#43732)
将 python 操作符 移动到 标准 提供程序 (#42081)
1.13.0¶
功能¶
feat(providers/openlineage): 在公共 提供程序中 使用 asset (#43111)
其他¶
忽略 兼容导入的 attr-defined (#43301)
nit: 从 OL 的 AirflowJobFacet 中删除 任务组的 工具提示 (#43152)
openlineage 提供程序需要 1.2.1 common.compat (#43039)
1.12.2¶
其他¶
更改 导入以 使用 BashOperator 的标准 提供程序 (#42252)
删除 核心和提供程序对 python3.8 的支持 (#42766)
将与 dataset 相关的 python 变量名称 重命名为 asset (#41348)
1.12.0¶
功能¶
特性: 在发送 DagRun 时通知潜在的序列化失败, 不要序列化不必要的参数, 为异常保护监听器 (#41690)
Bug 修复¶
修复: 在 openlineage InfoJsonEncodable 中将列表转换为扁平化字符串 (#41786)
其他¶
chore: 提升 OL 提供程序 依赖项 版本 (#42059)
在 OpenLineage 提供程序中从 执行日期 移动到 dag_run.logical_date (#41889)
统一 DAG 计划参数并 将默认值更改为 None (#41453)
1.11.0¶
注意
如 Apache Airflow providers 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.8+。
功能¶
特性: 将 debug facet 添加到所有 OpenLineage 事件 (#41217)
特性: 将 fileloc 添加到 AirflowRunFacet 中的 DAG 信息 (#41311)
特性: 删除 openlineage 客户端已弃用的 from_environment() 方法 (#41310)
特性: openlineage 侦听器捕获 hook 级别的血缘 (#41482)
Bug 修复¶
修复: 获取 任务依赖项, 而无需将任务树序列化为字符串 (#41494)
修复: 当 缺少 OpenLineage on_start 方法时, 返回空数据而不是 None (#41268)
修复: 用 downstream_task_ids 替换 dagTree (#41587)
其他¶
将 提供程序 中的 最低 Airflow 版本 提升 到 Airflow 2.8.0 (#41396)
chore: 删除 openlineage 弃用警告 (#41284)
1.10.0¶
功能特性¶
在 COMPLETE/FAIL 事件中添加 AirflowRun (#40996)
openlineage: 扩展 custom_run_facets 以便也在 complete 和 fail 上执行 (#40953)
openlineage: 将 OpenLineage 提供程序迁移到 V2 facet。 (#39530)
openlineage: 为 dag runEvents 添加 AirflowRunFacet (#40854)
[AIP-62] 将 AIP-60 URI 转换为 OpenLineage (#40173)
能够在 OpenLineage 事件中添加 自定义 facet (#38982)
openlineage: 在 common.compat 中添加方法,以便不强制 hook 对每个 2.10 hook lineage 调用都进行 try/except (#40812)
openlineage: 使用 airflow 提供的 conf 中的 getter (#40790)
openlineage: 添加配置以根据 conf 设置包含 'full' 任务信息 (#40589)
将 TaskInstance log_url 添加到 OpenLineage facet (#40797)
openlineage: 将可延迟信息添加到 airflow 运行 facet 中的任务信息 (#40682)
缺陷修复¶
调整默认提取器的 on_failure 检测,以修复 airflow 2.10 的问题 (#41094)
openlineage: 使 attrs.define 中 slots 的值在所有 OL 用法中保持一致 (#40992)
将 DagRun 中使用的 facet 的 'slots' 设置为 True (#40972)
openlineage: 修复 / 在 AirflowRunFacet 中添加一些任务属性 (#40725)
其他¶
openlineage: 将 dt.now 替换为 airflow.utils.timezone.utcnow (#40887)
openlineage: 移除已弃用的 parentRun facet 键 (#40681)
1.9.0¶
功能特性¶
本地任务作业:添加超时,以便不在 on_task_instance_success 侦听器过早终止时停止 (#39890)
openlineage: 在 sql 解析器调用站点周围添加一些调试日志 (#40200)
将任务 SLA 和已排队日期时间信息添加到 AirflowRunFacet (#40091)
将错误堆栈跟踪添加到 OpenLineage 任务事件 (#39813)
引入 AirflowJobFacet 和 AirflowStateRunFacet (#39520)
将 UUIDv7 用于 OpenLineage runIds (#39889)
openlineage: 在单独的进程中执行提取和消息发送 (#40078)
在 AirflowRunFacet 中添加一些已删除的 Task 属性 (#40371)
缺陷修复¶
openlineage, redshift: 不要为低于 Airflow 2.10 的版本调用 DB 获取模式 (#40197)
修复: 在 airflow 独立模式下,当使用 OL 提供程序时,调度程序崩溃 (#40459)
nit: 修复日志记录级别 (#40461)
修复: 在 OL facet 中,在正确的键下提供堆栈跟踪 (#40372)
其他¶
修复: 针对 airflow 提供程序修复 sqa 弃用问题 (#39293)
在 ruff 中启用强制执行 pydocstyle 规则 D213。 (#40448)
1.8.0¶
警告
在 Airflow 2.10.0 中,我们修复了 try_number 的工作方式。对于 Airflow >= 2.10.0,请使用 apache-airflow-providers-openlineage >= 1.8.0
。旧版本的 Airflow 不受影响。如果您运行不兼容的版本,将会引发异常,要求您升级提供程序版本。
功能特性¶
调度程序处理 try_number 的递增 (#39336)
缺陷修复¶
修复:防止在无法导入提取器时发生错误 (#39736)
在调度程序中的派生 OpenLineage 进程中重新配置 ORM。 (#39735)
其他¶
chore: 更新 conf 检索文档字符串并调整 pool_size (#39721)
移除 Google 和 Snowflake 提供程序中的 'openlineage.common' 依赖项。 (#39614)
使用 'ProcessPoolExecutor' 而不是 'ThreadPoolExecutor'。 (#39235)
misc: 添加自定义提供程序运行时检查 (#39609)
更快地导入 'airflow_version' (#39552)
简化 'airflow_version' 导入 (#39497)
openlineage: 通知已捕获已记录的异常 (#39493)
chore: 添加更多 OpenLineage 日志以方便调试 (#39136)
1.7.0¶
功能特性¶
添加 lineage_job_namespace 和 lineage_job_name OpenLineage 宏 (#38829)
openlineage: 添加 '选择加入' 选项 (#37725)
缺陷修复¶
修复:从 facet 中删除冗余的运算符信息 (#38264)
修复: disabled_for_operators 现在会阻止整个事件的发送 (#38033)
修复: 添加 在检索 Airflow 配置时 的回退机制 ,以避免 引发 错误 (#37994)
修复: 修复 父 ID 宏 并 删除 未使用的 实用程序 (#37877)
其他¶
避免 在测试之外 使用 'assert' (#37718)
为 TaskInstance 上的 'task' 添加 默认值 / 修复 TaskInstancePydantic 上的 属性 (#37854)
1.6.0¶
功能¶
功能: 为 event_size 和 提取时间 添加 OpenLineage 指标 (#37797)
功能: 为 文件 和 用户 Airflow 的 血缘实体 添加 OpenLineage 支持 (#37744)
[OpenLineage] 添加 对 JobTypeJobFacet 属性的支持。 (#37255)
杂务: 更新 OpenLineage ExtractorManager 中的 注释 和 日志记录 (#37622)
错误修复¶
修复: 检查 运算符是否 在 DefaultExtractor.extract_on_complete 中被禁用 (#37392)
其他¶
文档: 更新 整个 OpenLineage 提供程序 文档。 (#37620)
1.3.0¶
功能¶
功能: 为 COMPLETE 和 FAIL 事件添加 parent_run_id (#36067)
将 基本 指标 添加到 统计信息收集器。 (#35368)
错误修复¶
修复: 修复 OpenLineage FAIL 事件的 run_id (#36051)
修复 并 重新应用 提供程序 文档的 模板 (#35686)
其他¶
删除 ClassVar 注释。 (#36084)
1.1.0¶
功能¶
允许 在 运算符级别禁用 openlineage (#33685)
错误修复¶
修复 'get_custom_facets' 中的 导入。 (#34122)
其他¶
通过将 某些 模块导入类型检查块,来改进 Airflow 提供程序中的模块导入 (#33754)
为 DBT Cloud 添加 OpenLineage 支持。 (#33959)
重构 提供程序中 不必要的跳转 (#33833)
重构: 在提供程序中 用推导式替换 lambda 表达式 (#33771)
1.0.2¶
错误修复¶
openlineage: 不要在执行器中运行 任务实例侦听器 (#33366)
openlineage: 不要尝试 从已弃用的配置中 编辑 Proxy 对象 (#33393)
openlineage: 在侦听器中,防御性地检查提供的日期时间 (#33343)
其他¶
为 Trino 添加 OpenLineage 支持。 (#32910)
简化 其他提供程序中 len() 的条件 (#33569)
用正确的格式替换 repr() (#33520)
1.0.1¶
错误修复¶
openlineage: 如果未配置,则禁用运行侦听器 (#33120)
当没有解析模式时,不要使用数据库作为回退。 (#32959)
其他¶
openlineage, bigquery: 为 BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)
将 openlineage 配置 移动到 提供程序 (#33124)
1.0.0¶
提供程序的初始版本。