生态系统
这些资源和服务并非由 Apache Airflow® 社区和 Apache Airflow 项目(由 Committers 和 Airflow PMC 维护)维护或认可。请自行决定是否使用。社区不对这些工具的许可或有效性进行验证,因此您有责任对其进行验证。
如果您想包含在此页面上,请通过Apache Airflow 开发或用户邮件列表与我们联系并告知我们,或者直接为此页面打开一个 Pull Request。
学习资源
Apache Airflow YouTube 频道 - 官方 YouTube 频道
Airflow Summit - 适用于 Apache Airflow 开发者的会议
Awesome Apache Airflow - 精选的 Apache Airflow 相关资源列表
Astronomer Academy - Astronomer 教育团队提供的完整课程和认证
Apache Airflow 全面实践入门课程 作者 Marc Lamberti (Udemy)
Apache Airflow:完整的实践入门到高级课程 作者 Alexandra Abbas (Udemy)
Apache Airflow 数据管道 和 第二版 Apache Airflow 书籍 (Amazon)
Airflow 即服务
Astro - 由 Astronomer 提供,Astro 是现代数据编排平台,由 Apache Airflow 驱动。Astro 使数据工程师、数据科学家和数据分析师能够构建、运行和观察代码形式的管道。
Google Cloud Composer - Google Cloud Platform 上的托管 Apache Airflow 服务
Amazon Managed Workflows for Apache Airflow - Amazon Web Services (AWS) 上的托管 Apache Airflow
Azure Data Factory Managed Airflow - Azure 上的托管 Apache Airflow 服务
Yandex Managed Service for Apache Airflow - Yandex Cloud 上的托管 Apache Airflow
Airflow with Restack - Restack Cloud 上的托管 Apache Airflow,或自带云:AWS EKS、GCP GKE 或 Azure AKS。允许您使用最新版本的 Airflow 和您自己的 DAG。将您的仓库连接到 Restack GitHub 应用以获得内置的 CI/CD。
DoubleCloud Managed Service for Apache Airflow - DoubleCloud 平台上的托管 Apache Airflow。
其他部署方法
Airflow Heroku Deployment - Airflow Heroku Deployment 允许只需点击几下即可创建演示 Airflow 实例。
通过 CNDI 自行托管 Airflow - 用于部署 Airflow Kubernetes 集群的工具包,支持 AWS、GCP、Azure、VMWare、裸金属,甚至多云/混合云支持。更多详细信息请参阅文档。
在 Amazon EKS 上自行托管 Airflow - 在 Amazon EKS 上自行托管 Airflow 提供了使用 Data on EKS Blueprints 和 Terraform Data add-ons 模块通过 Terraform 在 Amazon EKS 上部署自行托管 Apache Airflow 的指南,请查看 Data on EKS Airflow 蓝图。
Amazon MWAA Terraform 模块允许您使用官方 Terraform 模块部署 Amazon Managed Workflows for Apache Airflow。有关如何使用 Amazon MWAA 的完整示例,请查看 Data on EKS MWAA 蓝图。
第三方 Airflow 插件和 Provider
Astronomer Registry - Apache Airflow 集成的发现和分发中心,旨在汇总和整理生态系统中最优秀的部分。
Airflow Plugins - Airflow 各种插件的中央仓库集合,包括 mailchimp、trello、sftp、GitHub 等。
Airflow ECR Plugin - 定期刷新 AWS ECR 登录令牌的插件。当 DockerOperator 需要拉取托管在 ECR 上的镜像时,此插件很有用。
Airflow OpenMLDB Provider - 包含用于在 OpenMLDB 上进行特征提取的 Operator 的 Airflow OpenMLDB Provider。
Airflow Apache Mesos Provider - 包含用于使用 Apache Mesos 进行横向扩展的 Scheduler 的 Airflow Apache Mesos Provider。
Airflow Netezza Provider - 使用 nzpy 连接到 Netezza 的 Airflow Provider
Airflow Grafana Loki Provider - 提供与 Grafana Loki 集成的 Hook 和 LogHandler。此 Provider 提供了一个用于向 Grafana Loki 写入和从中读取 Task 日志的 LogHandler。
Airflow SAS Provider - 提供用于创建 Airflow 任务以执行 SAS Studio Flows 和 Jobs 的 Hook 和 Operator。
Airflow Cloudera Provider - 提供 Hook 和 Operator 以便与 Cloudera Data Platform Services 进行交互并运行您的工作负载
Airflow Alembic Provider - 提供 Hook 和 Operator 以便使用 Alembic 运行数据库迁移
Airflow Pulumi Provider - 提供 Hook 和 Operator 以便使用 Pulumi 管理基础设施即代码
Airflow DolphinDB Provider - 提供 Hook 和 Operator 以便使用 DolphinDB 运行脚本。
Airflow TM1 Provider - 提供 Hook 和 Operator 以便通过 REST API 简化连接到 IBM Cognos TM1 / Planning Analytics 数据库。
Astronomer Cosmos - 只需几行代码即可将您的 dbt Core 项目作为 Apache Airflow DAG 和 Task Groups 运行。
Airflow OpenTelemetry Provider - 提供 Hook 和 EventListener,它们将为您的 DAG 运行在 OpenTelemetry 中生成 trace、metric 和日志。
Airflow Couchbase Provider - 提供 Hook 以便与 Couchbase 数据库无缝交互、执行查询、管理文档等。
Airflow SAP HANA Provider - 提供 Hook 以便与 SAP HANA 交互。允许使用 Airflow SQL Operator 和数据库 Hook 方法,包括与 sqlalchemy 交互的方法。
异步 Provider
Astronomer Providers - 由 Astronomer 构建和维护的 Apache Airflow 异步 Operator 和 Sensor 的集合。
Airflow Kafka Provider - 包含可延迟 Operator 和 Sensor 的 Apache Airflow Kafka provider。
第三方 Airflow Helm Charts
Apache Airflow 自 2021 年初发布了 官方 Apache Airflow 社区 Chart,但历史上也存在其他一些流行的 Chart
用户社区 Chart - 用户社区管理的 Chart,自 2018 年起存在,之前在官方(现已废弃)Helm Charts 仓库中称为 stable/airflow。
Bitnami Chart - Bitnami 管理着许多 Chart,Airflow Chart 是其中之一
Astronomer Chart - 由 Astronomer Chart 管理的 Chart。这是官方 Airflow 社区 Chart 所基于的原始 Chart(由 Astronomer 捐赠)
与 Airflow 集成的工具
ADA - 一个用于从 Airflow 数据库实例中检索分析指标的微服务。
as-scraper - 与 Selenium 集成,用于在 Airflow 中构建和维护 Web 爬虫。
afctl - 一个 CLI 工具,包含创建、管理和部署 Airflow 项目所需的一切,更快更顺畅。
airflint - 对所有 Airflow DAG 强制执行最佳实践。
airflow-aws-executors - 直接在 AWS Batch、AWS Fargate 或 AWS ECS 上运行 Airflow 任务;更少的基础设施意味着更多。
airflow-code-editor - 一个用于 Apache Airflow 的工具,允许您在浏览器中编辑 DAG。
airflow-diagrams - 从 Airflow DAG 自动生成的图表
airflow-maintenance-dags - Clairvoyant 有一个 Airflow DAG 仓库,这些 DAG 对 Airflow 本身进行操作,清理底层元数据存储中的各种数据。
airflow-parse-bench - 一个 Python 工具 (CLI),用于在本地机器上测量和比较您的 DAG 的解析时间。
AirflowK8sDebugger - 一个库,用于使用 KubernetesPodOperator 从 Airflow dag 生成 k8s pod yaml 模板。
Airflow Ditto - 一个可扩展的框架,用于对 Airflow DAG 进行转换,并将其转换为与原始 DAG 流同构的另一个 DAG,以便能够在不同的环境(例如不同的云,甚至不同的容器框架 - Apache Spark on YARN vs Kubernetes)上运行。内置支持 EMR-to-HDInsight-DAG 转换。
Amundsen - Amundsen 是一个数据发现和元数据平台,用于提高数据分析师、数据科学家和工程师与数据交互时的生产力。它可以显示哪个 Airflow 任务生成了给定的表。
Apache-Liminal-Incubating - Liminal 提供了一个领域特定语言 (DSL),用于在 Apache Airflow 之上构建 ML/AI 工作流程。其目标是使机器学习过程可操作化,允许数据科学家快速从成功的实验过渡到模型训练、验证、部署和生产推理的自动化管道。
Astro CLI - Astro CLI 是获取本地 Airflow 服务器进行原型开发和开发的最简单方法。
Astro SDK - Astro SDK 允许使用 Python 和 SQL 快速干净地开发 Extract、Load、Transform 工作流程,由 Apache Airflow 驱动并由 Astronomer 维护。
Chartis - 将通用工作流语言 (CWL) 转换为 Airflow DAG 的 Python 包。
CWL-Airflow - 扩展 Apache-Airflow 1.10.11 功能并支持 CWL v1.2 的 Python 包。
DAGify - 一个 Python 工具,用于将 Control-M 工作流程转换为 Airflow DAG。
dag-factory - 一个库,用于从 YAML 配置文件动态生成 Apache Airflow DAG。
Dag Dependencies viewer - 一个工具,用于创建视图以可视化 Airflow DAG 之间的依赖关系
data-dag - 一个库,用于构建工厂以从数据(如 YAML 文件)动态生成 DAG
Databand - 构建在 Airflow 之上的可观察性平台。
DataHub - 适用于现代数据栈的元数据平台。它可以自动从 Airflow 收集血缘关系和其他元数据。
dbt (数据构建工具) - 数据转换工具,dbt 作业可以使用 Airflow 进行调度。
Domino - Domino 是一个开源图形用户界面平台,通过无代码、直观的可视化拖放操作创建数据和机器学习工作流程 (DAG)。它也是发布和共享您的 Python 代码的标准,以便任何人都可以直接在 GUI 中自动使用它。
Elyra - Elyra 提供了一个可视化编辑器,使数据科学家能够以低代码/无代码的方式创建 AI 管道。
GeniumCloud - 通过全新的 UI 快速构建、调度和控制 Airflow 工作流程的一站式平台。开箱即用的全面 Airflow 基础设施监控,与警报系统集成,服务适用于小型到大型企业组织。管理复杂工作流程的最简单方法。
gusty - 使用任意数量的 YAML、Python、Jupyter Notebook 或 R Markdown 文件创建一个 DAG,这些文件代表 DAG 中的单个任务。gusty 还配置依赖关系、DAG 和 TaskGroups,支持您的本地 Operator 等等。完全容器化的演示可在此处获取。
Marquez - Marquez 是一个开源元数据服务,维护数据出处,显示数据集如何被消费和生产,并集中管理数据集生命周期。Marquez 可与 Apache Airflow 一起用作 OpenLineage 后端。
Meltano - 开源、自托管、CLI 优先、可调试且可扩展的 ELT 工具,它采用 Singer 进行提取和加载,利用 dbt 进行转换,并 与 Airflow 集成进行编排。
Nexla - 构建、转换和管理与数据库、API、流、SaaS 服务、事件甚至电子邮件之间的数据流。当您的 Nexla flow 运行完成后,使用 Nexla 的 Airflow Operator 在其他 Operator 中触发 flows 启动。
Oozie to Airflow - 一个工具,用于轻松在 Apache Oozie 工作流程和 Apache Airflow 工作流程之间进行转换。
OpenLineage - 一个开放标准,用于收集数据血缘关系,可用于跟踪数据集在包括 Apache Airflow 在内的多个系统中的路径。
Panda Patrol - 在您的 Airflow DAG 中测试和分析您的数据。内置仪表盘和警报。
PowerBI-Airflow-Plugin - 用于 Power BI 的 Airflow 插件包含一个定制的 Airflow Operator,设计用于刷新 Power BI 数据集。
Pylint-Airflow - 一个用于 Airflow 代码静态代码分析的 Pylint 插件。
Redactics - 一个托管设备(基于 Airflow 构建),安装在您的数据库旁边,为不断增长的数据管理工作流程集合提供支持。
simple-dag-editor - 零配置的 Airflow 工具,可让您管理您的 DAG 文件。
Viewflow - 一个基于 Airflow 的框架,允许数据科学家无需编写 Airflow 代码即可创建数据模型。
whirl - 快速迭代式本地开发和测试 Apache Airflow 工作流程。
ZenML - 在 Airflow 上运行您的机器学习特定管道,轻松与您现有的数据科学工具和工作流程集成。
Airflow Vscode Extension 这是一个适用于 Apache Airflow 2+ 的 VSCode 扩展。您可以触发您的 DAG、暂停/恢复 DAG、查看执行日志、探索源代码等等。
Airflow Provider Template - 用于创建和测试 Airflow Provider 包的模板和命令。
Airflow Template - 用于创建最小 Airflow 环境以进行快速测试和原型开发的模板和命令。
airflow-priority - Airflow DAG 的优先级标签(P1、P2 等),并自动向 Datadog、New Relic、Slack、Discord 等发送警报
airflow-config - 基于 Pydantic / Hydra 的配置系统,用于 DAG 和 Task 参数
airflow-supervisor - 易于使用的 supervisor 集成,适用于长时间运行或“始终开启”的 DAG
Airflow Provider 系统测试仪表盘
Amazon provider 包健康状态仪表盘 - 列出 Amazon provider 包中所有系统测试及其当前健康状态的仪表盘:上次执行状态(成功/失败、平均持续时间等)。
Google provider 包健康状态仪表盘 - 列出 Google provider 包中所有系统测试及其当前健康状态的仪表盘
LLM Provider 健康状态仪表盘 - 列出 LLM provider 包中所有系统测试及其当前健康状态的仪表盘:最近 7 次运行的执行状态(成功/失败、执行日期)。
Teradata Provider 健康状态仪表盘 - 列出 Teradata Provider 系统测试状态及其最近几次运行健康状态的仪表盘。