生态系统

以下资源和服务并非由 Apache Airflow™ 社区和 Apache Airflow 项目(由提交者和 Airflow PMC 维护)维护或认可。使用它们需自行承担风险。社区不会验证这些工具的许可证和有效性,因此您有责任对其进行验证。

如果您希望被列入此页面,请联系 Apache Airflow 开发者或用户邮件列表 并告知我们,或者直接为此页面提交拉取请求。

 

学习资源

Apache Airflow YouTube 频道 - 官方 YouTube 频道

Airflow 峰会 - Apache Airflow 开发者大会

优秀的 Apache Airflow 资源 - 精选的 Apache Airflow 资源列表

Astronomer 学院 - Astronomer 教育团队提供的完整课程和认证

Marc Lamberti 在 Udemy 上的课程 Apache Airflow 完全入门实践课程

Alexandra Abbas 在 Udemy 上的课程 Apache Airflow:从入门到精通的完整实践课程

 

Airflow 即服务

Astro - 由 Astronomer 提供,Astro 是基于 Apache Airflow 的现代数据编排平台。Astro 使数据工程师、数据科学家和数据分析师能够构建、运行和观察代码化的管道。

Google Cloud Composer - Google Cloud Platform 上的托管 Apache Airflow 服务

Amazon Managed Workflows for Apache Airflow - Amazon Web Services (AWS) 上的托管 Apache Airflow

Azure Data Factory 托管 Airflow - Azure 上的托管 Apache Airflow 服务

Yandex 托管 Apache Airflow 服务 - Yandex Cloud 上的托管 Apache Airflow

Restack 上的 Airflow - Restack Cloud 上的托管 Apache Airflow 或自带云:AWS EKS、GCP GKE 或 Azure AKS。允许您将最新版本的 Airflow 与您自己的 DAG 一起使用。将您的存储库连接到 Restack GitHub 应用程序以获得内置的 CI/CD。

DoubleCloud 托管 Apache Airflow 服务 - DoubleCloud 平台上的托管 Apache Airflow。

 

其他部署方法

Airflow Heroku 部署 - Airflow Heroku 部署允许您只需点击几下即可创建 Airflow 演示实例。

通过 CNDI 自行管理 Airflow - 用于部署 Airflow Kubernetes 集群的工具包,支持 AWS、GCP、Azure、VMWare、裸机,甚至多/混合云支持。有关更多详细信息,请参阅文档

Amazon EKS 上的自管 Airflow - Amazon EKS 上的自管 Airflow 提供了使用 Data on EKS Blueprints 和 Terraform Data 附加组件 模块,使用 TerraformAmazon EKS 上部署自管 Apache Airflow 的指南,请查看 Data on EKS Airflow 蓝图

Amazon MWAA Terraform 模块 允许您使用官方 Terraform 模块部署 Amazon Managed Workflows for Apache Airflow。有关如何使用 Amazon MWAA 的完整示例,请查看 Data on EKS MWAA 蓝图

 

第三方 Airflow 插件和提供程序

Astronomer 注册表 - Apache Airflow 集成的发现和分发中心,旨在汇总和策划生态系统中的精华。

Airflow 插件 - 各种 Airflow 插件的中央存储库集合,包括 mailchimp、trello、sftp、GitHub 等。

Airflow ECR 插件 - 定期刷新 AWS ECR 登录令牌的插件。这在 DockerOperator 需要拉取 ECR 上托管的镜像时很有用。

Airflow OpenMLDB 提供程序 - 包含 OpenMLDB 上特征提取运算符的 Airflow OpenMLDB 提供程序。

Airflow Apache Mesos 提供程序 - 包含使用 Apache Mesos 进行扩展的调度程序的 Airflow Apache Mesos 提供程序。

Airflow Netezza 提供程序 - 使用 nzpy 连接 Netezza 的 Airflow 提供程序

Airflow Grafana Loki 提供程序 - 提供与 Grafana Loki 集成的 Hook 和 LogHandler。这提供了一个用于向 Grafana Loki 写入和读取任务日志的 LogHandler。

Airflow SAS 提供程序 - 提供 Hook 和运算符,用于创建 Airflow 任务以执行 SAS Studio 流和作业。

Airflow Cloudera 提供程序 - 提供 Hook 和运算符以在 Cloudera Data Platform Services 上交互和运行您的工作负载

Airflow Alembic 提供程序 - 提供使用 Alembic 运行数据库迁移的 Hook 和运算符

Airflow Pulumi 提供程序 - 提供使用 Pulumi 管理基础架构即代码的 Hook 和运算符

Airflow DolphinDB 提供程序 - 提供使用 DolphinDB 运行脚本的 Hook 和运算符。

Airflow TM1 提供程序 - 提供 Hook 和运算符以简化通过 REST API 连接到 IBM Cognos TM1 / Planning Analytics 数据库的过程。

Astronomer Cosmos - 使用几行代码将您的 dbt Core 项目作为 Apache Airflow DAG 和任务组运行。

 

异步提供程序

Astronomer 提供程序 - 由 Astronomer 构建和维护的 Apache Airflow 异步运算符和传感器集合。

Airflow Kafka 提供程序 - 包含可延迟运算符和传感器的 Apache Airflow Kafka 提供程序。

 

第三方 Airflow Helm 图表

Apache Airflow 从 2021 年初开始发布 官方 Apache Airflow 社区图表,但历史上还有一些其他流行的图表

用户社区图表 - 自 2018 年以来一直存在的用户社区管理图表,以前在官方(现已弃用)Helm 图表存储库中称为 stable/airflow

Bitnami 图表 - Bitnami 管理着许多图表,Airflow 图表就是其中之一

Astronomer 图表 - 由 Astronomer 图表管理的图表。这是官方 Airflow 社区图表所基于的原始图表(由 Astronomer 捐赠)

 

与 Airflow 集成的工具

ADA - 一个用于从 Airflow 数据库实例检索分析指标的微服务。

as-scraper - 与 Selenium 的集成,用于在 Airflow 中构建和维护网络爬虫。

afctl - 一个 CLI 工具,包含更快、更顺畅地创建、管理和部署 airflow 项目所需的一切。

airflint - 对所有 Airflow DAG 实施最佳实践。

airflow-aws-executors - 直接在 AWS Batch、AWS Fargate 或 AWS ECS 上运行 Airflow 任务;配置更少的 infra 更好。

airflow-code-editor - 一个用于 Apache Airflow 的工具,允许您在浏览器中编辑 DAG。

airflow-diagrams - 从 Airflow DAG 自动生成的图表

airflow-maintenance-dags - Clairvoyant 有一个 Airflow DAG 存储库,这些 DAG 在 Airflow 本身运行,用于清除支持元数据存储中的各种位。

AirflowK8sDebugger - 一个用于使用 KubernetesPodOperator 从 Airflow dag 生成 k8s pod yaml 模板的库。

Airflow Ditto - 一个可扩展的框架,用于对 Airflow DAG 进行转换并将其转换为与原始 DAG 流同构的另一个 DAG,以便能够在不同的环境中运行它(例如,在不同的云上,甚至不同的容器框架 - YARN 上的 Apache Spark 与 Kubernetes)。提供对 EMR 到 HDInsight-DAG 转换的开箱即用支持。

Amundsen - Amundsen 是一个数据发现和元数据平台,用于提高数据分析师、数据科学家和工程师在与数据交互时的工作效率。它可以显示哪个 Airflow 任务生成了给定的表。

Apache-Liminal-Incubating - Liminal 提供了一种领域特定语言 (DSL),用于在 Apache Airflow 之上构建 ML/AI 工作流。其目标是使机器学习过程自动化,允许数据科学家快速地从成功的实验过渡到模型训练、验证、部署和生产中的推理的自动化管道。

Astro CLI - Astro CLI 是获取用于原型设计和开发的本地 Airflow 服务器的最简单方法。

Astro SDK - Astro SDK 允许使用 Python 和 SQL 快速、干净地开发提取、加载、转换工作流,由 Apache Airflow 提供支持并由 Astronomer 维护。

Chartis - 将通用工作流语言 (CWL) 转换为 Airflow DAG 的 Python 包。

CWL-Airflow - Python 包,使用 CWL v1.2 支持扩展 Apache-Airflow 1.10.11 功能。

DAGify - 一个将 Control-M 工作流转换为 Airflow DAG 的 Python 工具。

dag-factory - 一个用于从 YAML 配置文件动态生成 Apache Airflow DAG 的库。

Dag 依赖关系查看器 - 一个创建视图以可视化 Airflow DAG 之间依赖关系的工具

data-dag - 一个用于构建工厂以从数据(例如 YAML 文件)动态生成 DAG 的库

Databand - 基于 Airflow 构建的可观测性平台。

DataHub - 面向现代数据栈的元数据平台。它可以自动从 Airflow 收集血缘和其他元数据

dbt(数据构建工具) - 数据转换工具,可以使用 Airflow 调度 dbt 作业

Domino - Domino 是一个开源图形用户界面平台,用于通过无代码、直观的可视化拖放操作创建数据和机器学习工作流(DAG)。它也是发布和共享 Python 代码的标准,因此任何人都可以直接在 GUI 中自动使用它。

Elyra - Elyra 提供了一个可视化编辑器,使数据科学家能够以低代码/无代码的方式创建 AI 管道。

GeniumCloud - 一站式平台,用于通过全新的 UI 快速构建、调度和控制 Airflow 工作流。开箱即用的全面 Airflow 基础设施监控、与警报系统的集成以及从小型组织到企业组织的服务采用。管理复杂工作流的最简单方法。

gusty - 使用任意数量的 YAML、Python、Jupyter Notebook 或 R Markdown 文件创建 DAG,这些文件表示 DAG 中的各个任务。gusty 还配置依赖项、DAG 和任务组,支持本地运算符等功能。完全容器化的演示 在此处 提供。

Marquez - Marquez 是一个开源元数据服务,用于维护数据来源,显示数据集的消费和生产方式,并集中管理数据集生命周期。Marquez 可以与 Apache Airflow 一起用作 OpenLineage 后端。

Meltano - 开源、自托管、CLI 优先、可调试和可扩展的 ELT 工具,它采用 Singer 进行提取和加载,利用 dbt 进行转换,并 与 Airflow 集成以进行编排

Nexla - 构建、转换和管理进出数据库、API、流、SaaS 服务、事件甚至电子邮件的数据流。当 Nexla 流完成运行时,使用 Nexla 的 Airflow 运算符触发流以在其他运算符中启动。

Oozie 到 Airflow - 一种在 Apache Oozie 工作流和 Apache Airflow 工作流之间轻松转换的工具。

OpenLineage - 用于收集数据沿袭的开放标准,可用于跟踪数据集在遍历多个系统(包括 Apache Airflow)时的路径。

Panda Patrol - 直接在 Airflow DAG 中测试和分析您的数据。仪表板和警报已预先构建。

PowerBI-Airflow-Plugin - Power BI 的 Airflow 插件包括一个自定义 Airflow 运算符,旨在刷新 Power BI 数据集。

Pylint-Airflow - 用于对 Airflow 代码进行静态代码分析的 Pylint 插件。

Redactics - 一种安装在数据库旁边的托管设备(基于 Airflow 构建),为越来越多的数据管理工作流提供支持。

simple-dag-editor - 零配置 Airflow 工具,可让您管理 DAG 文件。

Viewflow - 一个基于 Airflow 的框架,允许数据科学家在不编写 Airflow 代码的情况下创建数据模型。

whirl - 快速迭代本地开发和测试 Apache Airflow 工作流。

ZenML - 在 Airflow 上运行您的机器学习特定管道,轻松地与您现有的数据科学工具和工作流集成。

Airflow Vscode 扩展 这是一个适用于 Apache Airflow 2+ 的 VSCode 扩展。您可以触发 DAG、暂停/取消暂停 DAG、查看执行日志、浏览源代码等等。

Airflow 提供程序模板 - 用于创建和测试 airflow 提供程序包的模板和命令。

Airflow 模板 - 用于创建最小 airflow 环境以进行快速测试和原型设计的模板和命令。

 

Airflow 提供程序系统测试仪表板

Amazon 提供程序包运行状况仪表板 - 列出 Amazon 提供程序包中所有系统测试及其当前运行状况的仪表板:上次执行状态(成功/失败、平均持续时间……)。

Google 提供程序包运行状况仪表板 - 列出 Google 提供程序包中所有系统测试及其当前运行状况的仪表板

LLM 提供程序运行状况仪表板 - 列出 LLM 提供程序包中所有系统测试及其当前运行状况的仪表板:最近 7 次运行的执行状态(成功/失败、执行日期)。

Teradata 提供程序运行状况仪表板 - 列出 Teradata 提供程序的系统测试状态及其最近运行的当前运行状况的仪表板。