Amazon Athena 操作符

Amazon Athena 是一种交互式查询服务,可以使用标准 SQL 轻松分析 Amazon S3 中的数据。虽然 Amazon Athena 本身不提供符合 DB API 2.0 (PEP 249) 的连接,但 PyAthena 库基于 boto3 库提供了此功能。

本文档介绍了使用 Airflow 与 Amazon Athena 交互的两种主要方式

  1. API (HTTP Boto3):此方法通过 boto3 库使用 Amazon Athena 的直接 API。对于希望以较低级别,直接通过 HTTP 请求与 Athena 交互的用户,这是首选方法。

  2. DB API 连接 (Amazon Athena SQL):对于喜欢更传统的数据库交互的用户,PyAthena 实现了 DB API 2.0 规范,允许通过 SQL 以类似于其他关系数据库的方式使用 Athena。

选择你的连接方法

Airflow 提供了两种使用 Amazon Athena 查询数据的方法。

Amazon Athena (API): 如果你只需要执行单个语句,而无需在 airflow 中返回结果,请选择此选项。

Amazon Athena SQL (DB API 连接): 如果你需要在同一操作符中执行多个查询,并且必须直接在 Airflow 中检索和处理查询结果,例如用于感知值或进一步的数据操作,请选择此选项。

注意

两种连接方法都在底层使用 Amazon Web Services 连接 进行身份验证。你应该根据你的使用场景决定使用哪种连接方法。

此条目是否有帮助?