Amazon Athena Operator¶
Amazon Athena 是一种交互式查询服务,可以使用标准 SQL 轻松分析 Amazon S3 中的数据。虽然 Amazon Athena 本身不提供符合 DB API 2.0 (PEP 249) 的连接,但 PyAthena 库基于 boto3 库提供了此功能。
本文档介绍了与 Airflow 交互 Amazon Athena 的两种主要方式
- API (HTTP Boto3):此方法通过 boto3 库使用 Amazon Athena 的直接 API。对于希望通过 HTTP 请求直接在较低级别与 Athena 交互的用户,此方法是首选。 
- DB API 连接 (Amazon Athena SQL):对于喜欢更传统的数据库交互的用户,PyAthena 实现了 DB API 2.0 规范,允许通过 SQL 以类似于其他关系数据库的方式使用 Athena。 
选择您的连接方法¶
Airflow 提供了两种使用 Amazon Athena 查询数据的方式。
Amazon Athena (API):如果您需要执行单个语句而不将结果返回到 Airflow,请选择此选项。
Amazon Athena SQL (DB API 连接):如果您需要在同一个 Operator 中执行多个查询,并且必须直接在 Airflow 中检索和处理查询结果(例如用于感知值或进一步的数据操作),请选择此选项。
注意
两种连接方法在底层都使用 Amazon Web Services 连接 进行身份验证。您应根据您的用例决定使用哪种连接方法。