Amazon Athena 操作符¶
Amazon Athena 是一种交互式查询服务,可以使用标准 SQL 轻松分析 Amazon S3 中的数据。虽然 Amazon Athena 本身不提供符合 DB API 2.0 (PEP 249) 的连接,但 PyAthena 库基于 boto3 库提供了此功能。
本文档介绍了使用 Airflow 与 Amazon Athena 交互的两种主要方式
API(HTTP Boto3):此方法通过 boto3 库使用 Amazon Athena 的直接 API。对于希望通过 HTTP 请求直接在较低级别与 Athena 交互的用户,这是首选方法。
DB API 连接(Amazon Athena SQL):对于喜欢更传统的数据库交互的用户,PyAthena 实现了 DB API 2.0 规范,允许通过 SQL 以类似于其他关系数据库的方式使用 Athena。
选择连接方法¶
Airflow 提供了两种使用 Amazon Athena 查询数据的方法。
Amazon Athena(API): 如果您需要在不将结果返回到 Airflow 的情况下执行单个语句,请选择此选项。
Amazon Athena SQL(DB API 连接): 如果您需要在同一个操作符中执行多个查询,并且需要直接在 Airflow 中检索和处理查询结果(例如用于感知值或进一步的数据操作),请选择此选项。
注意
两种连接方法在底层都使用 Amazon Web Services 连接 进行身份验证。您应该根据您的用例决定使用哪种连接方法。