Apache Druid 操作器¶
先决条件¶
要使用 DruidOperator
,您必须先配置 Druid 连接。
DruidOperator¶
要将任务直接提交到 Druid,您需要提供 Druid 索引规范的文件路径 json_index_file
,以及 Airflow 连接中接受索引作业的 Druid overlord 的连接 ID druid_ingest_conn_id
。此外,您可以提供摄取类型 ingestion_type
来确定作业是批处理摄取还是基于 SQL 的摄取。
下面还有一个 Druid 摄取规范的示例内容。
有关参数定义,请查看 DruidOperator
。
使用操作器¶
submit_job = DruidOperator(task_id="spark_submit_job", json_index_file="json_index.json")
# Example content of json_index.json:
JSON_INDEX_STR = """
{
"type": "index_hadoop",
"datasource": "datasource_prd",
"spec": {
"dataSchema": {
"granularitySpec": {
"intervals": ["2021-09-01/2021-09-02"]
}
}
}
}
"""
参考¶
有关更多信息,请参阅 Apache Druid 摄取规范参考。