airflow.providers.apache.druid.transfers.hive_to_druid
¶
此模块包含将数据从 Hive 移动到 Druid 的操作符。
模块内容¶
类¶
将数据从 Hive 移动到 Druid。 |
属性¶
- airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[源代码]¶
- class airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[源代码]¶
基类:
airflow.models.BaseOperator
将数据从 Hive 移动到 Druid。
[删除]请注意,目前数据在推送到 Druid 之前会被加载到内存中,因此此操作符应仅用于处理较小的数据量。[删除]
- 参数
sql (str) – 要对 Druid 数据库执行的 SQL 查询。(已模板化)
druid_datasource (str) – 您要摄取到 Druid 中的数据源
ts_dim (str) – 时间戳维度
metric_spec (list[Any] | None) – 您要为数据定义的度量
hive_cli_conn_id (str) – hive 连接 ID
druid_ingest_conn_id (str) – druid 摄取连接 ID
metastore_conn_id (str) – metastore 连接 ID
hadoop_dependency_coordinates (list[str] | None) – 要压缩到摄取 json 中的坐标列表
intervals (list[Any] | None) – 定义段的时间间隔列表,按原样传递到 json 对象。(已模板化)
num_shards (float) – 直接指定要创建的分片数。
target_partition_size (int) – 要包含在分区中的目标行数
query_granularity (str) – 能够查询结果的最小粒度以及段内数据的粒度。例如,“minute” 值将表示数据以分钟粒度聚合。也就是说,如果元组 (minute(timestamp), 维度) 中存在冲突,则它将使用聚合器聚合值,而不是存储单独的行。“NONE” 的粒度表示毫秒粒度。
segment_granularity (str) – 创建时间块的粒度。每个时间块可以创建多个段。例如,使用 ‘DAY’ segmentGranularity,同一天的事件将落入同一时间块中,该时间块可以根据其他配置和输入大小有选择地进一步划分为多个段。
hive_tblproperties (dict[Any, Any] | None) – 用于暂存表的 hive tblproperties 的附加属性
job_properties (dict[Any, Any] | None) – 用于作业的附加属性
- template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[源代码]¶
- template_ext: collections.abc.Sequence[str] = ('.sql',)[源代码]¶