Google Cloud Storage 到 Trino 传输操作符¶
Google 有一项服务叫做 Google Cloud Storage。此服务用于存储来自各种应用程序的大量数据。
Trino 是一个开源、快速、分布式的 SQL 查询引擎,用于对大小从 GB 到 PB 不等的各种数据源运行交互式分析查询。Trino 允许查询数据所在位置的数据,包括 Hive、Cassandra、关系数据库甚至专有数据存储。单个 Trino 查询可以组合来自多个来源的数据,从而允许您在整个组织中进行分析。
将 CSV 从 GCS 加载到 Trino 表¶
要将 CSV 文件从 Google Cloud Storage 加载到 Trino 表,您可以使用 GCSToTrinoOperator
。
此操作符假定 CSV 没有标题,并且数据对应于预先存在的 presto 表中的列。或者,您可以提供字符串元组/列表形式的架构,或者提供指向与 CSV 文件位于同一存储桶中的 JSON 文件的路径。
gcs_csv_to_trino_table = GCSToTrinoOperator(
task_id="gcs_csv_to_trino_table",
source_bucket=BUCKET,
source_object=PATH_TO_FILE,
trino_table=TRINO_TABLE,
)