DatabricksCopyIntoOperator

使用 DatabricksCopyIntoOperator 通过 COPY INTO 命令将数据导入 Databricks 表。

使用操作符

操作符使用已配置的端点将数据从指定位置加载到表中。唯一必需的参数是

  • table_name - 包含表名的字符串

  • file_location - 包含要加载的数据的 URI 的字符串

  • file_format - 指定要加载的数据的文件格式的字符串。支持的格式有 CSVJSONAVROORCPARQUETTEXTBINARYFILE

  • sql_endpoint_name(要使用的 Databricks SQL 端点的名称)或 http_path(Databricks SQL 端点或 Databricks 集群的 HTTP 路径)之一。

其他参数是可选的,可以在类文档中找到。

示例

导入 CSV 数据

以下是如何使用 DatabricksCopyIntoOperator 将 CSV 数据导入到表中的示例用法

tests/system/providers/databricks/example_databricks_sql.py[源代码]

    # Example of importing data using COPY_INTO SQL command
    import_csv = DatabricksCopyIntoOperator(
        task_id="import_csv",
        databricks_conn_id=connection_id,
        sql_endpoint_name=sql_endpoint_name,
        table_name="my_table",
        file_format="CSV",
        file_location="abfss://[email protected]/my-data/csv",
        format_options={"header": "true"},
        force_copy=True,
    )

此条目有帮助吗?