airflow.providers.databricks.operators.databricks_workflow
¶
模块内容¶
类¶
Databricks 工作流运行的元数据。 |
|
一个任务组,它接收任务列表并创建一个 Databricks 工作流。 |
- class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[源代码]¶
Databricks 工作流运行的元数据。
- 参数
run_id – Databricks 工作流运行的 ID。
job_id – Databricks 工作流作业的 ID。
conn_id – 用于连接到 Databricks 的连接 ID。
- class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[源代码]¶
基类:
airflow.utils.task_group.TaskGroup
一个任务组,它接收任务列表并创建一个 Databricks 工作流。
DatabricksWorkflowTaskGroup 接收一个任务列表,并根据这些任务产生的元数据创建一个 Databricks 工作流。要使任务符合此 TaskGroup 的条件,它必须包含
_convert_to_databricks_workflow_task
方法。如果任何任务不包含此方法,则 Taskgroup 将在解析时引发错误。另请参阅
有关如何使用此操作符的更多信息,请查看指南: DatabricksWorkflowTaskGroup
- 参数
databricks_conn_id (str) – 要使用的 databricks 连接的名称。
extra_job_params (dict[str, Any] | None) – 包含将覆盖默认 Databricks 工作流作业定义的属性的字典。
jar_params (list[str] | None) – 要传递给工作流的 jar 参数列表。这些参数将传递给工作流中的所有 jar 任务。
max_concurrent_runs (int) – 此工作流的最大并发运行次数。
notebook_packages (list[dict[str, Any]] | None) – 要安装的 Python 包的字典列表。在工作流任务组级别定义的包将安装在它下面的每个 notebook 任务中。在 notebook 任务级别定义的包是专门为 notebook 任务安装的。
notebook_params (dict | None) – 要传递给工作流的 notebook 参数字典。这些参数将传递给工作流中的所有 notebook 任务。
python_params (list | None) – 要传递给工作流的 python 参数列表。这些参数将传递给工作流中的所有 python 任务。
spark_submit_params (list | None) – 要传递给工作流的 spark 提交参数列表。这些参数将传递给所有 spark 提交任务。