airflow.providers.databricks.operators.databricks_workflow

模块内容

WorkflowRunMetadata

Databricks 工作流运行的元数据。

DatabricksWorkflowTaskGroup

一个任务组,它接收任务列表并创建一个 Databricks 工作流。

class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[源代码]

Databricks 工作流运行的元数据。

参数
  • run_id – Databricks 工作流运行的 ID。

  • job_id – Databricks 工作流作业的 ID。

  • conn_id – 用于连接到 Databricks 的连接 ID。

conn_id: str[源代码]
job_id: int[源代码]
run_id: int[源代码]
class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[源代码]

基类: airflow.utils.task_group.TaskGroup

一个任务组,它接收任务列表并创建一个 Databricks 工作流。

DatabricksWorkflowTaskGroup 接收一个任务列表,并根据这些任务产生的元数据创建一个 Databricks 工作流。要使任务符合此 TaskGroup 的条件,它必须包含 _convert_to_databricks_workflow_task 方法。如果任何任务不包含此方法,则 Taskgroup 将在解析时引发错误。

另请参阅

有关如何使用此操作符的更多信息,请查看指南: DatabricksWorkflowTaskGroup

参数
  • databricks_conn_id (str) – 要使用的 databricks 连接的名称。

  • existing_clusters (list[str] | None) – 用于此工作流的现有集群列表。

  • extra_job_params (dict[str, Any] | None) – 包含将覆盖默认 Databricks 工作流作业定义的属性的字典。

  • jar_params (list[str] | None) – 要传递给工作流的 jar 参数列表。这些参数将传递给工作流中的所有 jar 任务。

  • job_clusters (list[dict] | None) – 用于此工作流的作业集群列表。

  • max_concurrent_runs (int) – 此工作流的最大并发运行次数。

  • notebook_packages (list[dict[str, Any]] | None) – 要安装的 Python 包的字典列表。在工作流任务组级别定义的包将安装在它下面的每个 notebook 任务中。在 notebook 任务级别定义的包是专门为 notebook 任务安装的。

  • notebook_params (dict | None) – 要传递给工作流的 notebook 参数字典。这些参数将传递给工作流中的所有 notebook 任务。

  • python_params (list | None) – 要传递给工作流的 python 参数列表。这些参数将传递给工作流中的所有 python 任务。

  • spark_submit_params (list | None) – 要传递给工作流的 spark 提交参数列表。这些参数将传递给所有 spark 提交任务。

is_databricks = True[源代码]
__exit__(_type, _value, _tb)[源代码]

退出上下文管理器并将任务添加到单个 _CreateDatabricksWorkflowOperator

此条目是否有帮助?