airflow.providers.microsoft.azure.operators.synapse

模块内容

AzureSynapseRunSparkBatchOperator

在 Azure Synapse 上执行 Spark 作业。

AzureSynapsePipelineRunLink

构建一个链接以监控 Azure Synapse 中的管道运行。

AzureSynapseRunPipelineOperator

执行 Synapse 管道。

class airflow.providers.microsoft.azure.operators.synapse.AzureSynapseRunSparkBatchOperator(*, azure_synapse_conn_id=AzureSynapseHook.default_conn_name, wait_for_termination=True, spark_pool='', payload, timeout=60 * 60 * 24 * 7, check_interval=60, **kwargs)[来源]

基类: airflow.models.BaseOperator

在 Azure Synapse 上执行 Spark 作业。

参数
  • azure_synapse_conn_id (str) – 连接到 Azure Synapse 的连接标识符。

  • wait_for_termination (bool) – 标记是否等待作业运行的终止。

  • spark_pool (str) – 用于提交作业的目标 Synapse Spark 池

  • payload (azure.synapse.spark.models.SparkBatchJobOptions) – 与 Livy 兼容的有效负载,表示用户想要提交的 Spark 作业

  • timeout (int) – 等待作业达到非异步等待的终端状态的秒数。仅当 wait_for_termination 为 True 时使用。

  • check_interval (int) – 检查非异步等待的作业运行状态的秒数。仅当 wait_for_termination 为 True 时使用。

template_fields: collections.abc.Sequence[str] = ('azure_synapse_conn_id', 'spark_pool')[来源]
template_fields_renderers[来源]
ui_color = '#0678d4'[来源]
hook()[来源]

创建并返回一个 AzureSynapseHook(已缓存)。

execute(context)[来源]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文,请参阅 get_template_context。

on_kill()[来源]

重写此方法以在任务实例被终止时清理子进程。

在操作符中使用 threading、subprocess 或 multiprocessing 模块的任何地方都需要清理,否则会留下僵尸进程。

基类: airflow.models.BaseOperatorLink

构建一个链接以监控 Azure Synapse 中的管道运行。

name = '监控管道运行'[来源]
get_fields_from_url(workspace_url)[来源]

从 Synapse 工作区 URL 中提取 workspace_name、subscription_id 和 resource_group。

参数

workspace_url – 工作区 URL。

链接到外部系统。

注意:此函数的旧签名是 (self, operator, dttm: datetime)。运行时仍支持该签名,但已弃用。

参数
返回

链接到外部系统

class airflow.providers.microsoft.azure.operators.synapse.AzureSynapseRunPipelineOperator(pipeline_name, azure_synapse_conn_id, azure_synapse_workspace_dev_endpoint, wait_for_termination=True, reference_pipeline_run_id=None, is_recovery=None, start_activity_name=None, parameters=None, timeout=60 * 60 * 24 * 7, check_interval=60, **kwargs)[source]

基类: airflow.models.BaseOperator

执行 Synapse 管道。

参数
  • pipeline_name (str) – 要执行的管道的名称。

  • azure_synapse_conn_id (str) – 用于 Azure Synapse 的 Airflow 连接 ID。

  • azure_synapse_workspace_dev_endpoint (str) – Azure Synapse 工作区开发终结点。

  • wait_for_termination (bool) – 标志,用于等待管道运行的终止。

  • reference_pipeline_run_id (str | None) – 管道运行标识符。如果指定此运行 ID,则将使用指定运行的参数创建新的运行。

  • is_recovery (bool | None) – 恢复模式标志。如果恢复模式设置为 True,则指定的引用管道运行和新运行将分组在同一个 groupId 下。

  • start_activity_name (str | None) – 在恢复模式下,重新运行将从该活动开始。如果未指定,则所有活动都将运行。

  • parameters (dict[str, Any] | None) – 管道运行的参数。这些参数通过 @pipeline().parameters.parameterName 在管道中引用,并且仅在未指定 reference_pipeline_run_id 的情况下使用。

  • timeout (int) – 等待管道达到非异步等待的终端状态的秒数。仅当 wait_for_termination 为 True 时使用。

  • check_interval (int) – 检查非异步等待的管道运行状态的秒数。仅当 wait_for_termination 为 True 时使用。

template_fields: collections.abc.Sequence[str] = ('azure_synapse_conn_id',)[source]
hook()[source]

创建并返回一个 AzureSynapsePipelineHook (已缓存)。

execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文,请参阅 get_template_context。

execute_complete(event)[source]

立即返回 - 触发器触发时的回调。

依赖触发器抛出异常,否则它会假定执行成功。

on_kill()[source]

重写此方法以在任务实例被终止时清理子进程。

在操作符中使用 threading、subprocess 或 multiprocessing 模块的任何地方都需要清理,否则会留下僵尸进程。

此条目是否有帮助?