airflow.providers.amazon.aws.operators.sagemaker

属性

DEFAULT_CONN_ID

CHECK_INTERVAL_SECOND

SageMakerBaseOperator

这是所有 SageMaker 操作符的基础操作符。

SageMakerProcessingOperator

使用 Amazon SageMaker Processing 在 Amazon SageMaker 上分析数据并评估机器学习模型。

SageMakerEndpointConfigOperator

创建一个终端节点配置,Amazon SageMaker 托管服务使用该配置来部署模型。

SageMakerEndpointOperator

创建无服务器终端节点时,SageMaker 会为您预置和管理计算资源。

SageMakerTransformOperator

启动转换作业。

SageMakerTuningOperator

启动超参数调优作业。

SageMakerModelOperator

在 Amazon SageMaker 中创建模型。

SageMakerTrainingOperator

启动模型训练作业。

SageMakerDeleteModelOperator

删除 SageMaker 模型。

SageMakerStartPipelineOperator

启动 SageMaker 流水线执行。

SageMakerStopPipelineOperator

停止 SageMaker 流水线执行。

SageMakerRegisterModelVersionOperator

通过创建一个指定所属模型组的模型版本来注册 SageMaker 模型。

SageMakerAutoMLOperator

创建一个自动机器学习作业,从通过 S3 提供的数据中学习预测给定的列。

SageMakerCreateExperimentOperator

创建一个 SageMaker 实验,然后将其关联到作业等。

SageMakerCreateNotebookOperator

创建一个 SageMaker Notebook。

SageMakerStopNotebookOperator

停止一个 Notebook 实例。

SageMakerDeleteNotebookOperator

删除一个 Notebook 实例。

SageMakerStartNoteBookOperator

启动一个 Notebook 实例。

函数

serialize(result)

模块内容

airflow.providers.amazon.aws.operators.sagemaker.DEFAULT_CONN_ID: str = 'aws_default'[source]
airflow.providers.amazon.aws.operators.sagemaker.CHECK_INTERVAL_SECOND: int = 30[source]
airflow.providers.amazon.aws.operators.sagemaker.serialize(result)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerBaseOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基类: airflow.models.BaseOperator

这是所有 SageMaker 操作符的基础操作符。

参数:

config (dict) – 启动训练作业所需的配置(模板化的)

template_fields: collections.abc.Sequence[str] = ('config',)[source]
template_ext: collections.abc.Sequence[str] = ()[source]
template_fields_renderers: ClassVar[dict][source]
ui_color: str = '#ededed'[source]
integer_fields: list[list[Any]] = [][source]
config[source]
aws_conn_id = 'aws_default'[source]
parse_integer(config, field)[source]

用于解析包含整数值的字符串字段为整数的递归方法。

parse_config_integers()[source]

解析整数字段为 int 类型,以防配置由 Jinja 渲染且所有字段都是 str。

expand_role()[source]

调用 boto3 的 expand_role 方法,该方法将 IAM 角色名展开为 ARN。

preprocess_config()[source]

将配置处理为可用形式。

abstract execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

property hook[source]

返回 SageMakerHook。

static path_to_s3_dataset(path)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerProcessingOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, print_log=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, action_if_job_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

使用 Amazon SageMaker Processing 在 Amazon SageMaker 上分析数据并评估机器学习模型。

通过 Processing,您可以在 SageMaker 上使用简化的托管体验来运行数据处理工作负载,例如特征工程、数据验证、模型评估和模型解释。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 处理作业

参数:
  • config (dict) – 启动处理作业所需的配置(模板化的)。有关配置参数的详细信息,请参阅 SageMaker.Client.create_processing_job()

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • wait_for_completion (bool) – 如果 wait 设置为 True,操作检查处理作业状态的时间间隔(以秒为单位)。

  • print_log (bool) – 操作符在处理期间是否应打印 CloudWatch 日志

  • check_interval (int) – 如果 wait 设置为 true,这是操作符检查处理作业状态的时间间隔(以秒为单位)

  • max_attempts (int | None) – 在返回当前状态之前轮询查询状态的次数,默认为 None。

  • max_ingestion_time (int | None) – 如果 wait 设置为 True,则如果处理作业未在 max_ingestion_time 秒内完成,操作将失败。如果您将此参数设置为 None,则操作不会超时。

  • action_if_job_exists (str) – 如果作业名称已存在时的行为。可能的选项是“timestamp”(默认)和“fail”。

  • deferrable (bool) – 在可延迟模式下运行操作符。这仅在 wait_for_completion 设置为 True 时有效。

返回 Dict:

返回在 Amazon SageMaker 中创建的处理作业的 ARN。

action_if_job_exists = 'timestamp'[source]
wait_for_completion = True[source]
print_log : bool = True[source]
check_interval: int = 30[source]
max_attempts: int | None = 60[source]
max_ingestion_time: int | None = None[source]
deferrable: bool = True[source]
serialized_job: dict[source]
expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回从 SageMaker API 响应(由处理作业保存)中收集的 OpenLineage 数据。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerEndpointConfigOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基类: SageMakerBaseOperator

创建一个终端节点配置,Amazon SageMaker 托管服务使用该配置来部署模型。

在配置中,您指定要部署的一个或多个使用 CreateModel API 创建的模型以及您希望 Amazon SageMaker 预置的资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 终端节点配置作业

参数:
返回 Dict:

返回在 Amazon SageMaker 中创建的终端节点配置的 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerEndpointOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_ingestion_time=None, operation='create', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

创建无服务器终端节点时,SageMaker 会为您预置和管理计算资源。

然后,您可以向该终端节点发送推理请求并接收模型预测结果。SageMaker 会根据需要扩展或缩减计算资源以处理您的请求流量。

需要一个终端节点配置。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 终端节点作业

参数:
  • config (dict) –

    创建终端节点所需的配置。

    如果您需要基于已存在的 SageMaker 模型和已存在的 SageMaker 终端节点配置创建 SageMaker 终端节点

    config = endpoint_configuration
    

    如果您需要同时创建 SageMaker 模型、SageMaker 终端节点配置和 SageMaker 终端节点

    config = {
        "Model": model_configuration,
        "EndpointConfig": endpoint_config_configuration,
        "Endpoint": endpoint_configuration,
    }
    

    有关 model_configuration 配置参数的详细信息,请参阅 SageMaker.Client.create_model()

    有关 endpoint_config_configuration 配置参数的详细信息,请参阅 SageMaker.Client.create_endpoint_config()

    有关 endpoint_configuration 配置参数的详细信息,请参阅 SageMaker.Client.create_endpoint()

  • wait_for_completion (bool) – 操作符是否应等待直到终端节点创建完成。

  • check_interval (int) – 如果 wait 设置为 True,这是此操作在轮询终端节点创建状态之前等待的时间间隔(以秒为单位)。

  • max_ingestion_time (int | None) – 如果 wait 设置为 True,并且端点创建未在 max_ingestion_time 秒内完成,则此操作将失败。如果将此参数设置为 None,则操作不会超时。

  • operation (str) – 是创建端点还是更新端点。必须是 ‘create’ 或 ‘update’。

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • deferrable (bool) – 将异步等待完成。

返回 Dict:

Returns 在 Amazon SageMaker 中创建的端点的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_ingestion_time = 36000[source]
operation = ''[source]
deferrable = True[source]
expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTransformOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, check_if_job_exists=True, action_if_job_exists='timestamp', check_if_model_exists=True, action_if_model_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

启动转换作业。

转换作业使用训练好的模型对数据集进行推断,并将结果保存到您指定的 Amazon S3 位置。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 转换作业

参数:
  • config (dict) –

    启动转换作业所需的配置(模板化)。

    如果您需要基于现有 SageMaker 模型创建 SageMaker 转换作业

    config = transform_config
    

    如果您需要同时创建 SageMaker 模型和 SageMaker 转换作业

    config = {"Model": model_config, "Transform": transform_config}
    

    有关 `transform_config` 配置参数的详细信息,请参阅SageMaker.Client.create_transform_job()

    有关 `model_config` 配置参数的详细信息,请参阅:SageMaker.Client.create_model()

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • wait_for_completion (bool) – 设置为 True 以等待直到转换作业完成。

  • check_interval (int) – 如果 wait 设置为 True,则此操作等待检查转换作业状态的时间间隔(秒)。

  • max_attempts (int | None) – 在返回当前状态之前轮询查询状态的次数,默认为 None。

  • max_ingestion_time (int | None) – 如果 wait 设置为 True,并且转换作业未在 max_ingestion_time 秒内完成,则此操作将失败。如果将此参数设置为 None,则操作不会超时。

  • check_if_job_exists (bool) – 如果设置为 True,则操作符将检查配置中的名称是否已存在相应的转换作业。

  • action_if_job_exists (str) – 作业名称已存在时的行为。可能的选项包括 “timestamp”(默认)和 “fail”。此参数仅在 check_if_job_exists 为 True 时相关。

返回 Dict:

Returns 在 Amazon SageMaker 中创建的模型的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_attempts = 60[source]
max_ingestion_time = None[source]
check_if_job_exists = True[source]
check_if_model_exists = True[source]
deferrable = True[source]
serialized_model: dict[source]
serialized_transform: dict[source]
expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
serialize_result(job_name)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回从转换作业保存的 SageMaker API 响应中收集的 OpenLineage 数据。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTuningOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, check_interval=CHECK_INTERVAL_SECOND, max_ingestion_time=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

启动超参数调优作业。

超参数调优作业通过使用您选择的算法和在您指定的范围内的超参数值,对您的数据集运行许多训练作业来找到模型的最佳版本。然后,它会选择导致模型性能最佳的超参数值,性能通过您选择的目标指标进行衡量。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:启动超参数调优作业

参数:
  • config (dict) –

    启动调优作业所需的配置(模板化)。

    有关配置参数的详细信息,请参阅SageMaker.Client.create_hyper_parameter_tuning_job()

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • wait_for_completion (bool) – 设置为 True 以等待直到调优作业完成。

  • check_interval (int) – 如果 wait 设置为 True,则此操作等待检查调优作业状态的时间间隔(秒)。

  • max_ingestion_time (int | None) – 如果 wait 设置为 True,并且调优作业未在 max_ingestion_time 秒内完成,则此操作将失败。如果将此参数设置为 None,则操作不会超时。

  • deferrable (bool) – 将异步等待完成。

返回 Dict:

Returns 在 Amazon SageMaker 中创建的调优作业的 ARN。

wait_for_completion = True[source]
check_interval = 30[source]
max_ingestion_time = None[source]
deferrable = True[source]
expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerModelOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基类: SageMakerBaseOperator

在 Amazon SageMaker 中创建模型。

在请求中,您为模型命名并描述一个主容器。对于主容器,您需要指定包含推断代码、工件(来自先前的训练)以及在部署模型进行预测时推断代码使用的自定义环境映射的 Docker 镜像。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 模型

参数:
返回 Dict:

Returns 在 Amazon SageMaker 中创建的模型的 ARN。

expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerTrainingOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, wait_for_completion=True, print_log=True, check_interval=CHECK_INTERVAL_SECOND, max_attempts=None, max_ingestion_time=None, check_if_job_exists=True, action_if_job_exists='timestamp', deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

启动模型训练作业。

训练完成后,Amazon SageMaker 会将生成的模型工件保存到您指定的 Amazon S3 位置。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 Amazon SageMaker 训练作业

参数:
  • config (dict) –

    启动训练作业所需的配置(模板化)。

    有关配置参数的详细信息,请参阅SageMaker.Client.create_training_job()

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • wait_for_completion (bool) – 如果 wait 设置为 True,则此操作等待检查训练作业状态的时间间隔(秒)。

  • print_log (bool) – 操作符在训练期间是否应打印 CloudWatch 日志

  • check_interval (int) – 如果 wait 设置为 True,这是操作符检查训练作业状态的时间间隔(秒)

  • max_attempts (int | None) – 在返回当前状态之前轮询查询状态的次数,默认为 None。

  • max_ingestion_time (int | None) – 如果 wait 设置为 True,并且训练作业未在 max_ingestion_time 秒内完成,则此操作将失败。如果将此参数设置为 None,则操作不会超时。

  • check_if_job_exists (bool) – 如果设置为 True,则操作符将检查配置中的名称是否已存在相应的训练作业。

  • action_if_job_exists (str) – 作业名称已存在时的行为。可能的选项包括 “timestamp”(默认)和 “fail”。此参数仅在 check_if_job_exists 为 True 时相关。

  • deferrable (bool) – 在可延迟模式下运行操作符。这仅在 wait_for_completion 设置为 True 时有效。

返回 Dict:

Returns 在 Amazon SageMaker 中创建的训练作业的 ARN。

wait_for_completion = True[source]
print_log = True[source]
check_interval = 30[source]
max_attempts = 60[source]
max_ingestion_time = None[source]
check_if_job_exists = True[source]
deferrable = True[source]
serialized_training_data: dict[source]
expand_role()[source]

将 IAM 角色名展开为 ARN。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
serialize_result(job_name)[source]
get_openlineage_facets_on_complete(task_instance)[source]

返回从 SageMaker API 响应中收集并由训练作业保存的 OpenLineage 数据。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerDeleteModelOperator(*, config, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基类: SageMakerBaseOperator

删除 SageMaker 模型。

另请参阅

有关如何使用此操作器的更多信息,请参阅指南: 删除 Amazon SageMaker 模型

参数:
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStartPipelineOperator(*, aws_conn_id=DEFAULT_CONN_ID, pipeline_name, display_name='airflow-triggered-execution', pipeline_params=None, wait_for_completion=False, check_interval=CHECK_INTERVAL_SECOND, waiter_max_attempts=9999, verbose=True, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

启动 SageMaker 流水线执行。

另请参阅

有关如何使用此操作器的更多信息,请参阅指南: 启动 Amazon SageMaker pipeline 执行

参数:
  • config – 启动 pipeline 执行的配置。

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • pipeline_name (str) – 要启动的 pipeline 名称。

  • display_name (str) – 此 pipeline 执行在 UI 中显示的名称。不需要是唯一的。

  • pipeline_params (dict | None) – pipeline 的可选参数。提供的所有参数都需要已经存在于 pipeline 定义中。

  • wait_for_completion (bool) – 如果为 true,此操作器仅在 pipeline 完成后才完成。

  • check_interval (int) – 在等待完成时,检查 pipeline 状态的间隔时间(秒)。

  • waiter_max_attempts (int) – 在失败前检查状态的最大次数。

  • verbose (bool) – 在等待完成时是否打印步骤详情。默认为 true,对于包含数千个步骤的 pipeline,请考虑关闭此选项。

  • deferrable (bool) – 在可推迟模式下运行操作器。

返回 str:

返回在 Amazon SageMaker 中创建的 pipeline 执行的 ARN。

template_fields: collections.abc.Sequence[str] = ('aws_conn_id', 'pipeline_name', 'display_name', 'pipeline_params')[source]
pipeline_name[source]
display_name = 'airflow-triggered-execution'[source]
pipeline_params = None[source]
wait_for_completion = False[source]
check_interval = 30[source]
waiter_max_attempts = 9999[source]
verbose = True[source]
deferrable = True[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStopPipelineOperator(*, aws_conn_id=DEFAULT_CONN_ID, pipeline_exec_arn, wait_for_completion=False, check_interval=CHECK_INTERVAL_SECOND, waiter_max_attempts=9999, verbose=True, fail_if_not_running=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[source]

基类: SageMakerBaseOperator

停止 SageMaker 流水线执行。

另请参阅

有关如何使用此操作器的更多信息,请参阅指南: 停止 Amazon SageMaker pipeline 执行

参数:
  • config – 启动 pipeline 执行的配置。

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

  • pipeline_exec_arn (str) – 要停止的 pipeline 执行的 Amazon 资源名称 (ARN)。

  • wait_for_completion (bool) – 如果为 true,此操作器仅在 pipeline 完全停止后才完成。

  • check_interval (int) – 在等待完成时,检查 pipeline 状态的间隔时间(秒)。

  • verbose (bool) – 在等待完成时是否打印步骤详情。默认为 true,对于包含数千个步骤的 pipeline,请考虑关闭此选项。

  • fail_if_not_running (bool) – 如果 pipeline 在此操作运行前已停止或成功,则引发异常。

  • deferrable (bool) – 在可推迟模式下运行操作器。

返回 str:

返回操作执行后 pipeline 执行的状态。

template_fields: collections.abc.Sequence[str] = ('aws_conn_id', 'pipeline_exec_arn')[source]
pipeline_exec_arn[source]
wait_for_completion = False[source]
check_interval = 30[source]
waiter_max_attempts = 9999[source]
verbose = True[source]
fail_if_not_running = False[source]
deferrable = True[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]
class airflow.providers.amazon.aws.operators.sagemaker.SageMakerRegisterModelVersionOperator(*, image_uri, model_url, package_group_name, package_group_desc='', package_desc='', model_approval=ApprovalStatus.PENDING_MANUAL_APPROVAL, extras=None, aws_conn_id=DEFAULT_CONN_ID, config=None, **kwargs)[source]

基类: SageMakerBaseOperator

通过创建一个指定所属模型组的模型版本来注册 SageMaker 模型。

如果模型组尚不存在,将创建该模型组。

另请参阅

有关如何使用此操作器的更多信息,请参阅指南: 注册 SageMaker 模型版本

参数:
返回 str:

返回创建的模型包的 ARN。

template_fields: collections.abc.Sequence[str] = ('image_uri', 'model_url', 'package_group_name', 'package_group_desc', 'package_desc', 'model_approval')[source]
image_uri[source]
model_url[source]
package_group_name[source]
package_group_desc = ''[source]
package_desc = ''[source]
model_approval[source]
extras = None[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerAutoMLOperator(*, job_name, s3_input, target_attribute, s3_output, role_arn, compressed_input=False, time_limit=None, autodeploy_endpoint_name=None, extras=None, wait_for_completion=True, check_interval=30, aws_conn_id=DEFAULT_CONN_ID, config=None, **kwargs)[source]

基类: SageMakerBaseOperator

创建一个自动机器学习作业,从通过 S3 提供的数据中学习预测给定的列。

学习输出将被写入指定的 S3 位置。

另请参阅

有关如何使用此操作器的更多信息,请参阅指南: 启动 AutoML 实验

参数:
  • job_name (str) – 要创建的作业名称,在账户中必须是唯一的。

  • s3_input (str) – 用于获取数据的 S3 位置(文件夹或文件)。默认情况下,期望带有标题的 csv 文件。

  • target_attribute (str) – 包含要预测的值的列的名称。

  • s3_output (str) – 写入模型制品的 S3 文件夹。必须少于或等于 128 个字符。

  • role_arn (str) – 与 S3 交互时使用的 IAM 角色 ARN。必须对输入文件夹具有读取权限,对输出文件夹具有写入权限。

  • compressed_input (bool) – 如果输入文件是 gzipped 格式,请设置为 True。

  • time_limit (int | None) – 用于训练模型的最长时间(秒)。

  • autodeploy_endpoint_name (str | None) – 如果指定,最佳模型将部署到具有该名称的端点。否则不进行部署。

  • extras (dict | None) – 使用此字典设置任何未通过此函数参数提供的作业创建可变输入变量。格式描述见:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job

  • wait_for_completion (bool) – 返回前是否等待作业完成。默认为 True。

  • check_interval (int) – 等待完成时,两次状态检查之间的间隔秒数。

返回值:

仅在等待完成时,一个详细说明最佳模型的字典。其结构与以下链接中“BestCandidate”键的结构相同:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.describe_auto_ml_job

template_fields: collections.abc.Sequence[str] = ('job_name', 's3_input', 'target_attribute', 's3_output', 'role_arn', 'compressed_input',...[source]
job_name[source]
s3_input[source]
target_attribute[source]
s3_output[source]
role_arn[source]
compressed_input = False[source]
time_limit = None[source]
autodeploy_endpoint_name = None[source]
extras = None[source]
wait_for_completion = True[source]
check_interval = 30[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerCreateExperimentOperator(*, name, description=None, tags=None, aws_conn_id=DEFAULT_CONN_ID, **kwargs)[source]

基类: SageMakerBaseOperator

创建一个 SageMaker 实验,然后将其关联到作业等。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建实验供以后使用

参数:
  • name (str) – 实验名称,在 AWS 账户中必须唯一

  • description (str | None) – 实验描述,可选

  • tags (dict | None) – 要附加到实验的标签,可选

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

返回值:

创建的实验的 ARN,尽管实验通常按名称引用

template_fields: collections.abc.Sequence[str] = ('name', 'description', 'tags')[source]
name[source]
description = None[source]
tags[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerCreateNotebookOperator(*, instance_name, instance_type, role_arn, volume_size_in_gb=None, volume_kms_key_id=None, lifecycle_config_name=None, direct_internet_access=None, root_access=None, create_instance_kwargs=None, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.models.BaseOperator

创建一个 SageMaker Notebook。

有关此操作符参数的更多信息,请参阅此处 https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_notebook_instance.html

参数:
  • instance_name (str) – Notebook 实例的名称。

  • instance_type (str) – 要创建的实例类型。

  • role_arn (str) – SageMaker 可以代入以访问资源的 IAM 角色的 Amazon Resource Name (ARN)

  • volume_size_in_gb (int | None) – Notebook 实例的 EBS 根设备卷的大小(GB)。

  • volume_kms_key_id (str | None) – EBS 根设备卷的 KMS 密钥 ID。

  • lifecycle_config_name (str | None) – 要关联到 Notebook 实例的生命周期配置名称。

  • direct_internet_access (str | None) – 是否为此 Notebook 实例启用直接互联网访问。

  • root_access (str | None) – 是否授予此 Notebook 实例对 Amazon S3 存储桶的 root 访问权限。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 实例处于 InService 状态

  • create_instance_kwargs (dict[str, Any] | None) – 创建调用时使用的额外配置选项。

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

返回值:

所创建 Notebook 实例的 ARN。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance_type', 'role_arn', 'volume_size_in_gb', 'volume_kms_key_id',...[source]
ui_color = '#ff7300'[source]
instance_name[source]
instance_type[source]
role_arn[source]
volume_size_in_gb = None[source]
volume_kms_key_id = None[source]
lifecycle_config_name = None[source]
direct_internet_access = None[source]
root_access = None[source]
wait_for_completion = True[source]
aws_conn_id = 'aws_default'[source]
create_instance_kwargs[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

创建并返回 SageMakerHook。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStopNotebookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.models.BaseOperator

停止一个 Notebook 实例。

参数:
  • instance_name (str) – 要停止的 Notebook 实例的名称。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 实例停止

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
wait_for_completion = True[source]
aws_conn_id = 'aws_default'[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

创建并返回 SageMakerHook。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerDeleteNotebookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.models.BaseOperator

删除一个 Notebook 实例。

参数:
  • instance_name (str) – 要删除的 Notebook 实例的名称。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 实例删除。

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
aws_conn_id = 'aws_default'[source]
wait_for_completion = True[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

创建并返回 SageMakerHook。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.amazon.aws.operators.sagemaker.SageMakerStartNoteBookOperator(instance_name, wait_for_completion=True, aws_conn_id='aws_default', **kwargs)[source]

基类: airflow.models.BaseOperator

启动一个 Notebook 实例。

参数:
  • instance_name (str) – 要启动的 Notebook 实例的名称。

  • wait_for_completion (bool) – 返回前是否等待 Notebook 实例处于 InService 状态

  • aws_conn_id (str | None) – 要使用的 AWS 连接 ID。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'wait_for_completion')[source]
ui_color = '#ff7300'[source]
instance_name[source]
aws_conn_id = 'aws_default'[source]
wait_for_completion = True[source]
property hook: airflow.providers.amazon.aws.hooks.sagemaker.SageMakerHook[source]

创建并返回 SageMakerHook。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目有帮助吗?