airflow.providers.amazon.aws.operators.comprehend
¶
模块内容¶
类¶
这是 Comprehend 服务操作符的基础操作符(不应直接在 DAG 中使用)。 |
|
为文档集合创建 Comprehend PII 实体检测作业。 |
|
创建一个可以对文档进行分类的 Comprehend 文档分类器。 |
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendBaseOperator(input_data_config, output_data_config, data_access_role_arn, language_code, **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook
]这是 Comprehend 服务操作符的基础操作符(不应直接在 DAG 中使用)。
- 参数
input_data_config (dict) – PII 实体检测作业的输入属性。(已模板化)
output_data_config (dict) – 为 PII 实体检测作业的输出提供 配置 参数。(已模板化)
data_access_role_arn (str) – IAM 角色的 Amazon 资源名称 (ARN),该角色授予 Amazon Comprehend 对您的输入数据的读取权限。(已模板化)
language_code (str) – 输入文档的语言。(已模板化)
- template_fields: collections.abc.Sequence[str][源代码]¶
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendStartPiiEntitiesDetectionJobOperator(input_data_config, output_data_config, mode, data_access_role_arn, language_code, start_pii_entities_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]¶
-
为文档集合创建 Comprehend PII 实体检测作业。
另请参阅
有关如何使用此操作符的更多信息,请查看指南:创建 Amazon Comprehend 启动 PII 实体检测作业
- 参数
input_data_config (dict) – PII 实体检测作业的输入属性。(已模板化)
output_data_config (dict) – 为 PII 实体检测作业的输出提供 配置 参数。(已模板化)
mode (str) – 指定输出是提供 PII 实体的(偏移量)位置还是提供 PII 实体被编辑的文件。 如果将 mode 参数设置为 ONLY_REDACTION。 在这种情况下,您必须在 start_pii_entities_kwargs 中提供 RedactionConfig。
data_access_role_arn (str) – IAM 角色的 Amazon 资源名称 (ARN),该角色授予 Amazon Comprehend 对您的输入数据的读取权限。(已模板化)
language_code (str) – 输入文档的语言。(已模板化)
start_pii_entities_kwargs (dict[str, Any] | None) – 传递给作业的任何可选参数。 如果未在 start_pii_entities_kwargs 中提供 JobName,则操作符将创建它。
wait_for_completion (bool) – 是否等待作业停止。(默认:True)
waiter_delay (int) – 检查状态之间等待的时间(以秒为单位)。(默认:60)
waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认:20)
deferrable (bool) – 如果为 True,则操作符将异步等待作业停止。 这意味着等待完成。 此模式需要安装 aiobotocore 模块。(默认:False)
aws_conn_id – 用于 AWS 凭证的 Airflow 连接。 如果此值为
None
或为空,则使用默认的 boto3 行为。 如果以分布式方式运行 Airflow 且 aws_conn_id 为 None 或空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。 如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。 请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典(键值对)。 请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- class airflow.providers.amazon.aws.operators.comprehend.ComprehendCreateDocumentClassifierOperator(document_classifier_name, input_data_config, mode, data_access_role_arn, language_code, fail_on_warnings=False, output_data_config=None, document_classifier_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), aws_conn_id='aws_default', **kwargs)[source]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.comprehend.ComprehendHook
]创建一个可以对文档进行分类的 Comprehend 文档分类器。
提供一组带有类别标签的训练文档。
另请参阅
有关如何使用此操作符的更多信息,请查看指南:创建 Amazon Comprehend 文档分类器
- 参数
document_classifier_name (str) – 文档分类器的名称。(已模板化)
mode (str) – 指示将训练分类器的模式。(已模板化)
data_access_role_arn (str) – IAM 角色的 Amazon 资源名称 (ARN),该角色授予 Amazon Comprehend 对您的输入数据的读取权限。(已模板化)
language_code (str) – 输入文档的语言。您可以指定 Amazon Comprehend 支持的任何语言。所有文档必须使用相同的语言。(已模板化)
fail_on_warnings (bool) – 如果设置为 True,则当状态为 TRAINED_WITH_WARNING 时,文档分类器训练作业将抛出错误。(默认为 False)
output_data_config (dict[str, Any] | None) – 指定自定义分类器作业的输出文件的位置。此参数是创建本机文档模型的请求所必需的。(已模板化)
document_classifier_kwargs (dict[str, Any] | None) – 传递给文档分类器的任何可选参数。(已模板化)
wait_for_completion (bool) – 是否等待作业停止。(默认:True)
waiter_delay (int) – 检查状态之间等待的时间(以秒为单位)。(默认:60)
waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认:20)
deferrable (bool) – 如果为 True,则操作符将异步等待作业停止。 这意味着等待完成。 此模式需要安装 aiobotocore 模块。(默认:False)
aws_conn_id (str | None) – 用于 AWS 凭证的 Airflow 连接。如果此值为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。 如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。 请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典(键值对)。 请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][source]¶