airflow.providers.google.cloud.operators.translate

此模块包含 Google 翻译操作符。

模块内容

CloudTranslateTextOperator

翻译一个字符串或字符串列表。

TranslateTextOperator

翻译适量文本内容,对于大量文本,请使用 TranslateTextBatchOperator。

TranslateTextBatchOperator

通过提供的输入翻译大量文本内容。

TranslateCreateDatasetOperator

创建 Google Cloud 翻译数据集。

TranslateDatasetsListOperator

获取项目中原生 Google Cloud Translation 数据集的列表。

TranslateImportDataOperator

将数据导入翻译数据集。

TranslateDeleteDatasetOperator

删除翻译数据集及其所有内容。

TranslateCreateModelOperator

创建 Google Cloud 翻译模型。

TranslateModelsListOperator

获取项目中原生 Google Cloud Translation 模型的列表。

TranslateDeleteModelOperator

删除翻译模型及其所有内容。

TranslateDocumentOperator

翻译提供的文档。

TranslateDocumentBatchOperator

通过输入和输出配置翻译提供的文档。

class airflow.providers.google.cloud.operators.translate.CloudTranslateTextOperator(*, values, target_language, format_, source_language, model, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

翻译一个字符串或字符串列表。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:CloudTranslateTextOperator

请参阅 https://cloud.google.com/translate/docs/translating-text

执行方法返回 str 或 list。

这是一个针对每个查询值的字典列表。每个字典通常包含三个键(尽管并非所有情况下都会出现所有键)

  • detectedSourceLanguage:文本的检测到的语言(作为 ISO 639-1 语言代码)。

  • translatedText:文本到目标语言的翻译。

  • input:对应的输入值。

  • model:用于翻译文本的模型。

如果仅传递单个值,则仅将单个字典设置为 XCom 返回值。

参数
  • values (list[str] | str) – 要翻译的字符串或字符串列表。

  • target_language (str) – 将结果翻译成的语言。这是 API 所必需的。

  • format – (可选)texthtml 之一,用于指定输入文本是纯文本还是 HTML。

  • source_language (str | None) – (可选)要翻译的文本的语言。

  • model (str) – (可选)用于翻译文本的模型,例如 'base''nmt'

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 所需的链式帐户列表,该帐户将在请求中模拟。 如果设置为字符串,则帐户必须向原始帐户授予服务帐户令牌创建者 IAM 角色。 如果设置为序列,则列表中的标识必须向直接前一个标识授予服务帐户令牌创建者 IAM 角色,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('values', 'target_language', 'format_', 'source_language', 'model', 'gcp_conn_id',...[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateTextOperator(*, contents, source_language_code=None, target_language_code, mime_type=None, location=None, project_id=PROVIDE_PROJECT_ID, model=None, transliteration_config=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

翻译适量文本内容,对于大量文本,请使用 TranslateTextBatchOperator。

封装 Google Cloud Translate Text (高级) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/translating-text-v3

有关如何使用此操作符的更多信息,请查看指南

TranslateTextOperator.

参数
  • project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。

  • location (str | None) – 可选。服务所属的 Google Cloud 位置 ID。如果未指定,则使用 “global”。对于使用 AutoML 模型或自定义词汇表的请求,需要使用非全局位置。

  • contents (collections.abc.Sequence[str]) – 必需。要翻译的内容字符串序列。建议限制为 1024 项,总共 30,000 个代码点。

  • mime_type (str | None) – 可选。源文本的格式。如果留空,MIME 类型默认为 “text/html”。

  • source_language_code (str | None) – 可选。如果已知,则为输入文本的 ISO-639 语言代码。如果未指定,则尝试自动识别。

  • target_language_code (str) – 必需。用于翻译输入文本的 ISO-639 语言代码。

  • model (str | None) –

    可选。此翻译请求的 model 类型。如果未提供,将使用默认的 Google 模型 (NMT)。格式取决于模型类型

    • AutoML 翻译模型: projects/{project-number-or-id}/locations/{location-id}/models/{model-id}

    • 通用(内置)模型:projects/{project-number-or-id}/locations/{location-id}/models/general/nmt

    • 翻译 LLM 模型:projects/{project-number-or-id}/locations/{location-id}/models/general/translation-llm

    对于全局(非区域)请求,请使用 ‘global’ location-id

  • glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可选。要应用的词汇表。

  • transliteration_config (google.cloud.translate_v3.types.TransliterationConfig | None) – 可选。要应用的音译。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('contents', 'target_language_code', 'mime_type', 'source_language_code', 'model',...[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateTextBatchOperator(*, project_id=PROVIDE_PROJECT_ID, location, target_language_codes, source_language_code, input_configs, output_config, models=None, glossaries=None, labels=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

通过提供的输入翻译大量文本内容。

封装 Google Cloud Translate Text (高级) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/batch-translation

有关如何使用此操作符的更多信息,请查看指南:TranslateTextBatchOperator

参数
  • project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。如果未指定,将使用 hook project_id。

  • location (str) – 必需。服务所属的 Google Cloud 位置 ID(非全局)。

  • source_language_code (str) – 必需。源语言代码。

  • target_language_codes (collections.abc.MutableSequence[str]) – 必需。此处最多允许 10 个语言代码。

  • input_configs (collections.abc.MutableSequence[google.cloud.translate_v3.types.InputConfig | dict]) – 必需。输入配置。匹配的文件总数应 <= 100。内容总大小应 <= 100M Unicode 代码点。这些文件必须使用 UTF-8 编码。

  • models (str | None) –

    可选。用于翻译的模型。键是目标语言代码,值是模型名称。值可以是内置的通用模型,也可以是 AutoML 翻译模型。值的格式取决于模型类型。

    • AutoML 翻译模型: projects/{project-number-or-id}/locations/{location-id}/models/{model-id}

    • 通用(内置)模型:projects/{project-number-or-id}/locations/{location-id}/models/general/nmt

    如果映射为空,或者没有为特定语言对请求特定模型,则使用默认的 Google 模型 (NMT)。

  • output_config (google.cloud.translate_v3.types.OutputConfig | dict) – 必需。输出配置。

  • glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 可选。用于翻译的词汇表。它以目标语言代码为键。

  • labels (collections.abc.MutableMapping[str, str] | None) – 可选。带有用户定义元数据的标签。有关更多信息,请参阅 https://cloud.google.com/translate/docs/advanced/labels

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('input_configs', 'target_language_codes', 'source_language_code', 'models', 'glossaries',...[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateCreateDatasetOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 Google Cloud 翻译数据集。

使用 API V3 创建 原生 翻译数据集。有关如何使用此运算符的更多信息,请查看指南:TranslateCreateDatasetOperator

参数
  • dataset (dict | google.cloud.translate_v3.types.automl_translation.Dataset) – 要创建的数据集。如果提供 dict,则它必须对应于 automl_translation.Dataset 类型。

  • project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('dataset', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateDatasetsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取项目中原生 Google Cloud Translation 数据集的列表。

使用 API V3 获取项目的 原生 翻译数据集列表。有关如何使用此运算符的更多信息,请查看指南:TranslateDatasetsListOperator

参数
  • project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateImportDataOperator(*, dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

将数据导入翻译数据集。

使用 API V3 将数据加载到翻译数据集中。有关如何使用此操作符的更多信息,请参阅指南:TranslateImportDataOperator

参数
  • dataset_id (str) – 要将数据导入的目标原生数据集的 dataset_id。

  • input_config (dict | google.cloud.translate_v3.types.DatasetInputConfig) – 翻译语言对文件的所需输入位置。如果提供 dict,则必须遵循 DatasetInputConfig 的结构。如果提供 dict,则其格式必须与 protobuf 消息 InputConfig 相同。

  • project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('dataset_id', 'input_config', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateDeleteDatasetOperator(*, dataset_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除翻译数据集及其所有内容。

使用 API V3 删除翻译数据集及其数据。有关如何使用此操作符的更多信息,请参阅指南:TranslateDeleteDatasetOperator

参数
  • dataset_id (str) – 要删除的目标原生数据集的 dataset_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateCreateModelOperator(*, project_id=PROVIDE_PROJECT_ID, location, dataset_id, display_name, timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', metadata=(), impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 Google Cloud 翻译模型。

使用 API V3 创建一个 native 翻译模型。有关如何使用此操作符的更多信息,请参阅指南:TranslateCreateModelOperator

参数
  • dataset_id (str) – 用于模型训练的数据集 ID。

  • project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('dataset_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateModelsListOperator(*, project_id=PROVIDE_PROJECT_ID, location, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取项目中原生 Google Cloud Translation 模型的列表。

使用 API V3 获取项目的原生翻译模型列表。有关如何使用此操作符的更多信息,请查看指南:TranslateModelsListOperator

参数
  • project_id (str) – 数据集所在的 Google Cloud 项目 ID。如果未提供,则使用默认的 project_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateDeleteModelOperator(*, model_id, location, project_id=PROVIDE_PROJECT_ID, metadata=(), timeout=None, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除翻译模型及其所有内容。

使用 API V3 删除翻译模型及其数据。有关如何使用此操作符的更多信息,请查看指南:TranslateDeleteModelOperator

参数
  • model_id (str) – 要删除的目标原生模型的 model_id。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('model_id', 'location', 'project_id', 'gcp_conn_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateDocumentOperator(*, location=None, project_id=PROVIDE_PROJECT_ID, source_language_code=None, target_language_code, document_input_config, document_output_config, customized_attribution=None, is_translate_native_pdf_only=False, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, model=None, glossary_config=None, labels=None, timeout=DEFAULT, retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

翻译提供的文档。

封装 Google Cloud Translate Text(高级)功能。支持各种输入/输出文件类型,请访问 https://cloud.google.com/translate/docs/advanced/translate-documents 了解更多详情。

有关如何使用此操作符的更多信息,请查看指南

TranslateDocumentOperator.

参数
  • project_id (str) – 可选。服务所属的 Google Cloud 项目 ID。如果未指定,将使用 hook project_id。

  • source_language_code (str | None) – 可选。如果已知,则为输入文档文本的 ISO-639 语言代码。如果未指定源语言,API 会尝试自动识别源语言并在响应中返回源语言。

  • target_language_code (str) – 必需。用于翻译输入文档文本的 ISO-639 语言代码。

  • location (str | None) – 可选。用于进行调用的项目或位置。必须引用调用者的项目。如果未指定,则使用“global”。使用 AutoML 模型或自定义词汇表进行请求时,需要非全局位置。模型和词汇表必须位于同一区域内(具有相同的位置 ID)。

  • document_input_config (google.cloud.translate_v3.types.DocumentInputConfig | dict) – 文档翻译请求输入配置。

  • document_output_config (google.cloud.translate_v3.types.DocumentOutputConfig | dict | None) – 可选。文档翻译请求输出配置。如果未提供,则翻译后的文件将仅通过字节流返回,并且其输出 MIME 类型将与输入文件的 MIME 类型相同。

  • customized_attribution (str | None) – 可选。此标志用于支持用户自定义署名。如果未提供,则默认为 Machine Translated by Google。自定义署名应遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的规则。

  • is_translate_native_pdf_only (bool) – 可选。为外部客户提供的参数。如果为 true,则在线原生 PDF 翻译的页面限制为 300,并且仅翻译原生 PDF 页面。

  • enable_shadow_removal_native_pdf (bool) – 可选。如果为 true,则使用文本移除服务器来移除原生 PDF 翻译中背景图像上的阴影文本。仅当 is_translate_native_pdf_onlypdf_native_only 均为 False 时,才能启用阴影移除功能。

  • enable_rotation_correction (bool) – 可选。如果为 true,则在 DVS 中启用自动旋转校正。

  • model (str | None) –

    可选。此翻译请求的 model 类型。如果未提供,将使用默认的 Google 模型 (NMT)。格式取决于模型类型

    • AutoML 翻译模型: projects/{project-number-or-id}/locations/{location-id}/models/{model-id}

    • 通用(内置)模型:projects/{project-number-or-id}/locations/{location-id}/models/general/nmt

    如果未提供,则默认使用 Google 模型 (NMT) 进行翻译。

  • glossary_config (google.cloud.translate_v3.types.TranslateTextGlossaryConfig | None) – 可选。要应用的词汇表。

  • transliteration_config – 可选。要应用的音译配置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('source_language_code', 'target_language_code', 'document_input_config',...[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.translate.TranslateDocumentBatchOperator(*, project_id=PROVIDE_PROJECT_ID, source_language_code, target_language_codes=None, location=None, input_configs, output_config, customized_attribution=None, format_conversions=None, enable_shadow_removal_native_pdf=False, enable_rotation_correction=False, models=None, glossaries=None, metadata=(), timeout=DEFAULT, retry=DEFAULT, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

通过输入和输出配置翻译提供的文档。

每个操作最多支持 10 种目标语言。封装了 Google Cloud Translate Text (Advanced) 功能。请参阅 https://cloud.google.com/translate/docs/advanced/batch-translation

有关如何使用此操作符的更多信息,请查看指南: TranslateDocumentBatchOperator

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • source_language_code (str) – 可选。如果已知,则为输入文本的 ISO-639 语言代码。如果未指定源语言,则 API 会尝试自动识别源语言,并在响应中返回源语言。

  • target_language_codes (collections.abc.MutableSequence[str] | None) – 必需。用于翻译输入文档的 ISO-639 语言代码。在此处指定最多 10 个语言代码。

  • location (str | None) – 可选。用于进行调用的项目或位置。必须引用调用者的项目。如果未指定,则使用“global”。使用 AutoML 模型或自定义词汇表进行请求时,需要非全局位置。模型和词汇表必须位于同一区域内(具有相同的位置 ID)。

  • input_configs (collections.abc.MutableSequence[google.cloud.translate_v3.types.BatchDocumentInputConfig | dict]) – 输入配置。匹配的文件总数应 <= 100。要翻译的总内容大小应 <= 100M Unicode 代码点。这些文件必须使用 UTF-8 编码。

  • output_config (google.cloud.translate_v3.types.BatchDocumentOutputConfig | dict) – 输出配置。如果 2 个输入配置与同一个文件匹配(即,相同的输入路径),则不会生成重复输入的输出。

  • format_conversions (collections.abc.MutableMapping[str, str] | None) –

    可选。应用于所有输入文件的文件格式转换映射。映射键是原始的 mime_type。映射值是翻译文档的目标 mime_type。支持的文件格式转换包括

    • application/pdfapplication/vnd.openxmlformats-officedocument.wordprocessingml.document

    如果未指定任何内容,则输出文件将与原始文件采用相同的格式。

  • customized_attribution (str | None) – 可选。此标志用于支持用户自定义署名。如果未提供,则默认为 Machine Translated by Google。自定义署名应遵循 https://cloud.google.com/translate/attribution#attribution_and_logos 中的规则。

  • enable_shadow_removal_native_pdf (bool) – 可选。如果为 true,则使用文本移除服务器来移除原生 PDF 翻译中背景图像上的阴影文本。仅当 is_translate_native_pdf_onlypdf_native_only 均为 False 时,才能启用阴影移除功能。

  • enable_rotation_correction (bool) – 可选。如果为 true,则在 DVS 中启用自动旋转校正。

  • models (collections.abc.MutableMapping[str, str] | None) –

    可选。用于翻译的模型。映射的键是目标语言代码。映射的值是模型名称。值可以是内置的通用模型,也可以是 AutoML 翻译模型。值的格式取决于模型类型

    • AutoML 翻译模型: projects/{project-number-or-id}/locations/{location-id}/models/{model-id}

    • 通用(内置)模型:projects/{project-number-or-id}/locations/{location-id}/models/general/nmt

    如果映射为空或未针对语言对请求特定模型,则使用默认的 Google 模型 (NMT)。

  • glossaries (collections.abc.MutableMapping[str, google.cloud.translate_v3.types.TranslateTextGlossaryConfig] | None) – 要应用的词汇表。它以目标语言代码为键。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault | None) – 指定应该重试哪些错误(如果有)。

  • timeout (float | google.api_core.gapic_v1.method._MethodDefault) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应该与请求一起发送的字符串,作为元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。使用短期凭据模拟的服务帐户,或者获取列表中最后一个帐户的 access_token 所需的帐户链表,该 access_token 将在请求中模拟。如果设置为字符串,则该帐户必须授予原始帐户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予紧邻的前一个身份,列表中的第一个帐户将此角色授予原始帐户(已模板化)。

template_fields: collections.abc.Sequence[str] = ('input_configs', 'output_config', 'target_language_codes', 'source_language_code', 'models',...[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?