airflow.providers.amazon.aws.operators.bedrock
¶
模块内容¶
类¶
调用指定的 Bedrock 模型,使用提供的输入运行推理。 |
|
创建微调作业以自定义基础模型。 |
|
创建微调作业以自定义基础模型。 |
|
创建一个知识库,其中包含 Amazon Bedrock LLM 和代理使用的数据源。 |
|
设置一个 Amazon Bedrock 数据源,以添加到 Amazon Bedrock 知识库。 |
|
开始一个摄取作业,其中将 Amazon Bedrock 数据源添加到 Amazon Bedrock 知识库。 |
|
查询知识库并根据检索到的结果和来源引文生成响应。 |
|
查询知识库并检索带有来源引文的结果。 |
- class airflow.providers.amazon.aws.operators.bedrock.BedrockInvokeModelOperator(model_id, input_data, content_type=None, accept_type=None, **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockRuntimeHook
]调用指定的 Bedrock 模型,使用提供的输入运行推理。
使用 InvokeModel 为文本模型、图像模型和嵌入模型运行推理。要查看不同模型的 input_data 字段的格式和内容,请参阅推理参数文档。
另请参阅
有关如何使用此操作符的更多信息,请查看指南:调用现有的 Amazon Bedrock 模型
- 参数
model_id (str) – Bedrock 模型的 ID。(已模板化)
input_data (dict[str, Any]) – 输入数据,格式在 content-type 请求头中指定。(已模板化)
content_type (str | None) – 请求中输入数据的 MIME 类型。(已模板化) 默认值:application/json
accept – 响应中推理主体的所需 MIME 类型。(已模板化) 默认值:application/json
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][源代码]¶
- class airflow.providers.amazon.aws.operators.bedrock.BedrockCustomizeModelOperator(job_name, custom_model_name, role_arn, base_model_id, training_data_uri, output_data_uri, hyperparameters, ensure_unique_job_name=True, customization_job_kwargs=None, wait_for_completion=True, waiter_delay=120, waiter_max_attempts=75, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockHook
]创建微调作业以自定义基础模型。
另请参阅
有关如何使用此操作符的更多信息,请查看指南:自定义现有的 Amazon Bedrock 模型
- 参数
job_name (str) – 微调作业的唯一名称。
custom_model_name (str) – 正在创建的自定义模型的名称。
role_arn (str) – IAM 角色的 Amazon 资源名称 (ARN),Amazon Bedrock 可以承担该角色来代表您执行任务。
base_model_id (str) – 基础模型的名称。
training_data_uri (str) – 存储训练数据的 S3 URI。
output_data_uri (str) – 存储输出数据的 S3 URI。
ensure_unique_job_name (bool) – 如果设置为 true,操作符将检查配置中是否已存在具有该名称的模型自定义作业,如果存在名称冲突,则附加当前时间戳。(默认值:True)
customization_job_kwargs (dict[str, Any] | None) – 传递给 API 的任何可选参数。
wait_for_completion (bool) – 是否等待集群停止。(默认值:True)
waiter_delay (int) – 状态检查之间等待的秒数。(默认值:120)
waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:75)
deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateProvisionedModelThroughputOperator(model_units, provisioned_model_name, model_id, create_throughput_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockHook
]创建微调作业以自定义基础模型。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:为现有 Amazon Bedrock 模型配置吞吐量
- 参数
model_units (int) – 要分配的模型单元数。(已模板化)
provisioned_model_name (str) – 此预配置吞吐量的唯一名称。(已模板化)
model_id (str) – 要与此预配置吞吐量关联的模型的名称或 ARN。(已模板化)
create_throughput_kwargs (dict[str, Any] | None) – 传递给 API 的任何可选参数。
wait_for_completion (bool) – 是否等待集群停止。(默认值:True)
waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)
waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:20)
deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateKnowledgeBaseOperator(name, embedding_model_arn, role_arn, storage_config, create_knowledge_base_kwargs=None, wait_for_indexing=True, indexing_error_retry_delay=5, indexing_error_max_attempts=20, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=20, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook
]创建一个知识库,其中包含 Amazon Bedrock LLM 和代理使用的数据源。
要创建知识库,您必须首先设置数据源并配置受支持的向量存储。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:创建 Amazon Bedrock 知识库
- 参数
name (str) – 知识库的名称。(已模板化)
embedding_model_arn (str) – 用于为知识库创建向量嵌入的模型的 ARN。(已模板化)
role_arn (str) – 具有创建知识库权限的 IAM 角色的 ARN。(已模板化)
storage_config (dict[str, Any]) – 用于知识库的向量数据库的配置详细信息。(已模板化)
wait_for_indexing (bool) – 向量索引可能需要一些时间,并且在尝试创建知识库之前没有明显的方法来检查状态。如果此项为 True,并且由于索引不可用而导致创建失败,则运算符将等待并重试。(默认值:True)(已模板化)
indexing_error_retry_delay ( int ) – 如果遇到索引错误,重试之间的间隔秒数。(默认值为 5)(已模板化)
indexing_error_max_attempts ( int ) – 遇到索引错误时,最大重试次数。(默认值为 20)(已模板化)
create_knowledge_base_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)
wait_for_completion (bool) – 是否等待集群停止。(默认值:True)
waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)
waiter_max_attempts (int) – 检查作业完成情况的最大尝试次数。(默认值:20)
deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][源代码]¶
- class airflow.providers.amazon.aws.operators.bedrock.BedrockCreateDataSourceOperator(name, knowledge_base_id, bucket_name=None, create_data_source_kwargs=None, **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook
]设置一个 Amazon Bedrock 数据源,以添加到 Amazon Bedrock 知识库。
另请参阅
有关如何使用此操作符的更多信息,请查看以下指南: 创建 Amazon Bedrock 数据源
- 参数
name ( str ) – 要创建的 Amazon Bedrock 数据源的名称。(已模板化)。
bucket_name ( str | None ) – 用于数据源存储的 Amazon S3 存储桶的名称。(已模板化)
knowledge_base_id ( str ) – 要向其中添加数据源的知识库的唯一标识符。(已模板化)
create_data_source_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][源代码]¶
- class airflow.providers.amazon.aws.operators.bedrock.BedrockIngestDataOperator(knowledge_base_id, data_source_id, ingest_data_kwargs=None, wait_for_completion=True, waiter_delay=60, waiter_max_attempts=10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), **kwargs)[源代码]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentHook
]开始一个摄取作业,其中将 Amazon Bedrock 数据源添加到 Amazon Bedrock 知识库。
另请参阅
有关如何使用此操作符的更多信息,请查看以下指南: 将数据提取到 Amazon Bedrock 数据源中
- 参数
knowledge_base_id ( str ) – 要向其中添加数据源的知识库的唯一标识符。(已模板化)
data_source_id ( str ) – 要提取的数据源的唯一标识符。(已模板化)
ingest_data_kwargs ( dict[str, Any] | None ) – 传递给 API 调用的任何其他可选参数。(已模板化)
wait_for_completion (bool) – 是否等待集群停止。(默认值:True)
waiter_delay (int) – 状态检查之间等待的秒数。(默认值:60)
waiter_max_attempts ( int ) – 检查作业完成情况的最大尝试次数。(默认值:10)
deferrable (bool) – 如果为 True,则运算符将异步等待集群停止。这意味着等待完成。此模式需要安装 aiobotocore 模块。(默认值:False)
aws_conn_id – 用于 AWS 凭据的 Airflow 连接。如果此项为
None
或为空,则使用默认的 boto3 行为。如果在分布式方式下运行 Airflow 且 aws_conn_id 为 None 或为空,则将使用默认的 boto3 配置(并且必须在每个工作节点上维护)。region_name – AWS region_name。如果未指定,则使用默认的 boto3 行为。
verify – 是否验证 SSL 证书。请参阅:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/core/session.html
botocore_config – botocore 客户端的配置字典 (键值对)。请参阅:https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html
- template_fields: collections.abc.Sequence[str][源代码]¶
- class airflow.providers.amazon.aws.operators.bedrock.BedrockRaGOperator(input, source_type, model_arn, prompt_template=None, knowledge_base_id=None, vector_search_config=None, sources=None, rag_kwargs=None, **kwargs)[source]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentRuntimeHook
]查询知识库并根据检索到的结果和来源引文生成响应。
注意: botocore 1.34.90 版本增加了对外部源的支持
另请参阅
有关如何使用此运算符的更多信息,请查看指南:Amazon Bedrock 检索和生成 (RaG)
- 参数
input (str) – 要对知识库执行的查询。(已模板化)
source_type (str) – 请求查询的资源类型。(已模板化)必须是 ‘KNOWLEDGE_BASE’ 或 ‘EXTERNAL_SOURCES’ 之一,并且还必须提供适当的配置值。如果设置为 ‘KNOWLEDGE_BASE’,则必须提供 knowledge_base_id,并且可以提供 vector_search_config。如果设置为 EXTERNAL_SOURCES,则还必须提供 sources。注意:botocore 1.34.90 版本增加了对外部源的支持
model_arn (str) – 用于生成响应的基础模型的 ARN。(已模板化)
prompt_template (str | None) – 发送到模型以生成响应的提示模板。您可以包含提示占位符,这些占位符在提示发送到模型之前会被替换,以便向模型提供说明和上下文。此外,您可以包含 XML 标签来描绘提示模板的有意义的部分。(已模板化)
knowledge_base_id (str | None) – 要查询的知识库的唯一标识符。(已模板化)仅当 source_type='KNOWLEDGE_BASE' 时才能指定。
vector_search_config (dict[str, Any] | None) – 应如何返回向量搜索的结果。(已模板化)仅当 source_type='KNOWLEDGE_BASE' 时才能指定。有关更多信息,请参阅 https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html。
sources (list[dict[str, Any]] | None) – 用作响应参考的文档。(已模板化)仅当 source_type='EXTERNAL_SOURCES' 时才能指定。注意:botocore 1.34.90 版本增加了对外部源的支持
rag_kwargs (dict[str, Any] | None) – 要传递给 API 调用的其他关键字参数。(已模板化)
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.amazon.aws.operators.bedrock.BedrockRetrieveOperator(retrieval_query, knowledge_base_id, vector_search_config=None, retrieve_kwargs=None, **kwargs)[source]¶
基类:
airflow.providers.amazon.aws.operators.base_aws.AwsBaseOperator
[airflow.providers.amazon.aws.hooks.bedrock.BedrockAgentRuntimeHook
]查询知识库并检索带有来源引文的结果。
另请参阅
有关如何使用此运算符的更多信息,请查看指南:Amazon Bedrock 检索
- 参数
retrieval_query (str) – 要对知识库执行的查询。(已模板化)
knowledge_base_id (str) – 要查询的知识库的唯一标识符。(已模板化)
vector_search_config (dict[str, Any] | None) – 应如何返回向量搜索的结果。(已模板化)有关更多信息,请参阅 https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html。
retrieve_kwargs (dict[str, Any] | None) – 要传递给 API 调用的其他关键字参数。(已模板化)
- template_fields: collections.abc.Sequence[str][source]¶