airflow.providers.amazon.aws.transfers.http_to_s3

此模块包含将数据从 HTTP 端点移动到 S3 的操作符。

模块内容

HttpToS3Operator

调用 HTTP 系统上的端点来执行操作并将结果存储在 S3 中。

class airflow.providers.amazon.aws.transfers.http_to_s3.HttpToS3Operator(*, endpoint=None, method='GET', data=None, headers=None, extra_options=None, http_conn_id='http_default', log_response=False, auth_type=None, tcp_keep_alive=True, tcp_keep_alive_idle=120, tcp_keep_alive_count=20, tcp_keep_alive_interval=30, s3_bucket=None, s3_key, replace=False, encrypt=False, acl_policy=None, aws_conn_id='aws_default', verify=None, **kwargs)[源代码]

基类: airflow.models.BaseOperator

调用 HTTP 系统上的端点来执行操作并将结果存储在 S3 中。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: HTTP 到 Amazon S3 传输操作符

参数
  • http_conn_id (str) – 要针对其运行操作符的 http 连接

  • endpoint (str | None) – 完整 url 的相对部分。(已模板化)

  • method (str) – 要使用的 HTTP 方法,默认值为“POST”

  • data (Any) – 要传递的数据。POST/PUT 中的 POST 数据和 GET 请求的 URL 中的参数。(已模板化)

  • headers (dict[str, str] | None) – 要添加到 GET 请求的 HTTP 标头

  • response_check – 对“requests”响应对象的检查。可调用对象将响应对象作为第一个位置参数,并可以选择在上下文字典中可用的任意数量的关键字参数。它应该返回 True 表示“通过”,否则返回 False。

  • response_filter – 允许您操作响应文本的函数。例如 response_filter=lambda response: json.loads(response.text)。可调用对象将响应对象作为第一个位置参数,并可以选择在上下文字典中可用的任意数量的关键字参数。

  • extra_options (dict[str, Any] | None) – “requests”库的额外选项,请参阅“requests”文档(修改超时、ssl 等的选项)

  • log_response (bool) – 记录响应(默认值: False)

  • auth_type (type[requests.auth.AuthBase] | None) – 服务的身份验证类型

  • tcp_keep_alive (bool) – 为连接启用 TCP Keep Alive。

  • tcp_keep_alive_idle (int) – TCP Keep Alive 空闲参数(对应于 socket.TCP_KEEPIDLE)。

  • tcp_keep_alive_count (int) – TCP Keep Alive 计数参数(对应于 socket.TCP_KEEPCNT)

  • tcp_keep_alive_interval (int) – TCP Keep Alive 间隔参数(对应于 socket.TCP_KEEPINTVL)

  • s3_bucket (str | None) – 要在其中保存对象的 S3 存储桶的名称。(已模板化)当 s3_key 作为完整的 s3:// url 提供时,应省略它。

  • s3_key (str) – 要创建的对象的键。(已模板化)它可以是完整的 s3:// 样式 url 或从根级别开始的相对路径。当它指定为完整的 s3:// url 时,请省略 s3_bucket

  • replace (bool) – 如果为 True,它将覆盖已存在的键

  • encrypt (bool) – 如果为 True,则文件将在服务器端由 S3 加密,并在 S3 中静态存储时以加密形式存储。

  • acl_policy (str | None) – 指定要上传到 S3 存储桶的文件的规范 ACL 策略的字符串。

  • aws_conn_id (str | None) – 要使用的 S3 连接的连接 id

  • verify (str | bool | None) –

    是否验证 S3 连接的 SSL 证书。默认情况下,会验证 SSL 证书。

    您可以提供以下值

    • False: 不验证 SSL 证书。仍将使用 SSL,

      但不会验证 SSL 证书。

    • path/to/cert/bundle.pem: 要使用的 CA 证书包的文件名。

      如果要使用与 botocore 使用的 CA 证书包不同的 CA 证书包,可以指定此参数。

template_fields: collections.abc.Sequence[str] = ('http_conn_id', 'endpoint', 'data', 'headers', 's3_bucket', 's3_key')[源代码]
template_fields_renderers[源代码]
template_ext: collections.abc.Sequence[str] = ()[source]
ui_color = '#f4a460'[source]
http_hook()[source]

创建并返回一个 HttpHook。

s3_hook()[source]

创建并返回一个 S3Hook。

execute(context)[source]

在创建操作符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?