airflow.providers.yandex.operators.dataproc¶

类¶

`InitializationAction`	在 DataProc 集群启动时运行的初始化操作的数据。
`DataprocCreateClusterOperator`	创建 Yandex.Cloud Data Proc 集群。
`DataprocBaseOperator`	用于处理指定 DataProc 集群的 Operator 基类。
`DataprocDeleteClusterOperator`	删除 Yandex.Cloud Data Proc 集群。
`DataprocCreateHiveJobOperator`	在 Data Proc 集群中运行 Hive 作业。
`DataprocCreateMapReduceJobOperator`	在 Data Proc 集群中运行 Mapreduce 作业。
`DataprocCreateSparkJobOperator`	在 Data Proc 集群中运行 Spark 作业。
`DataprocCreatePysparkJobOperator`	在 Data Proc 集群中运行 Pyspark 作业。

模块内容¶

class airflow.providers.yandex.operators.dataproc.InitializationAction[source]¶

在 DataProc 集群启动时运行的初始化操作的数据。

uri: str[source]¶

args: collections.abc.Iterable[str][source]¶

timeout: int[source]¶

class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[source]¶

基类: airflow.models.BaseOperator

创建 Yandex.Cloud Data Proc 集群。

参数:

folder_id (str | None) – 应创建集群的文件夹 ID。
cluster_name (str | None) – 集群名称。在文件夹内必须是唯一的。
cluster_description (str | None) – 集群描述。
cluster_image_version (str | None) – 集群镜像版本。使用默认值。
ssh_public_keys (str | collections.abc.Iterable[str] | None) – 将部署到创建的计算实例的 SSH 公钥列表。
subnet_id (str | None) – 子网 ID。所有 Data Proc 集群节点将使用一个子网。
services (collections.abc.Iterable[str]) – 将安装到集群的服务列表。可选的服务：HDFS, YARN, MAPREDUCE, HIVE, TEZ, ZOOKEEPER, HBASE, SQOOP, FLUME, SPARK, SPARK, ZEPPELIN, OOZIE
s3_bucket (str | None) – 用于存储集群日志的 Yandex.Cloud S3 存储桶。如果未指定存储桶，作业将无法工作。
zone (str) – 创建集群的可用区。当前可用区有 ru-central1-a、ru-central1-b 和 ru-central1-c。
service_account_id (str | None) – 集群的服务账户 ID。服务账户可以在文件夹内创建。
masternode_resource_preset (str | None) – 集群主节点的资源预设（CPU+RAM 配置）。
masternode_disk_size (int | None) – 主节点存储大小（以 GiB 为单位）。
masternode_disk_type (str | None) – 主节点存储类型。可选类型：network-ssd、network-hdd。
datanode_resource_preset (str | None) – 集群数据节点的资源预设（CPU+RAM 配置）。
datanode_disk_size (int | None) – 数据节点存储大小（以 GiB 为单位）。
datanode_disk_type (str | None) – 数据节点存储类型。可选类型：network-ssd、network-hdd。
computenode_resource_preset (str | None) – 集群计算节点的资源预设（CPU+RAM 配置）。
computenode_disk_size (int | None) – 计算节点存储大小（以 GiB 为单位）。
computenode_disk_type (str | None) – 计算节点存储类型。可选类型：network-ssd、network-hdd。
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
computenode_max_count – 计算节点自动扩缩子集群的最大节点数。
computenode_warmup_duration (int | None) – 实例的热身时间（以秒为单位）。在此期间，流量会发送到实例，但不收集实例指标。以秒为单位。
computenode_stabilization_duration (int | None) – 在实例组减少组中实例数量之前，最短的监控时间（以秒为单位）。在此期间，即使新的指标值表明应该减少实例，组大小也不会减少。以秒为单位。
computenode_preemptible (bool) – 可抢占式实例至少每 24 小时停止一次，并且在 Compute 需要其资源时可以随时停止。
computenode_cpu_utilization_target (int | None) – 定义基于实例组平均 CPU 利用率的自动扩缩规则。以百分比表示，范围 10-100。默认情况下未设置，将使用默认的自动扩缩策略。
computenode_decommission_timeout (int | None) – 在缩容期间优雅地退役节点的超时时间。以秒为单位。
properties (dict[str, str] | None) – 传递给主节点软件的属性。文档：https://cloud.yandex.com/docs/data-proc/concepts/settings-list
enable_ui_proxy (bool) – 启用 UI 代理功能，用于转发 Hadoop 组件的 Web 界面。文档：https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy
host_group_ids (collections.abc.Iterable[str] | None) – 用于放置集群虚拟机的专用主机组。文档：https://cloud.yandex.com/docs/compute/concepts/dedicated-host
security_group_ids (collections.abc.Iterable[str] | None) – 用户安全组。文档：https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups
log_group_id (str | None) – 写入日志的日志组 ID。默认情况下，日志将发送到默认日志组。要禁用云日志发送，请设置集群属性 dataproc:disable_cloud_logging = true。文档：https://cloud.yandex.com/docs/data-proc/concepts/logs
initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 集群启动时要运行的一组初始化操作。文档：https://cloud.yandex.com/docs/data-proc/concepts/init-action
labels (dict[str, str] | None) – 集群标签，格式为 key:value 对。每个资源不超过 64 个。文档：https://cloud.yandex.com/docs/resource-manager/concepts/labels

folder_id = None[source]¶

yandex_conn_id = None[source]¶

cluster_name = None[source]¶

cluster_description = ''[source]¶

cluster_image_version = None[source]¶

ssh_public_keys = None[source]¶

subnet_id = None[source]¶

services = ('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK')[source]¶

s3_bucket = None[source]¶

zone = 'ru-central1-b'[source]¶

service_account_id = None[source]¶

masternode_resource_preset = None[source]¶

masternode_disk_size = None[source]¶

masternode_disk_type = None[source]¶

datanode_resource_preset = None[source]¶

datanode_disk_size = None[source]¶

datanode_disk_type = None[source]¶

datanode_count = 1[source]¶

computenode_resource_preset = None[source]¶

computenode_disk_size = None[source]¶

computenode_disk_type = None[source]¶

computenode_count = 0[source]¶

computenode_max_hosts_count = None[source]¶

computenode_measurement_duration = None[source]¶

computenode_warmup_duration = None[source]¶

computenode_stabilization_duration = None[source]¶

computenode_preemptible = False[source]¶

computenode_cpu_utilization_target = None[source]¶

computenode_decommission_timeout = None[source]¶

properties = None[source]¶

enable_ui_proxy = False[source]¶

host_group_ids = None[source]¶

security_group_ids = None[source]¶

log_group_id = None[source]¶

initialization_actions = None[来源]¶

labels = None[来源]¶

hook: airflow.providers.yandex.hooks.dataproc.DataprocHook | None = None[来源]¶

execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

属性 cluster_id[来源]¶

类 airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[来源]¶

基类: airflow.models.BaseOperator

用于处理指定 DataProc 集群的 Operator 基类。

参数:

connection_id – Yandex.Cloud Airflow 连接的 ID。
cluster_id (str | None) – 要删除的集群 ID。(模板化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[来源]¶

cluster_id = None[来源]¶

yandex_conn_id = None[来源]¶

抽象 execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

类 airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[来源]¶

基类: DataprocBaseOperator

删除 Yandex.Cloud Data Proc 集群。

参数:

connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
cluster_id (str | None) – 要删除的集群 ID。(模板化)

execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

类 airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[来源]¶

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Hive 作业。

参数:

query (str | None) – Hive 查询。
query_file_uri (str | None) – 包含 Hive 查询的脚本的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 属性名称到值的映射，用于配置 Hive。
script_variables (dict[str, str] | None) – 查询变量名称到值的映射。
continue_on_failure (bool) – 如果查询失败是否继续执行查询。
name (str) – 作业名称。用于标记。
cluster_id (str | None) – 运行作业的集群 ID。如果指定，将尝试从 Dataproc Hook 对象获取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

query = None[来源]¶

query_file_uri = None[来源]¶

script_variables = None[来源]¶

continue_on_failure = False[来源]¶

properties = None[来源]¶

name = 'Hive 作业'[来源]¶

execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

类 airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[来源]¶

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Mapreduce 作业。

参数:

main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放在 HDFS 或 S3 中。可以替代 main_class 指定。
main_class (str | None) – 作业主类的名称。可以替代 main_jar_file_uri 指定。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业属性。
args (collections.abc.Iterable[str] | None) – 传递给作业的参数。
name (str) – 作业名称。用于标记。
cluster_id (str | None) – 运行作业的集群 ID。如果指定，将尝试从 Dataproc Hook 对象获取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

main_class = None[来源]¶

main_jar_file_uri = None[来源]¶

jar_file_uris = None[来源]¶

archive_uris = None[来源]¶

file_uris = None[来源]¶

args = None[来源]¶

properties = None[来源]¶

name = 'MapReduce 作业'[来源]¶

execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

类 airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[来源]¶

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Spark 作业。

参数:

main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放在 HDFS 或 S3 中。
main_class (str | None) – 作业主类的名称。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业属性。
args (collections.abc.Iterable[str] | None) – 传递给作业的参数。
name (str) – 作业名称。用于标记。
cluster_id (str | None) – 运行作业的集群 ID。如果指定，将尝试从 Dataproc Hook 对象获取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 类路径中的 jar 的 Maven 坐标列表。
repositories (collections.abc.Iterable[str] | None) – 搜索通过 –packages 给定的 Maven 坐标的其他远程仓库列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析通过 –packages 提供的依赖时要排除的 groupId:artifactId 列表，以避免依赖冲突。

main_class = None[来源]¶

main_jar_file_uri = None[来源]¶

jar_file_uris = None[来源]¶

archive_uris = None[来源]¶

file_uris = None[来源]¶

args = None[来源]¶

properties = None[来源]¶

name = 'Spark 作业'[来源]¶

packages = None[来源]¶

repositories = None[来源]¶

exclude_packages = None[来源]¶

execute(context)[来源]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]¶

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Pyspark 作业。

参数:

main_python_file_uri (str | None) – 作业的 Python 文件 URI。可以放置在 HDFS 或 S3 中。
python_file_uris (collections.abc.Iterable[str] | None) – 在作业中使用的 Python 文件 URI。可以放置在 HDFS 或 S3 中。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业属性。
args (collections.abc.Iterable[str] | None) – 传递给作业的参数。
name (str) – 作业名称。用于标记。
cluster_id (str | None) – 运行作业的集群 ID。如果指定，将尝试从 Dataproc Hook 对象获取 ID。(模板化)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 类路径中的 jar 的 Maven 坐标列表。
repositories (collections.abc.Iterable[str] | None) – 搜索通过 –packages 给定的 Maven 坐标的其他远程仓库列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析通过 –packages 提供的依赖时要排除的 groupId:artifactId 列表，以避免依赖冲突。

main_python_file_uri = None[source]¶

python_file_uris = None[source]¶

jar_file_uris = None[source]¶

archive_uris = None[source]¶

file_uris = None[source]¶

args = None[source]¶

properties = None[source]¶

name = 'Pyspark job'[source]¶

packages = None[source]¶

repositories = None[source]¶

exclude_packages = None[source]¶

execute(context)[source]¶

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。