airflow.providers.yandex.operators.dataproc
¶
模块内容¶
类¶
在 DataProc 集群启动时要运行的初始化操作的数据。 |
|
创建 Yandex.Cloud Data Proc 集群。 |
|
用于处理给定集群的 DataProc 操作符的基类。 |
|
删除 Yandex.Cloud Data Proc 集群。 |
|
在 Data Proc 集群中运行 Hive 作业。 |
|
在 Data Proc 集群中运行 Mapreduce 作业。 |
|
在 Data Proc 集群中运行 Spark 作业。 |
|
在 Data Proc 集群中运行 Pyspark 作业。 |
- class airflow.providers.yandex.operators.dataproc.InitializationAction[源代码]¶
在 DataProc 集群启动时要运行的初始化操作的数据。
- class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[源代码]¶
基类:
airflow.models.BaseOperator
创建 Yandex.Cloud Data Proc 集群。
- 参数
folder_id (str | None) – 应在其中创建集群的文件夹的 ID。
cluster_name (str | None) – 集群名称。在文件夹内必须唯一。
cluster_description (str | None) – 集群描述。
cluster_image_version (str | None) – 集群镜像版本。使用默认值。
ssh_public_keys (str | collections.abc.Iterable[str] | None) – 将部署到创建的计算实例的 SSH 公钥列表。
subnet_id (str | None) – 子网的 ID。所有 Data Proc 集群节点将使用一个子网。
services (collections.abc.Iterable[str]) – 将要安装到集群的服务列表。 可选值包括:HDFS、YARN、MAPREDUCE、HIVE、TEZ、ZOOKEEPER、HBASE、SQOOP、FLUME、SPARK、SPARK、ZEPPELIN、OOZIE
s3_bucket (str | None) – 用于存储集群日志的 Yandex.Cloud S3 存储桶。如果未指定存储桶,作业将无法运行。
zone (str) – 创建集群的可用区。目前有 ru-central1-a、ru-central1-b 和 ru-central1-c。
service_account_id (str | None) – 集群的服务账号 ID。服务账号可以在文件夹内部创建。
masternode_resource_preset (str | None) – 集群主节点的资源预设(CPU+RAM 配置)。
masternode_disk_size (int | None) – 主节点存储大小,单位为 GiB。
masternode_disk_type (str | None) – 主节点存储类型。可选值包括:network-ssd、network-hdd。
datanode_resource_preset (str | None) – 集群数据节点的资源预设(CPU+RAM 配置)。
datanode_disk_size (int | None) – 数据节点存储大小,单位为 GiB。
datanode_disk_type (str | None) – 数据节点存储类型。可选值包括:network-ssd、network-hdd。
computenode_resource_preset (str | None) – 集群计算节点的资源预设(CPU+RAM 配置)。
computenode_disk_size (int | None) – 计算节点存储大小,单位为 GiB。
computenode_disk_type (str | None) – 计算节点存储类型。可选值包括:network-ssd、network-hdd。
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
computenode_max_count – 计算自动缩放子集群的最大节点数。
computenode_warmup_duration (int | None) – 实例的预热时间,单位为秒。在此期间,流量会发送到实例,但不会收集实例指标。单位为秒。
computenode_stabilization_duration (int | None) – 实例组在减少组内实例数量之前进行监控的最短时间,单位为秒。在此期间,即使新的指标值表明应该减少,组的大小也不会减少。单位为秒。
computenode_preemptible (bool) – 抢占式实例至少每 24 小时停止一次,如果计算资源需要,可以随时停止。
computenode_cpu_utilization_target (int | None) – 根据实例组的平均 CPU 利用率定义一个自动缩放规则。以百分比表示。10-100。默认情况下未设置,并且使用默认的自动缩放策略。
computenode_decommission_timeout (int | None) – 缩减期间优雅地停用节点的超时时间。单位为秒。
properties (dict[str, str] | None) – 传递给主节点软件的属性。文档:https://cloud.yandex.com/docs/data-proc/concepts/settings-list
enable_ui_proxy (bool) – 启用 UI 代理功能,用于转发 Hadoop 组件的 Web 界面。文档:https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy
host_group_ids (collections.abc.Iterable[str] | None) – 用于放置集群虚拟机的专用主机组。文档:https://cloud.yandex.com/docs/compute/concepts/dedicated-host
security_group_ids (collections.abc.Iterable[str] | None) – 用户安全组。文档:https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups
log_group_id (str | None) – 用于写入日志的日志组 ID。默认情况下,日志将发送到默认日志组。要禁用云日志发送,请设置集群属性 dataproc:disable_cloud_logging = true。文档:https://cloud.yandex.com/docs/data-proc/concepts/logs
initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 集群启动时要运行的初始化操作集。文档:https://cloud.yandex.com/docs/data-proc/concepts/init-action
labels (dict[str, str] | None) – 集群标签,以键值对形式表示。每个资源不超过 64 个。文档:https://cloud.yandex.com/docs/resource-manager/concepts/labels
- class airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[source]¶
基类:
airflow.models.BaseOperator
用于处理给定集群的 DataProc 操作符的基类。
- 参数
connection_id – Yandex.Cloud Airflow 连接的 ID。
cluster_id (str | None) – 要删除的集群的 ID。(已模板化)
- 类 airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[源代码]¶
-
删除 Yandex.Cloud Data Proc 集群。
- 参数
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
cluster_id (str | None) – 要删除的集群的 ID。(已模板化)
- 类 airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[源代码]¶
-
在 Data Proc 集群中运行 Hive 作业。
- 参数
query (str | None) – Hive 查询。
query_file_uri (str | None) – 包含 Hive 查询的脚本的 URI。可以放置在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 用于配置 Hive 的属性名称到值的映射。
script_variables (dict[str, str] | None) – 查询变量名称到值的映射。
continue_on_failure (bool) – 如果查询失败是否继续执行查询。
name (str) – 作业的名称。用于标记。
cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
- 类 airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[源代码]¶
-
在 Data Proc 集群中运行 Mapreduce 作业。
- 参数
main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放置在 HDFS 或 S3 中。可以指定代替 main_class。
main_class (str | None) – 作业的主类的名称。可以指定代替 main_jar_file_uri。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业的属性。
args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。
name (str) – 作业的名称。用于标记。
cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
- 类 airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[源代码]¶
-
在 Data Proc 集群中运行 Spark 作业。
- 参数
main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放置在 HDFS 或 S3 中。
main_class (str | None) – 作业主类的名称。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业的属性。
args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。
name (str) – 作业的名称。用于标记。
cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在驱动程序和执行程序类路径中的 jar 包的 Maven 坐标列表。
repositories (collections.abc.Iterable[str] | None) – 用于搜索通过 --packages 提供的 Maven 坐标的其他远程仓库列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析 --packages 中提供的依赖项时要排除的 groupId:artifactId 列表,以避免依赖冲突。
- class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark 作业', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[源代码]¶
-
在 Data Proc 集群中运行 Pyspark 作业。
- 参数
main_python_file_uri (str | None) – 包含作业的 Python 文件 URI。 可以放在 HDFS 或 S3 中。
python_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 Python 文件 URI。 可以放在 HDFS 或 S3 中。
file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。
archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。
jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。
properties (dict[str, str] | None) – 作业的属性。
args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。
name (str) – 作业的名称。用于标记。
cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)
connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。
packages (collections.abc.Iterable[str] | None) – 要包含在驱动程序和执行程序类路径中的 jar 包的 Maven 坐标列表。
repositories (collections.abc.Iterable[str] | None) – 用于搜索通过 --packages 提供的 Maven 坐标的其他远程仓库列表。
exclude_packages (collections.abc.Iterable[str] | None) – 在解析 --packages 中提供的依赖项时要排除的 groupId:artifactId 列表,以避免依赖冲突。