airflow.providers.yandex.operators.dataproc

模块内容

InitializationAction

在 DataProc 集群启动时要运行的初始化操作的数据。

DataprocCreateClusterOperator

创建 Yandex.Cloud Data Proc 集群。

DataprocBaseOperator

用于处理给定集群的 DataProc 操作符的基类。

DataprocDeleteClusterOperator

删除 Yandex.Cloud Data Proc 集群。

DataprocCreateHiveJobOperator

在 Data Proc 集群中运行 Hive 作业。

DataprocCreateMapReduceJobOperator

在 Data Proc 集群中运行 Mapreduce 作业。

DataprocCreateSparkJobOperator

在 Data Proc 集群中运行 Spark 作业。

DataprocCreatePysparkJobOperator

在 Data Proc 集群中运行 Pyspark 作业。

class airflow.providers.yandex.operators.dataproc.InitializationAction[源代码]

在 DataProc 集群启动时要运行的初始化操作的数据。

uri: str[源代码]
args: collections.abc.Iterable[str][源代码]
timeout: int[源代码]
class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[源代码]

基类: airflow.models.BaseOperator

创建 Yandex.Cloud Data Proc 集群。

参数
  • folder_id (str | None) – 应在其中创建集群的文件夹的 ID。

  • cluster_name (str | None) – 集群名称。在文件夹内必须唯一。

  • cluster_description (str | None) – 集群描述。

  • cluster_image_version (str | None) – 集群镜像版本。使用默认值。

  • ssh_public_keys (str | collections.abc.Iterable[str] | None) – 将部署到创建的计算实例的 SSH 公钥列表。

  • subnet_id (str | None) – 子网的 ID。所有 Data Proc 集群节点将使用一个子网。

  • services (collections.abc.Iterable[str]) – 将要安装到集群的服务列表。 可选值包括:HDFS、YARN、MAPREDUCE、HIVE、TEZ、ZOOKEEPER、HBASE、SQOOP、FLUME、SPARK、SPARK、ZEPPELIN、OOZIE

  • s3_bucket (str | None) – 用于存储集群日志的 Yandex.Cloud S3 存储桶。如果未指定存储桶,作业将无法运行。

  • zone (str) – 创建集群的可用区。目前有 ru-central1-a、ru-central1-b 和 ru-central1-c。

  • service_account_id (str | None) – 集群的服务账号 ID。服务账号可以在文件夹内部创建。

  • masternode_resource_preset (str | None) – 集群主节点的资源预设(CPU+RAM 配置)。

  • masternode_disk_size (int | None) – 主节点存储大小,单位为 GiB。

  • masternode_disk_type (str | None) – 主节点存储类型。可选值包括:network-ssd、network-hdd。

  • datanode_resource_preset (str | None) – 集群数据节点的资源预设(CPU+RAM 配置)。

  • datanode_disk_size (int | None) – 数据节点存储大小,单位为 GiB。

  • datanode_disk_type (str | None) – 数据节点存储类型。可选值包括:network-ssd、network-hdd。

  • computenode_resource_preset (str | None) – 集群计算节点的资源预设(CPU+RAM 配置)。

  • computenode_disk_size (int | None) – 计算节点存储大小,单位为 GiB。

  • computenode_disk_type (str | None) – 计算节点存储类型。可选值包括:network-ssd、network-hdd。

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • computenode_max_count – 计算自动缩放子集群的最大节点数。

  • computenode_warmup_duration (int | None) – 实例的预热时间,单位为秒。在此期间,流量会发送到实例,但不会收集实例指标。单位为秒。

  • computenode_stabilization_duration (int | None) – 实例组在减少组内实例数量之前进行监控的最短时间,单位为秒。在此期间,即使新的指标值表明应该减少,组的大小也不会减少。单位为秒。

  • computenode_preemptible (bool) – 抢占式实例至少每 24 小时停止一次,如果计算资源需要,可以随时停止。

  • computenode_cpu_utilization_target (int | None) – 根据实例组的平均 CPU 利用率定义一个自动缩放规则。以百分比表示。10-100。默认情况下未设置,并且使用默认的自动缩放策略。

  • computenode_decommission_timeout (int | None) – 缩减期间优雅地停用节点的超时时间。单位为秒。

  • properties (dict[str, str] | None) – 传递给主节点软件的属性。文档:https://cloud.yandex.com/docs/data-proc/concepts/settings-list

  • enable_ui_proxy (bool) – 启用 UI 代理功能,用于转发 Hadoop 组件的 Web 界面。文档:https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy

  • host_group_ids (collections.abc.Iterable[str] | None) – 用于放置集群虚拟机的专用主机组。文档:https://cloud.yandex.com/docs/compute/concepts/dedicated-host

  • security_group_ids (collections.abc.Iterable[str] | None) – 用户安全组。文档:https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups

  • log_group_id (str | None) – 用于写入日志的日志组 ID。默认情况下,日志将发送到默认日志组。要禁用云日志发送,请设置集群属性 dataproc:disable_cloud_logging = true。文档:https://cloud.yandex.com/docs/data-proc/concepts/logs

  • initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 集群启动时要运行的初始化操作集。文档:https://cloud.yandex.com/docs/data-proc/concepts/init-action

  • labels (dict[str, str] | None) – 集群标签,以键值对形式表示。每个资源不超过 64 个。文档:https://cloud.yandex.com/docs/resource-manager/concepts/labels

property cluster_id[source]
execute(context)[source]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[source]

基类: airflow.models.BaseOperator

用于处理给定集群的 DataProc 操作符的基类。

参数
  • connection_id – Yandex.Cloud Airflow 连接的 ID。

  • cluster_id (str | None) – 要删除的集群的 ID。(已模板化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[source]
abstract execute(context)[source]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[源代码]

基类: DataprocBaseOperator

删除 Yandex.Cloud Data Proc 集群。

参数
  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • cluster_id (str | None) – 要删除的集群的 ID。(已模板化)

execute(context)[源代码]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[源代码]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Hive 作业。

参数
  • query (str | None) – Hive 查询。

  • query_file_uri (str | None) – 包含 Hive 查询的脚本的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 用于配置 Hive 的属性名称到值的映射。

  • script_variables (dict[str, str] | None) – 查询变量名称到值的映射。

  • continue_on_failure (bool) – 如果查询失败是否继续执行查询。

  • name (str) – 作业的名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

execute(context)[源代码]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[源代码]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Mapreduce 作业。

参数
  • main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放置在 HDFS 或 S3 中。可以指定代替 main_class。

  • main_class (str | None) – 作业的主类的名称。可以指定代替 main_jar_file_uri。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业的属性。

  • args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。

  • name (str) – 作业的名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

execute(context)[源代码]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[源代码]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Spark 作业。

参数
  • main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放置在 HDFS 或 S3 中。

  • main_class (str | None) – 作业主类的名称。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业的属性。

  • args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。

  • name (str) – 作业的名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在驱动程序和执行程序类路径中的 jar 包的 Maven 坐标列表。

  • repositories (collections.abc.Iterable[str] | None) – 用于搜索通过 --packages 提供的 Maven 坐标的其他远程仓库列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析 --packages 中提供的依赖项时要排除的 groupId:artifactId 列表,以避免依赖冲突。

execute(context)[源代码]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark 作业', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[源代码]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Pyspark 作业。

参数
  • main_python_file_uri (str | None) – 包含作业的 Python 文件 URI。 可以放在 HDFS 或 S3 中。

  • python_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 Python 文件 URI。 可以放在 HDFS 或 S3 中。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放置在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放置在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放置在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业的属性。

  • args (collections.abc.Iterable[str] | None) – 要传递给作业的参数。

  • name (str) – 作业的名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群的 ID。如果指定,将尝试从 Dataproc Hook 对象中获取 ID。(可使用 Jinja 模版)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在驱动程序和执行程序类路径中的 jar 包的 Maven 坐标列表。

  • repositories (collections.abc.Iterable[str] | None) – 用于搜索通过 --packages 提供的 Maven 坐标的其他远程仓库列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析 --packages 中提供的依赖项时要排除的 groupId:artifactId 列表,以避免依赖冲突。

execute(context)[源代码]

在创建运算符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?