Apache Spark 提交连接

Apache Spark 提交连接类型允许通过 spark-submit 命令连接到 Apache Spark。

默认连接 ID

Spark 提交和 Spark JDBC 的钩子和操作符默认使用 spark_default

配置连接

主机 (必填)

要连接的主机,可以是 localyarn 或一个 URL。

端口 (可选)

如果主机是 URL,请指定端口。

YARN 队列 (可选,仅适用于 YARN 上的 Spark 应用程序)

应用程序提交到的 YARN 队列的名称。

部署模式 (可选)

是否在工作节点(集群)上部署驱动程序,还是作为外部客户端(客户端)在本地部署。

Spark 二进制文件 (可选)

用于 Spark 提交的命令。某些发行版可能使用 spark2-submit。默认值为 spark-submit。只允许使用 spark-submitspark2-submitspark3-submit 作为值。

Kubernetes 命名空间 (可选,仅适用于 Kubernetes 上的 Spark 应用程序)

Kubernetes 命名空间 (spark.kubernetes.namespace) 用于在多个用户之间划分集群资源(通过资源配额)。

在环境变量中指定连接时,应使用 URI 语法指定。

请注意,URI 的所有组成部分都应进行 URL 编码。URI 和 mongo 连接字符串并不相同。

例如

export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'

警告

请确保您信任用户配置主机设置的能力,因为它可能允许连接与外部服务器建立通信。至关重要的是要理解,将连接指向恶意服务器可能会导致重大的安全漏洞,包括遭遇远程代码执行 (RCE) 攻击的风险。

此条目是否有帮助?