Apache Spark 提交连接¶
Apache Spark 提交连接类型允许通过 spark-submit
命令连接到 Apache Spark。
默认连接 ID¶
Spark 提交和 Spark JDBC 的钩子和操作符默认使用 spark_default
。
配置连接¶
- 主机 (必填)
要连接的主机,可以是
local
、yarn
或一个 URL。- 端口 (可选)
如果主机是 URL,请指定端口。
- YARN 队列 (可选,仅适用于 YARN 上的 Spark 应用程序)
应用程序提交到的 YARN 队列的名称。
- 部署模式 (可选)
是否在工作节点(集群)上部署驱动程序,还是作为外部客户端(客户端)在本地部署。
- Spark 二进制文件 (可选)
用于 Spark 提交的命令。某些发行版可能使用
spark2-submit
。默认值为spark-submit
。只允许使用spark-submit
、spark2-submit
或spark3-submit
作为值。- Kubernetes 命名空间 (可选,仅适用于 Kubernetes 上的 Spark 应用程序)
Kubernetes 命名空间 (
spark.kubernetes.namespace
) 用于在多个用户之间划分集群资源(通过资源配额)。
在环境变量中指定连接时,应使用 URI 语法指定。
请注意,URI 的所有组成部分都应进行 URL 编码。URI 和 mongo 连接字符串并不相同。
例如
export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'
警告
请确保您信任用户配置主机设置的能力,因为它可能允许连接与外部服务器建立通信。至关重要的是要理解,将连接指向恶意服务器可能会导致重大的安全漏洞,包括遭遇远程代码执行 (RCE) 攻击的风险。