Apache Spark 提交连接¶
Apache Spark 提交连接类型通过 spark-submit
命令实现与 Apache Spark 的连接。
默认连接 ID¶
Spark 提交和 Spark JDBC 钩子和运算符默认使用 spark_default
。
配置连接¶
- 主机(必需)
要连接到的主机,可以是
local
、yarn
或一个 URL。- 端口(可选)
如果主机是 URL,请指定端口。
- YARN 队列(可选,仅适用于 YARN 应用程序上的 Spark)
提交应用程序到的 YARN 队列的名称。
- 部署模式(可选)
是将驱动程序部署在工作节点(群集)上,还是作为外部客户端(客户端)部署在本地。
- Spark 二进制文件(可选)
用于 Spark 提交的命令。某些发行版可能使用
spark2-submit
。默认spark-submit
。仅允许spark-submit
、spark2-submit
或spark3-submit
作为值。- Kubernetes 命名空间(可选,仅适用于 Kubernetes 应用程序上的 Spark)
Kubernetes 命名空间 (
spark.kubernetes.namespace
) 用于通过资源配额在多个用户之间划分集群资源。
在环境变量中指定连接时,您应使用 URI 语法指定它。
请注意,URI 的所有组件都应进行 URL 编码。URI 和 mongo 连接字符串并不相同。
例如
export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'
警告
确保您信任您的用户能够配置主机设置,因为它可能使连接能够与外部服务器建立通信。了解将连接指向恶意服务器可能会导致重大安全漏洞(包括遭遇远程代码执行 (RCE) 攻击的风险)至关重要。