Apache Spark 提交连接

Apache Spark 提交连接类型通过 spark-submit 命令实现与 Apache Spark 的连接。

默认连接 ID

Spark 提交和 Spark JDBC 钩子和运算符默认使用 spark_default

配置连接

主机(必需)

要连接到的主机,可以是 localyarn 或一个 URL。

端口(可选)

如果主机是 URL,请指定端口。

YARN 队列(可选,仅适用于 YARN 应用程序上的 Spark)

提交应用程序到的 YARN 队列的名称。

部署模式(可选)

是将驱动程序部署在工作节点(群集)上,还是作为外部客户端(客户端)部署在本地。

Spark 二进制文件(可选)

用于 Spark 提交的命令。某些发行版可能使用 spark2-submit。默认 spark-submit。仅允许 spark-submitspark2-submitspark3-submit 作为值。

Kubernetes 命名空间(可选,仅适用于 Kubernetes 应用程序上的 Spark)

Kubernetes 命名空间 (spark.kubernetes.namespace) 用于通过资源配额在多个用户之间划分集群资源。

在环境变量中指定连接时,您应使用 URI 语法指定它。

请注意,URI 的所有组件都应进行 URL 编码。URI 和 mongo 连接字符串并不相同。

例如

export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'

警告

确保您信任您的用户能够配置主机设置,因为它可能使连接能够与外部服务器建立通信。了解将连接指向恶意服务器可能会导致重大安全漏洞(包括遭遇远程代码执行 (RCE) 攻击的风险)至关重要。

此条目是否有用?