airflow.providers.apache.hdfs.hooks.webhdfs
¶
用于 Web HDFS 的 Hook。
模块内容¶
类¶
与 HDFS 交互。这个类是对 hdfscli 库的封装。 |
属性¶
- 异常 airflow.providers.apache.hdfs.hooks.webhdfs.AirflowWebHDFSHookException[源代码]¶
基类:
airflow.exceptions.AirflowException
WebHDFS Hook 特定的异常。
- class airflow.providers.apache.hdfs.hooks.webhdfs.WebHDFSHook(webhdfs_conn_id=default_conn_name, proxy_user=None)[源代码]¶
基类:
airflow.hooks.base.BaseHook
与 HDFS 交互。这个类是对 hdfscli 库的封装。
- load_file(source, destination, overwrite=True, parallelism=1, **kwargs)[源代码]¶
上传文件到 HDFS。
- 参数
source (str) – 文件或文件夹的本地路径。如果是一个文件夹,它里面的所有文件将被上传。 .. note:: 这意味着不包含文件的空文件夹将不会在远程创建。
destination (str) – 目标 HDFS 路径。如果它已经存在并且是一个目录,文件将被上传到其中。
overwrite (bool) – 覆盖任何现有的文件或目录。
parallelism (int) – 用于并行化的线程数。值 0 (或负数) 使用与文件数量一样多的线程。
kwargs (任意) – 转发到
hdfs.client.Client.upload()
的关键字参数。