airflow.providers.databricks.operators.databricks_repos

此模块包含 Databricks 操作符。

模块内容

DatabricksReposCreateOperator

使用 POST api/2.0/repos API 端点创建并选择性地检出一个 Databricks Repo。

DatabricksReposUpdateOperator

使用 PATCH api/2.0/repos API 端点将指定的仓库更新到给定的分支或标签。

DatabricksReposDeleteOperator

使用 DELETE api/2.0/repos API 端点删除指定的仓库。

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposCreateOperator(*, git_url, git_provider=None, branch=None, tag=None, repo_path=None, ignore_existing_repo=False, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[源]

基类: airflow.models.BaseOperator

使用 POST api/2.0/repos API 端点创建并选择性地检出一个 Databricks Repo。

参数
  • git_url (str) – Git 仓库的必需 HTTPS URL

  • git_provider (str | None) – Git 提供商的可选名称。 如果我们无法从 URL 推断其名称,则必须提供此项。

  • repo_path (str | None) – 仓库的可选路径。 格式必须为 /Repos/{folder}/{repo-name}。 如果未指定,则将在用户的目录中创建。

  • branch (str | None) – 要检出的分支的可选名称。

  • tag (str | None) – 要检出的标签的可选名称。

  • ignore_existing_repo (bool) – 如果具有给定路径的仓库已存在,则不抛出异常。

  • databricks_conn_id (str) – 对Databricks 连接的引用。默认情况下,在常见情况下,这将是 databricks_default。 要使用基于令牌的身份验证,请在连接的额外字段中提供键 token,并创建键 host 并将 host 字段留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端无法访问,则重试的次数。 其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间等待的秒数(它可能是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[源]
__git_providers__[源]
__aws_code_commit_regexp__[源]
__repos_path_regexp__[源]
static __detect_repo_provider__(url)[源]
execute(context)[源]

创建 Databricks Repo。

参数

context (airflow.utils.context.Context) – 上下文

返回

Repo ID

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposUpdateOperator(*, branch=None, tag=None, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[源]

基类: airflow.models.BaseOperator

使用 PATCH api/2.0/repos API 端点将指定的仓库更新到给定的分支或标签。

请参阅: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/update-repo

参数
  • branch (str | None) – 要更新到的分支的可选名称。 如果省略 tag,则应指定此项

  • tag (str | None) – 要更新到的标签的可选名称。 如果省略 branch,则应指定此项

  • repo_id (str | None) – 可选的现有仓库 ID。如果省略 repo_path,则应指定此项

  • repo_path (str | None) – 可选的现有仓库路径。如果省略 repo_id,则应指定此项

  • databricks_conn_id (str) – 对Databricks 连接的引用。默认情况下,在常见情况下,这将是 databricks_default。 要使用基于令牌的身份验证,请在连接的额外字段中提供键 token,并创建键 host 并将 host 字段留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端无法访问,则重试的次数。 其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间等待的秒数(它可能是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposDeleteOperator(*, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[源代码]

基类: airflow.models.BaseOperator

使用 DELETE api/2.0/repos API 端点删除指定的仓库。

请参阅: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/delete-repo

参数
  • repo_id (str | None) – 可选的现有仓库 ID。如果省略 repo_path,则应指定此项

  • repo_path (str | None) – 可选的现有仓库路径。如果省略 repo_id,则应指定此项

  • databricks_conn_id (str) – 对Databricks 连接的引用。默认情况下,在常见情况下,这将是 databricks_default。 要使用基于令牌的身份验证,请在连接的额外字段中提供键 token,并创建键 host 并将 host 字段留空。(已模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端无法访问,则重试的次数。 其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间等待的秒数(它可能是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'databricks_conn_id')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 Jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?