airflow.providers.google.cloud.hooks.dataform

模块内容

DataformHook

用于 Google Cloud DataForm API 的钩子。

class airflow.providers.google.cloud.hooks.dataform.DataformHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用于 Google Cloud DataForm API 的钩子。

get_dataform_client()[源代码]

检索允许访问 Cloud Dataform 服务的客户端库对象。

wait_for_workflow_invocation(workflow_invocation_id, repository_id, project_id, region, wait_time=10, timeout=None)[源代码]

轮询作业以检查其是否完成。

参数
  • workflow_invocation_id (str) – 工作流调用 ID

  • repository_id (str) – Dataform 存储库的 ID

  • project_id (str) – 必需。集群所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。用于处理请求的 Cloud Dataproc 区域。

  • wait_time (int) – 检查之间的秒数

  • timeout (int | None) – 等待作业准备就绪的秒数。仅当 asynchronous 为 False 时使用

create_compilation_result(project_id, region, repository_id, compilation_result, retry=DEFAULT, timeout=None, metadata=())[源代码]

在给定的项目和位置中创建新的 CompilationResult。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • compilation_result (google.cloud.dataform_v1beta1.types.CompilationResult | dict) – 必需。要创建的编译结果。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_compilation_result(project_id, region, repository_id, compilation_result_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

获取单个 CompilationResult。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • compilation_result_id (str) – Dataform 编译结果的 ID

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

create_workflow_invocation(project_id, region, repository_id, workflow_invocation, retry=DEFAULT, timeout=None, metadata=())[源代码]

在给定的存储库中创建新的 WorkflowInvocation。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • workflow_invocation (google.cloud.dataform_v1beta1.types.WorkflowInvocation | dict) – 必需。要创建的工作流调用资源。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_workflow_invocation(project_id, region, repository_id, workflow_invocation_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

获取单个 WorkflowInvocation。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • workflow_invocation_id (str) – 必需。工作流调用资源的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

query_workflow_invocation_actions(project_id, region, repository_id, workflow_invocation_id, retry=DEFAULT, timeout=None, metadata=())[source]

获取 WorkflowInvocation 操作。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • workflow_invocation_id (str) – 必需。工作流调用资源的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

cancel_workflow_invocation(project_id, region, repository_id, workflow_invocation_id, retry=DEFAULT, timeout=None, metadata=())[source]

请求取消正在运行的 WorkflowInvocation。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。任务所属的 Dataform 存储库的 ID。

  • workflow_invocation_id (str) – 必需。工作流调用资源的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

create_repository(*, project_id, region, repository_id, retry=DEFAULT, timeout=None, metadata=())[source]

创建存储库。

参数
  • project_id (str) – 必需。应存储库所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。应存储库所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。新的 Dataform 存储库的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

delete_repository(*, project_id, region, repository_id, force=True, retry=DEFAULT, timeout=None, metadata=())[source]

删除存储库。

参数
  • project_id (str) – 必需。存储库所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。存储库所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。应删除的 Dataform 存储库的 ID。

  • force (bool) – 如果设置为 true,则此存储库的任何子资源也将被删除。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

create_workspace(*, project_id, region, repository_id, workspace_id, retry=DEFAULT, timeout=None, metadata=())[source]

创建工作区。

参数
  • project_id (str) – 必需。应工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。应工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。应工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。新的 Dataform 工作区的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

delete_workspace(*, project_id, region, repository_id, workspace_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除工作区。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。应删除的 Dataform 工作区的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

write_file(*, project_id, region, repository_id, workspace_id, filepath, contents, retry=DEFAULT, timeout=None, metadata=())[source]

向指定工作区写入新文件。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。应创建文件的 Dataform 工作区的 ID。

  • filepath (str) – 必需。文件路径,包括相对于工作区根目录的文件名称。

  • contents (bytes) – 必需。要写入的文件的内容。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

make_directory(*, project_id, region, repository_id, workspace_id, path, retry=DEFAULT, timeout=None, metadata=())[source]

在指定的工作区中创建新目录。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。应在其中创建目录的 Dataform 工作区的 ID。

  • path (str) – 必需。目录的完整路径,包括新目录名称,相对于工作区根目录。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

remove_directory(*, project_id, region, repository_id, workspace_id, path, retry=DEFAULT, timeout=None, metadata=())[source]

删除指定工作区中的目录。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。目录所在的 Dataform 工作区的 ID。

  • path (str) – 必需。目录的完整路径,包括目录名称,相对于工作区根目录。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

remove_file(*, project_id, region, repository_id, workspace_id, filepath, retry=DEFAULT, timeout=None, metadata=())[source]

删除指定工作区中的文件。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。目录所在的 Dataform 工作区的 ID。

  • filepath (str) – 必需。文件的完整路径,包括文件名,相对于工作区根目录。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

install_npm_packages(*, project_id, region, repository_id, workspace_id, retry=DEFAULT, timeout=None, metadata=())[source]

在提供的工作区中安装 NPM 依赖项。

需要在工作区中创建 “package.json” 文件。

参数
  • project_id (str) – 必需。工作区所在的 Google Cloud 项目的 ID。

  • region (str) – 必需。工作区所在的 Google Cloud 区域的 ID。

  • repository_id (str) – 必需。工作区所在的 Dataform 存储库的 ID。

  • workspace_id (str) – 必需。Dataform 工作区的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指示应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

此条目是否有帮助?