airflow.providers.google.cloud.hooks.dataprep

此模块包含 Google Dataprep 钩子。

模块内容

JobGroupStatuses

作业组运行状态的类型。

GoogleDataprepHook

用于连接 Dataprep API 的钩子。

class airflow.providers.google.cloud.hooks.dataprep.JobGroupStatuses[source]

基类:strenum.Enum

作业组运行状态的类型。

CREATED = 'Created'[source]
UNDEFINED = 'undefined'[source]
IN_PROGRESS = 'InProgress'[source]
COMPLETE = 'Complete'[source]
FAILED = 'Failed'[source]
CANCELED = 'Canceled'[source]
class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]

基类:airflow.hooks.base.BaseHook

用于连接 Dataprep API 的钩子。

要使用 Airflow 连接 Dataprep,您需要 Dataprep 令牌。

https://clouddataprep.com/documentation/api#section/Authentication

它应该以 JSON 格式添加到 Airflow 中的连接中。

conn_name_attr = 'dataprep_conn_id'[source]
default_conn_name = 'google_cloud_dataprep_default'[source]
conn_type = 'dataprep'[source]
hook_name = 'Google Dataprep'[source]
get_jobs_for_job_group(job_id)[source]

获取有关 Cloud Dataprep 作业中的批处理作业的信息。

参数

job_id (int) – 将要获取的作业的 ID

get_job_group(job_group_id, embed, include_deleted)[source]

获取指定的作业组。

作业组是从流程中特定节点执行的作业。

参数
  • job_group_id (int) – 将要获取的作业的 ID

  • embed (str) – 作为响应的一部分拉入的对象的逗号分隔列表

  • include_deleted (bool) – 如果设置为“true”,将包括已删除的对象

run_job_group(body_request)[source]

创建一个 jobGroup,它以经过身份验证的用户身份启动指定的作业。

这执行与在应用程序中单击“运行作业”按钮相同的操作。

要获取 recipe_id,请遵循 Dataprep API 文档 https://clouddataprep.com/documentation/api#operation/runJobGroup

参数

body_request (dict) – 您想要运行的配方的标识符。

create_flow(*, body_request)[源代码]

创建流程。

参数

body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createFlow

copy_flow(*, flow_id, name='', description='', copy_datasources=False)[源代码]

创建提供的流程 ID 的副本,以及所有包含的配方。

参数
  • flow_id (int) – 要复制的流程的 ID

  • name (str) – 流程副本的名称

  • description (str) – 流程副本的描述

  • copy_datasources (bool) – 用于定义是否应制作数据输入副本的布尔值。

delete_flow(*, flow_id)[源代码]

删除具有提供 ID 的流程。

参数

flow_id (int) – 要复制的流程的 ID

run_flow(*, flow_id, body_request)[源代码]

运行具有提供的 ID 的流程,即提供的流程 ID 的副本。

参数
  • flow_id (int) – 要复制的流程的 ID

  • body_request (dict) – 要发送的 POST 请求的主体。

get_job_group_status(*, job_group_id)[源代码]

检查 Dataprep 任务是否已完成。

参数

job_group_id (int) – 要检查的作业组的 ID

create_imported_dataset(*, body_request)[源代码]

创建导入的数据集。

参数

body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createImportedDataset

create_wrangled_dataset(*, body_request)[源代码]

创建整理的数据集。

参数

body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createWrangledDataset

create_output_object(*, body_request)[源代码]

创建输出。

参数

body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createOutputObject

create_write_settings(*, body_request)[源代码]

创建写入设置。

参数

body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#tag/createWriteSetting

delete_imported_dataset(*, dataset_id)[源代码]

删除导入的数据集。

参数

dataset_id (int) – 要删除的导入数据集的 ID。

此条目是否有帮助?