airflow.providers.google.cloud.hooks.vertex_ai.dataset

此模块包含一个 Google Cloud Vertex AI 钩子。

模块内容

DatasetHook

用于 Google Cloud Vertex AI Dataset API 的钩子。

class airflow.providers.google.cloud.hooks.vertex_ai.dataset.DatasetHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用于 Google Cloud Vertex AI Dataset API 的钩子。

get_dataset_service_client(region=None)[source]

返回 DatasetServiceClient。

wait_for_operation(operation, timeout=None)[source]

等待长时间运行的操作完成。

static extract_dataset_id(obj)[source]

返回数据集的唯一 ID。

create_dataset(project_id, region, dataset, retry=DEFAULT, timeout=None, metadata=())[source]

创建一个数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (google.cloud.aiplatform_v1.types.Dataset | dict) – 必需。要创建的数据集。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

delete_dataset(project_id, region, dataset, retry=DEFAULT, timeout=None, metadata=())[source]

删除一个数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。要删除的数据集的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

export_data(project_id, region, dataset, export_config, retry=DEFAULT, timeout=None, metadata=())[source]

从数据集中导出数据。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。要导出的数据集的 ID。

  • export_config (google.cloud.aiplatform_v1.types.ExportDataConfig | dict) – 必需。所需的输出位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_annotation_spec(project_id, region, dataset, annotation_spec, read_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]

获取 AnnotationSpec。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。数据集的 ID。

  • annotation_spec (str) – AnnotationSpec 资源的 ID。

  • read_mask (str | None) – 可选。指定要读取的字段的掩码。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_dataset(project_id, region, dataset, read_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]

获取一个数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。要导出的数据集的 ID。

  • read_mask (str | None) – 可选。指定要读取的字段的掩码。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

import_data(project_id, region, dataset, import_configs, retry=DEFAULT, timeout=None, metadata=())[源代码]

将数据导入数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。要导入的数据集的 ID。

  • import_configs (collections.abc.Sequence[google.cloud.aiplatform_v1.types.ImportDataConfig]) – 必需。所需的输入位置。所有输入位置的内容将一次性批量导入。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

list_annotations(project_id, region, dataset, data_item, filter=None, page_size=None, page_token=None, read_mask=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出属于数据项的注释。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。数据集的 ID。

  • data_item (str) – 必需。要从中列出注释的数据项的 ID。

  • filter (str | None) – 标准列表过滤器。

  • page_size (int | None) – 标准列表页面大小。

  • page_token (str | None) – 标准列表页面令牌。

  • read_mask (str | None) – 指定要读取的字段的掩码。

  • order_by (str | None) – 一个逗号分隔的字段列表,用于按升序排序。在字段名称后使用 “desc” 进行降序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

list_data_items(project_id, region, dataset, filter=None, page_size=None, page_token=None, read_mask=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出数据集中的 DataItems。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset (str) – 必需。数据集的 ID。

  • filter (str | None) – 标准列表过滤器。

  • page_size (int | None) – 标准列表页面大小。

  • page_token (str | None) – 标准列表页面令牌。

  • read_mask (str | None) – 指定要读取的字段的掩码。

  • order_by (str | None) – 一个逗号分隔的字段列表,用于按升序排序。在字段名称后使用 “desc” 进行降序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

list_datasets(project_id, region, filter=None, page_size=None, page_token=None, read_mask=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出某个位置中的数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • filter (str | None) – 标准列表过滤器。

  • page_size (int | None) – 标准列表页面大小。

  • page_token (str | None) – 标准列表页面令牌。

  • read_mask (str | None) – 指定要读取的字段的掩码。

  • order_by (str | None) – 一个逗号分隔的字段列表,用于按升序排序。在字段名称后使用 “desc” 进行降序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

update_dataset(project_id, region, dataset_id, dataset, update_mask, retry=DEFAULT, timeout=None, metadata=())[源代码]

更新数据集。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • dataset_id (str) – 必需。数据集的 ID。

  • dataset (google.cloud.aiplatform_v1.types.Dataset | dict) – 必需。替换服务器上资源的 Dataset。

  • update_mask (google.protobuf.field_mask_pb2.FieldMask | dict) – 必需。更新掩码应用于资源。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应该重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

此条目是否有帮助?