airflow.providers.google.cloud.hooks.dataproc_metastore
¶
该模块包含一个 Google Cloud Dataproc Metastore 钩子。
模块内容¶
类¶
用于 Google Cloud Dataproc Metastore API 的钩子。 |
- class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseHook
用于 Google Cloud Dataproc Metastore API 的钩子。
- create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在给定的项目和位置创建新的备份。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –
必需。要创建的备份。
name
字段将被忽略。创建的备份的 ID 必须在请求的backup_id
字段中提供。这对应于
request
实例上的backup
字段;如果提供了request
,则不应设置此字段。backup_id (str) –
必需。备份的 ID,用作备份名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的backup_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在给定的项目和位置创建新的 MetadataImport。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –
必需。要创建的元数据导入。
name
字段将被忽略。创建的元数据导入的 ID 必须在请求的metadata_import_id
字段中提供。这对应于
request
实例上的metadata_import
字段;如果提供了request
,则不应设置此字段。metadata_import_id (str) –
必需。元数据导入的 ID,用作元数据导入名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的metadata_import_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在项目和位置中创建一个元存储服务。
- 参数
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
service (dict | google.cloud.metastore_v1.types.Service) –
必需。要创建的 Metastore 服务。
name
字段将被忽略。必须在请求的service_id
字段中提供创建的 metastore 服务的 ID。这对应于
request
实例上的service
字段;如果提供了request
,则不应设置此字段。service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
删除单个备份。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_id (str) –
必需。备份的 ID,用作备份名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的backup_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
删除单个服务。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
从服务导出元数据。
- 参数
destination_gcs_folder (str) – Cloud Storage 文件夹的 URI,格式为
gs://<bucket_name>/<path_inside_bucket>
。将在其下方创建一个包含导出文件的子文件夹<export_folder>
。project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 可选。数据库转储的类型。如果未指定,则默认为
MYSQL
。retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
获取单个服务的详细信息。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
从服务获取备份。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_id (str) – 必需。要从中还原的 metastore 服务备份的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
列出服务中的备份。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。page_size (int | None) – 可选。要返回的最大备份数。响应可能包含小于最大数量的备份。如果未指定,则最多返回 500 个备份。最大值为 1000;大于 1000 的值将更改为 1000。
page_token (str | None) – 可选。从之前的 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 调用中收到的页面令牌。提供此令牌以检索后续页面。要检索第一页,请提供一个空页面令牌。分页时,提供给 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他参数必须与提供页面令牌的调用匹配。
filter (str | None) – 可选。要应用于列表结果的过滤器。
order_by (str | None) – 可选。指定结果的排序方式,如排序顺序中所述。如果未指定,则结果将按默认顺序排序。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
从备份恢复服务。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_project_id (str) – 必需。要从中恢复 Metastore 服务备份的 Google Cloud 项目 ID。
backup_region (str) – 必需。要从中恢复 Metastore 服务备份的 Google Cloud 区域 ID。
backup_service_id (str) – 必需。要从中恢复的 Metastore 服务备份的 ID,用作 Metastore 服务名称的最后一部分。此值必须为 2 到 63 个字符(含)长,以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
backup_id (str) – 必需。要从中还原的 metastore 服务备份的 ID。
restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 可选。恢复类型。如果未指定,则默认为
METADATA_ONLY
request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
更新单个服务的参数。
- 参数
project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
service_id (str) –
必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。service (dict | google.cloud.metastore_v1.types.Service) –
必需。要更新的 Metastore 服务。仅当服务中的字段在
update_mask
中指定时,服务器才会合并这些字段。Metastore 服务的
name
字段用于标识要更新的 Metastore 服务。这对应于
request
实例上的service
字段;如果提供了request
,则不应设置此字段。update_mask (google.protobuf.field_mask_pb2.FieldMask) –
必需。一个字段掩码,用于指定要通过更新覆盖 Metastore 服务资源中的哪些字段。
update_mask
中指定的字段相对于资源(而不是完整请求)。如果字段在掩码中,则会被覆盖。这对应于
request
实例上的update_mask
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。
- list_hive_partitions(project_id, service_id, region, table, partition_names=None)[source]¶
列出 Hive 分区。
- 参数
project_id (str) – 可选。dbt Cloud 项目的 ID。
service_id (str) – 必需。Dataproc Metastore 服务 ID。
region (str) – 必需。服务所属的 Google Cloud 区域的 ID。
table (str) – 必需。分区表的名称
partition_names (list[str] | None) – 可选。要等待的表分区列表。分区的名称应类似于“ds=1”,或者在多个分区的情况下类似于“a=1/b=2”。请注意,您不能像在 HivePartitionSensor 中那样使用逻辑或比较运算符。如果未指定,则传感器将等待至少一个分区,无论其名称如何。