apache-airflow-providers-google
更新日志¶
12.0.0¶
注意
如 Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.9+。
重大更改¶
警告
已从 Google 提供程序包中删除已弃用的类、参数和功能。引入了以下重大更改
操作符
删除了
CreateDataPipelineOperator
。请改用DataflowCreatePipelineOperator
删除了
RunDataPipelineOperator
。请改用DataflowRunPipelineOperator
删除了
CreateDataPipelineOperator
。请改用DataflowCreatePipelineOperator
删除了
RunDataPipelineOperator
。请改用DataflowRunPipelineOperator
钩子
删除了
DataPipelineHook
。请改用DataflowHook
删除了
DataPipelineHook
。请改用 DataflowHook
Google 提供程序 删除 已弃用 的 到达 删除 日期 (2024 年 12 月) (#45084)
功能¶
添加 Google Vertex AI 功能 存储 - 功能 视图 同步 操作符, 传感器 (#44891)
引入 gcp 翻译(V3), 翻译 文档 提供程序 (#44971)
引入 翻译 API v3 (高级) 模型 操作符。 (#44627)
支持 Dataproc SQL 作业 中的 多个 SQL 查询 (#44890)
feat: 为 BigQuery 创建 表 操作符 添加 OpenLineage 支持 (#44783)
feat: 为 S3ToGCSOperator 添加 OpenLineage 支持 (#44426)
feat: 自动 将 OL 信息 注入 DataprocSubmitJobOperator 中的 spark 作业 (#44477)
实现 AlloyDB 操作符: 创建/更新/删除 集群 (#45027)
错误修复¶
修复 由于重复别名而导致 MetastoreHivePartitionSensor 失败 (#45001)
修复 InsertBigQueryOperator 的 OpenLineage 发射 失败 (#44650)
BigQueryInsertJobOperator: 记录 瞬时 错误,并在将任务标记为成功之前 检查 作业 状态 (#44279)
使 'CloudBatchSubmitJobOperator' 在作业失败时 失败 (#44425)
其他¶
删除 对 AIRFLOW_V_2_9_PLUS 的 引用 (#44987)
在 提供程序中 检查 Airflow 版本 的一致 方式 (#44686)
修复 yoda-conditions (#44466)
feat: 为 gcs 和 本地之间的 传输 操作符 添加 OpenLineage 支持 (#44417)
将 提供程序中 的 最低 Airflow 版本 提升到 Airflow 2.9.0 (#44956)
chore: 从 OpenLineage 工具中 删除 已弃用的 bigquery 方面 (#44838)
实现 KubernetesInstallKueueOperator (#44568)
修复 dataform 操作符 的 文档 (#44729)
弃用 VertexAI PaLM 文本 生成模型 (#44719)
在 文档中 显示 关于弃用的 醒目警告 (#44479)
chore: 统一处理 gcs 路径 (#44410)
11.0.0¶
重大更改¶
警告
已从 Google 提供程序包中删除已弃用的类、参数和功能。引入了以下重大更改
操作符
删除了
CreateAutoMLTextTrainingJobOperator
。请改用SupervisedFineTuningTrainOperator
删除了
BigQueryExecuteQueryOperator
。请改用BigQueryInsertJobOperator
删除了
BigQueryPatchDatasetOperator
。请改用BigQueryUpdateDatasetOperator
删除了
DataflowCreateJavaJobOperator
。请改用BeamRunJavaPipelineOperator
删除了
DataflowCreatePythonJobOperator
。请改用BeamRunPythonPipelineOperator
删除了
DataprocSubmitPigJobOperator
。请改用DataprocSubmitJobOperator
删除了
DataprocSubmitHiveJobOperator
。请改用DataprocSubmitJobOperator
删除了
DataprocSubmitSparkSqlJobOperator
。请改用DataprocSubmitJobOperator
删除了
DataprocSubmitSparkJobOperator
。请改用DataprocSubmitJobOperator
删除了
DataprocSubmitHadoopJobOperator
。请改用DataprocSubmitJobOperator
删除了
DataprocSubmitPySparkJobOperator
。请改用DataprocSubmitJobOperator
删除了
GoogleAnalyticsListAccountsOperator
。请改用GoogleAnalyticsAdminListAccountsOperator
删除了
GoogleAnalyticsGetAdsLinkOperator
。请改用GoogleAnalyticsAdminGetGoogleAdsLinkOperator
删除了
GoogleAnalyticsRetrieveAdsLinksListOperator
。请改用GoogleAnalyticsAdminListGoogleAdsLinksOperator
删除了
GoogleAnalyticsDataImportUploadOperator
。请改用GoogleAnalyticsAdminCreateDataStreamOperator
删除了
GoogleAnalyticsDeletePreviousDataUploadsOperator
。请改用GoogleAnalyticsAdminDeleteDataStreamOperator
删除了
GoogleAnalyticsModifyFileHeadersDataImportOperator
。由于 Google Analytics API v3 已停止使用,该类不再实际使用,因此所涵盖的用例不再相关删除了
GoogleCampaignManagerDeleteReportOperator.delegate_to
。请改用GoogleCampaignManagerDeleteReportOperator.impersonation_chain
删除了
GoogleCampaignManagerDownloadReportOperator.delegate_to
。请改用GoogleCampaignManagerDownloadReportOperator.impersonation_chain
删除了
GoogleCampaignManagerInsertReportOperator.delegate_to
。请改用GoogleCampaignManagerInsertReportOperator.impersonation_chain
删除了
GoogleCampaignManagerRunReportOperator.delegate_to
。请改用GoogleCampaignManagerRunReportOperator.impersonation_chain
删除了
GoogleCampaignManagerBatchInsertConversionsOperator.delegate_to
。请改用GoogleCampaignManagerBatchInsertConversionsOperator.impersonation_chain
删除了
GoogleCampaignManagerBatchUpdateConversionsOperator.delegate_to
。请改用GoogleCampaignManagerBatchUpdateConversionsOperator.impersonation_chain
删除了
GoogleDisplayVideo360CreateQueryOperator.delegate_to
。请改用GoogleDisplayVideo360CreateQueryOperator.impersonation_chain
移除了
GoogleDisplayVideo360DeleteReportOperator.delegate_to
。请改用GoogleDisplayVideo360DeleteReportOperator.impersonation_chain
。移除了
GoogleDisplayVideo360DownloadReportV2Operator.delegate_to
。请改用GoogleDisplayVideo360DownloadReportV2Operator.impersonation_chain
。移除了
GoogleDisplayVideo360RunQueryOperator.delegate_to
。请改用GoogleDisplayVideo360RunQueryOperator.impersonation_chain
。移除了
GoogleDisplayVideo360DownloadLineItemsOperator.delegate_to
。请改用GoogleDisplayVideo360DownloadLineItemsOperator.impersonation_chain
。移除了
GoogleDisplayVideo360UploadLineItemsOperator.delegate_to
。请改用GoogleDisplayVideo360UploadLineItemsOperator.impersonation_chain
。移除了
GoogleDisplayVideo360CreateSDFDownloadTaskOperator.delegate_to
。请改用GoogleDisplayVideo360CreateSDFDownloadTaskOperator.impersonation_chain
。移除了
GoogleDisplayVideo360SDFtoGCSOperator.delegate_to
。请改用GoogleDisplayVideo360SDFtoGCSOperator.impersonation_chain
。移除了
GoogleSheetsCreateSpreadsheetOperator.delegate_to
。请改用GoogleSheetsCreateSpreadsheetOperator.impersonation_chain
。移除了
GCSToGoogleDriveOperator.delegate_to
。请改用GCSToGoogleDriveOperator.impersonation_chain
。移除了
GCSToGoogleSheetsOperator.delegate_to
。请改用GCSToGoogleSheetsOperator.impersonation_chain
。移除了
LocalFilesystemToGoogleDriveOperator.delegate_to
。请改用LocalFilesystemToGoogleDriveOperator.impersonation_chain
。移除了
SQLToGoogleSheetsOperator.delegate_to
。请改用SQLToGoogleSheetsOperator.impersonation_chain
。移除了
CreateBatchPredictionJobOperator.sync
。此参数实际上未使用。移除了
CreateHyperparameterTuningJobOperator.sync
。此参数实际上未使用。移除了
CustomTrainingJobBaseOperator.sync
。此参数实际上未使用。移除了
GKEStartPodOperator.get_gke_config_file()
。请改用GKEStartPodOperator.fetch_cluster_info()
。
触发器
移除了
GCSCheckBlobUpdateTimeTrigger.hook_params
参数中对delegate_to
字段的支持。
传感器
移除了
BigQueryTableExistenceAsyncSensor
。请改用BigQueryTableExistenceSensor
并将 deferrable 属性设置为 True。移除了
BigQueryTableExistencePartitionAsyncSensor
。请改用BigQueryTablePartitionExistenceSensor
并将 deferrable 属性设置为 True。移除了
CloudComposerEnvironmentSensor
。请改用CloudComposerCreateEnvironmentOperator
、CloudComposerUpdateEnvironmentOperator
或CloudComposerDeleteEnvironmentOperator
。移除了
GCSObjectExistenceAsyncSensor
。请改用GCSObjectExistenceSensor
并将 deferrable 属性设置为 True。移除了
GoogleCampaignManagerReportSensor.delegate_to
。请改用GoogleCampaignManagerReportSensor.impersonation_chain
。移除了
GoogleDisplayVideo360GetSDFDownloadOperationSensor.delegate_to
。请改用GoogleDisplayVideo360GetSDFDownloadOperationSensor.impersonation_chain
。移除了
GoogleDisplayVideo360RunQuerySensor.delegate_to
。请改用GoogleDisplayVideo360RunQuerySensor.impersonation_chain
。移除了
GoogleDriveFileExistenceSensor.delegate_to
。请改用GoogleDriveFileExistenceSensor.impersonation_chain
。
链接
移除了
BigQueryConsoleIndexableLink
。此属性实际上不再使用。移除了
BigQueryConsoleLink
。此属性实际上不再使用。
钩子
移除了
GKEDeploymentHook
。请改用GKEKubernetesHook
。移除了
GKECustomResourceHook
。请改用GKEKubernetesHook
。移除了
GKEPodHook
。请改用GKEKubernetesHook
。移除了
GKEJobHook
。请改用GKEKubernetesHook
。移除了
GKEPodAsyncHook
。请改用GKEKubernetesAsyncHook
。移除了
SecretsManagerHook
。请改用GoogleCloudSecretManagerHook
。移除了
GoogleAnalyticsHook
。由于 Google Analytics API v3 已停止服务,此类实际上不再使用。移除了
GoogleBaseHook.delegate_to
。请使用GoogleBaseHook.impersonation_chain
。请注意,delegate_to
参数以前在所有 Google hook 中继承,现在已在 Google 提供程序中全部移除支持。移除了
GoogleDiscoveryApiHook.delegate_to
。请改用GoogleDiscoveryApiHook.impersonation_chain
。移除了
GoogleCampaignManagerHook.delegate_to
。请改用GoogleCampaignManagerHook.impersonation_chain
。移除了
GoogleDisplayVideo360Hook.delegate_to
。请改用GoogleDisplayVideo360Hook.impersonation_chain
。移除了
GoogleSearchAdsHook.delegate_to
。请改用GoogleSearchAdsHook.impersonation_chain
。移除了
GoogleCalendarHook.delegate_to
。请改用GoogleCalendarHook.impersonation_chain
。移除了
GoogleDriveHook.delegate_to
。请改用GoogleDriveHook.impersonation_chain
。移除了
GSheetsHook.delegate_to
。请改用GSheetsHook.impersonation_chain
。移除了
BigQueryHook.credentials_path
。此属性实际上不再使用。移除了
GKEHook.get_conn()
。请改用GKEHook.get_cluster_manager_client()
。移除了
GKEHook.get_client()
。请改用GKEHook.get_cluster_manager_client()
。移除了
BigQueryHook.patch_table()
。请改用BigQueryHook.update_table()
。移除了
BigQueryHook.patch_dataset()
。请改用BigQueryHook.update_dataset()
。移除了
BigQueryHook.get_dataset_tables_list()
。请改用BigQueryHook.get_dataset_tables()
。移除了
BigQueryHook.run_table_delete()
。请改用BigQueryHook.delete_table()
。移除了
BigQueryHook.get_tabledata()
。请改用BigQueryHook.list_rows()
。移除了
BigQueryHook.cancel_query()
。请改用BigQueryHook.cancel_job()
。移除了
BigQueryHook.run_with_configuration()
。请改用BigQueryHook.insert_job()
。移除了
BigQueryHook.run_load()
。请改用BigQueryHook.insert_job()
。移除了
BigQueryHook.run_copy()
。请改用BigQueryHook.insert_job()
。移除了
BigQueryHook.run_extract()
。请改用BigQueryHook.insert_job()
。移除了
BigQueryHook.run_query()
。请改用BigQueryHook.insert_job()
。移除了
BigQueryHook.create_external_table()
。请改用BigQueryHook.create_empty_table()
。移除了
BigQueryHook.get_service()
。请改用BigQueryHook.get_client()
。
后端
移除了
CloudSecretManagerBackend.get_conn_uri()
。请改用CloudSecretManagerBackend.get_conn_value()
。
其他弃用
移除了
BigQueryBaseCursor.create_empty_table()
。请改用BigQueryHook.create_empty_table()
。移除了
BigQueryBaseCursor.create_empty_dataset()
。请改用BigQueryHook.create_empty_dataset()
。移除了
BigQueryBaseCursor.get_dataset_tables()
。请改用BigQueryHook.get_dataset_tables()
。移除了
BigQueryBaseCursor.delete_dataset()
。请改用BigQueryHook.delete_dataset()
。移除了
BigQueryBaseCursor.create_external_table()
。请改用BigQueryHook.create_empty_table()
。已移除
BigQueryBaseCursor.patch_table()
。请改用BigQueryHook.update_table()
已移除
BigQueryBaseCursor.insert_all()
。请改用BigQueryHook.insert_all()
已移除
BigQueryBaseCursor.update_dataset()
。请改用BigQueryHook.update_dataset()
已移除
BigQueryBaseCursor.patch_dataset()
。请改用BigQueryHook.update_dataset()
已移除
BigQueryBaseCursor.get_dataset_tables_list()
。请改用BigQueryHook.get_dataset_tables()
已移除
BigQueryBaseCursor.get_datasets_list()
。请改用BigQueryHook.get_datasets_list()
已移除
BigQueryBaseCursor.get_dataset()
。请改用BigQueryHook.get_dataset()
已移除
BigQueryBaseCursor.run_grant_dataset_view_access()
。请改用BigQueryHook.run_grant_dataset_view_access()
已移除
BigQueryBaseCursor.run_table_upsert()
。请改用BigQueryHook.run_table_upsert()
已移除
BigQueryBaseCursor.run_table_delete()
。请改用BigQueryHook.delete_table()
已移除
BigQueryBaseCursor.get_tabledata()
。请改用BigQueryHook.list_rows()
已移除
BigQueryBaseCursor.get_schema()
。请改用BigQueryHook.get_schema()
已移除
BigQueryBaseCursor.poll_job_complete()
。请改用BigQueryHook.poll_job_complete()
已移除
BigQueryBaseCursor.cancel_query()
。请改用BigQueryHook.cancel_job()
已移除
BigQueryBaseCursor.run_with_configuration()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_load()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_copy()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_extract()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_query()
。请改用BigQueryHook.insert_job()
从 Google 提供程序中删除已弃用的功能 (#43953)
功能¶
feat: 为 BigQueryToBigQueryOperator 添加 OpenLineage 支持 (#44214)
引入 gcp 高级 API (V3),转换原生数据集运算符 (#44271)
引入新的 gcp TranslateText 和 TranslateTextBatch 运算符 (#43860)
向 DataprocCreateClusterOperator 添加 gcloud 命令,使其能够在 GKE 集群上创建 dataproc (#44185)
Bug 修复¶
修复“BigQueryAsyncHook.create_job_for_partition_get”中不正确的查询。 (#44225)
修复 Dataplex 数据质量的部分更新 (#44262)
其他¶
将 'google-cloud-translate' 升级到 '3.16' (#44297)
将 'google-cloud-datacatalog' 升级到 '3.23' (#44281)
在代码库中将 execution_date 重命名为 logical_date (#43902)
10.26.0¶
功能¶
为 CloudSQL 连接添加 IAM 数据库身份验证支持 (#43631)
为 'GCSToBigQueryOperator' 提供 'force_delete' 选项 (#43785)
统一 BigQuery 运算符之间的 reattach_states 参数逻辑 (#43259)
Bug 修复¶
从 ListCustomTrainingJobOperator 的 template_fields 中删除不存在的字段 (#43924)
修复 'UploadModelOperator' 中验证 'parent_model' 参数的问题 (#43473)
其他¶
为 DbApiHook、PrestoHook 和 TrinoHook 添加对分号剥离的支持 (#41916)
删除 Google 提供程序中的 Airflow 2.1 兼容代码 (#43952)
解释如何将 uv 与 airflow virtualenv 一起使用并使其工作 (#43604)
将 python 运算符移动到标准提供程序 (#42081)
更新 Google ADS 的版本 (#43474)
10.25.0¶
功能¶
feat: 为 GCSHook 添加 Hook 级别沿袭支持 (#42507)
feat: 检查 Dataform 操作状态的传感器 (#43055)
为 Google Cloud Vertex AI 上下文缓存创建运算符 (#43008)
Bug 修复¶
修复过时的 CloudRunExecuteJobOperator 文档 (#43195)
修复 TestTranslationLegacyModelPredictLink dataset_id 错误 (#42463)
其他¶
为在 dataproc 中创建批处理工作负载添加调试日志 (#43265)
为 plyvel 添加最小版本 (#43129)
vertex ai 训练运算符:将 display_name 添加到渲染的字段 (#43028)
使 google 提供程序 pyarrow 依赖项明确 (#42996)
限制 looker-sdk 版本为 24.18.0 和 microsoft-kiota-http 为 1.3.4 (#42954)
10.24.0¶
功能¶
为 DataprocCreateClusterOperator 和 DataprocCreateBatchOperator 添加“retry_if_resource_not_ready”逻辑 (#42703)
Bug 修复¶
如果提供了 batch_id,则在 Dataproc Serverless Batch 启动后发布链接 (#41153)
修复 PubsubPullTrigger 中的 PubSubAsyncHook 以使用 gcp_conn_id (#42671)
修复 PubSubPullSensor 的一致返回响应 (#42080)
在拆分完整的 BigQuery 表名称时,取消从表名称中排除分区 (#42541)
修复 gcp 文本到语音 uri 获取 (#42309)
在“GCSHook”中重构“bucket.get_blob”调用,以处理对不存在对象的验证。 (#42474)
Bugfix/dataflow 作业位置传递 (#41887)
其他¶
移除 airflow 2.8.0 及以上版本中 任务 上下文 日志记录的 条件 检查 (#42764)
将 与数据集相关的 python 变量名 重命名为 资产 (#41348)
弃用 AutoMLBatchPredictOperator 并重构 AutoMl 系统测试 (#42260)
10.23.0¶
新功能¶
添加在 dataproc 集群中创建 Flink 作业的功能 (#42342)
添加新的 Google Search 360 Reporting 操作符 (#42255)
将 return_immediately 作为参数添加到 PubSubPullSensor 类 (#41842)
在 'UploadModelOperator' 中添加 parent_model 参数 (#42091)
添加 DataflowStartYamlJobOperator (#41576)
为 Google Vertex AI Rapid Evaluation API 添加 RunEvaluationOperator (#41940)
为 Google Generative AI CountTokensAPI 添加 CountTokensOperator (#41908)
添加 监督微调训练操作符、钩子、测试和文档 (#41807)
Bug 修复¶
修复了一些小问题,以确保 Vertex AI LLMops 管道的成功运行 (#41997)
从 BigQuery 表名中排除 分区 (#42130)
[修复 #41763]: 当未指定 destination_path 或具有默认值时, SFTPToGCSOperator 中存在多余的 正斜杠 (#41928)
修复 GKEJobTrigger 中的 poll_interval (#41712)
更新 dataflow 作业 ID 提取的 模式 (#41794)
强制使用带有 EOL 的弃用消息格式 ,用于 google 提供程序包 (#41637)
修复 KubernetesJobOperator 的 'do_xcom_push' 和 'get_logs' 功能 (#40814)
其他¶
标记 VertexAI AutoMLText 已弃用 (#42251)
排除 google-cloud-spanner 3.49.0 (#42011)
删除 已弃用的 Google analytics 操作符的 系统测试 (#41946)
更新 google-cloud-bigquery 包的 最低版本 (#41882)
取消固定 Google 提供程序的 google-cloud-bigquery 包版本 (#41839)
弃用 DAG.following_schedule() 方法 (#41773)
从提供程序中移除 已弃用的 soft_fail (#41710)
更新 google-ads 的版本 (#41638)
删除 已弃用的日志处理程序参数 filename_template (#41552)
主要¶
警告
之前的 Search Ads 360 Reporting API <https://developers.google.com/search-ads/v2/how-tos/reporting> (当前在 google-provider 中使用) 已于 2024 年 6 月 30 日停止使用 (详见 <https://developers.google.com/search-ads/v2/migration>)。所有新的报表开发都应使用新的 Search Ads 360 Reporting API。当前,报表操作符、传感器和钩子由于停用而失败。新的 API 不是旧 API 的替代品,它具有不同的方法和端点。因此,为新的 API 实现了新的操作符。
10.22.0¶
注意
此提供程序版本仅适用于 Airflow 2.8+,如 Apache Airflow 提供程序支持策略中所述。
新功能¶
添加 'CloudRunServiceHook' 和 'CloudRunCreateServiceOperator' (#40008)
Bug 修复¶
修复(providers/google): 将缺少的 sync_hook_class 添加到 CloudDataTransferServiceAsyncHook (#41417)
其他¶
将提供程序中的 最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)
重构 'DataprocCreateBatchOperator' (#41527)
升级 包 gcloud-aio-auth>=5.2.0 (#41262)
10.21.1¶
Bug 修复¶
修复 CloudSQL 钩子的 不必要导入 (#41009)
将敏感信息移动到 google_analytics_admin 系统测试的 secret 管理器 (#40951)
修复 自定义训练作业操作符以接受没有托管模型的结果 (#40685)
修复 BigQueryInsertJobOperator 中 reattach_state 参数的行为 (#40664)
修复 CloudSQLDatabaseHook 临时文件处理 (#41092)
其他¶
重构 dataproc 系统测试 (#40720)
openlineage: 将 OpenLineage 提供程序迁移到 V2 facet。 (#39530)
解决 CloudSQLDatabaseHook 弃用警告 (#40834)
修复 BeamRunJavaPipelineOperator 在未设置 job_name 的情况下失败的问题 (#40645)
10.21.0¶
注意
更改 修复 'GCSToGCSOperator' 移动单个对象时的行为差异 (#40162)
已被还原,因为它会破坏太多现有的工作流程。GCSToGCSOperator
的行为已恢复到之前的行为。
新功能¶
更新 Google Cloud Generative Model 钩子/操作符,以与 Vertex AI API 保持一致 (#40484)
DataflowStartFlexTemplateOperator。 在每个检查周期检查 Dataflow 作业类型。 (#40584)
将 chunk_size 参数添加到 LocalFilesystemToGCSOperator (#40379)
向 BigQueryCheckOperator 添加对查询参数的支持 (#40558)
在 DataprocCreateBatchOperator 中添加指向 dataproc 作业的链接按钮 (#40643)
Bug 修复¶
还原 "修复 'GCSToGCSOperator' 移动单个对象时的行为差异 (#40162)" (#40577)
修复 BigQueryInsertJobOperator 在可延迟模式下的返回值和 openlineage 提取 (#40457)
修复 GCP 可延迟操作符的 OpenLineage 提取 (#40521)
修复 CloudBatchSubmitJobOperator 中对 project_id 的尊重 (#40560)
10.20.0¶
注意
现在,当移动或复制单个对象时,GCSToGCSOperator
会保留嵌套的文件夹结构,使其行为与处理多个对象时的行为一致。如果此更改影响到您的工作流程,您可能需要调整 source_object
参数,使其包含到包含单个文件的文件夹的完整路径,并显式指定 destination_object
以忽略嵌套的文件夹。例如,如果您之前使用 source_object='folder/nested_folder/'
来移动文件 'folder/nested_folder/second_nested_folder/file'
,现在您应该使用 source_object='folder/nested_folder/second_nested_folder/'
并指定 destination_object='folder/nested_folder/'
。这将把文件移动到 'folder/nested_folder/file'
,而不是像之前那样固定地移动到 'folder/nested_folder/second_nested_folder/file'
。
警告
上述更改已在 10.21.0 版本中回滚。 GCSToGCSOperator
的行为已恢复到之前的状态。
功能¶
为 Google Cloud 多模态模型运算符 添加 generation_config 和 safety_settings 配置 (#40126)
为 'BigQueryUpdateTableSchemaOperator' 添加 缺失的 location 参数 (#40237)
为 Google Cloud 运算符添加 对外部 IdP OIDC 令牌检索的支持 (#39873)
为 BigQuery 运算符添加 encryption_configuration 参数 (#40063)
为 GoogleBaseAsyncHook 添加默认的 gcp_conn_id (#40080)
为 PubSubPublishMessageOperator GCP 运算符添加 排序键 选项 (#39955)
在 GCSHook 中添加从 GCS blob 获取元数据的方法 (#38398)
在 AutoMLHook 中的 create_auto_ml_forecasting_training_job 中添加窗口参数 (#39767)
实现 CloudComposerDAGRunSensor (#40088)
实现 'CloudDataTransferServiceRunJobOperator' (#39154)
异步获取 GKEStartPod 的中间日志 (#39348)
在 Google 提供程序包中为 AzureBlobStorageToGCSOperator 添加 OpenLineage 支持 (#40290)
错误修复¶
修复 hive_partition_sensor 系统测试 (#40023)
修复 openai 1.32 破坏 openai 测试的问题 (#40110)
修复 由 google auth 的 mypy 版本发现的凭据初始化问题 (#40108)
修复 DataflowHook 中排除双引号和换行符的正则表达式 (#39991)
修复 BigQueryToPostgresOperator 的 replace 参数 (#40278)
修复 'GCSToGCSOperator' 在移动单个对象时的行为差异 (#40162)
其他¶
重构 datapipeline 运算符 (#39716)
更新 Python 3.12 的 pandas 最低要求 (#40272)
实现 具有最低直接依赖项解析的每个提供程序的测试 (#39946)
openlineage: 在单独的进程中执行提取和消息发送 (#40078)
将 google-auth 的最低版本提升至 2.29.0 (#40190)
将 google-ads 版本提升为默认使用 v17 (#40158)
google: 将 openlineage 导入移动到方法内部 (#40062)
在 DataplexGetDataQualityScanResultOperator 中添加 job_id 作为 模板字段 (#40041)
在所有位置添加对 httpx >= 0.25.0 的依赖 (#40256)
10.19.0¶
注意
在 AutoML 自然语言、表格、视觉和视频智能服务的旧版本关闭后,多个 AutoML 运算符已停止支持。这包括 AutoMLDeployModelOperator
、AutoMLTablesUpdateDatasetOperator
、AutoMLTablesListTableSpecsOperator
和 AutoMLTablesListColumnSpecsOperator
。请参阅运算符文档以查找可用的替代方案(如果有)。有关 AutoML 关闭的更多信息,请参阅
功能¶
在 GCP 基础钩子中引入匿名凭据 (#39695)
错误修复¶
如果将 parent_model 版本后缀传递给 Vertex AI 运算符,则将其删除 (#39640)
修复如果缺少位置,则 BigQueryCursor 执行方法的问题 (#39659)
修复 PubSubPullSensor 在可延迟模式下的确认功能 (#39711)
将 AutoML 运算符链接重定向到 Google 翻译链接 (#39668)
将 google-cloud-bigquery 固定为 < 3.21.0 (#39583)
其他¶
删除 Google 和 Snowflake 提供程序中的 'openlineage.common' 依赖项 (#39614)
弃用 AutoML 表格运算符 (#39752)
解决 Azure FileShare-to-GCS 测试中的弃用警告 (#39599)
typo: 在 spec 中使用错误的 OpenLineage facet key (#39782)
从 StackdriverTaskHandler 中删除了过时的代码 (#39744)
10.18.0¶
注意
如 Apache Airflow 提供程序支持策略 中所述,此提供程序的版本仅适用于 Airflow 2.7+。
功能¶
为 Google llm 运算符添加模板化字段 (#39174)
添加当 deferrable=True 时处理 BigQueryInsertJobOperator 的 on_kill 的逻辑 (#38912)
创建 'CloudComposerRunAirflowCLICommandOperator' 运算符 (#38965)
Dataflow 传感器的可延迟模式 (#37693)
自定义训练作业运算符的可延迟模式 (#38584)
增强 CloudSQLExecuteQueryOperator 中的 SSL 支持 (#38894)
创建 GKESuspendJobOperator 和 GKEResumeJobOperator 运算符 (#38677)
为 Google 传输服务运算符中的 aws 凭证添加对角色 arn 的支持 (#38911)
为 BigQueryCheckOperator 和 BigQueryTableCheckOperator 添加 encryption_configuration 参数 (#39432)
向 'BigQueryGetDataOperator' 添加 'job_id' 参数 (#39315)
Bug 修复¶
修复 DataflowTemplatedJobStartOperator 和 DataflowStartFlexTemplateOperator 的可延迟模式 (#39018)
修复 BigQueryToPostgresOperator 的批量处理 (#39233)
修复 当任务标记为失败时,deferrable mode=True 下的 DataprocSubmitJobOperator (#39230)
修复 GCSObjectExistenceSensor 操作符在可延迟和不可延迟模式下返回相同的 XCOM 值 (#39206)
修复 conn_id BigQueryToMsSqlOperator (#39171)
修复 在 google 身份验证刷新凭据错误的情况下添加重试逻辑 (#38961)
修复 BigQueryCheckOperator 在可延迟模式下跳过的值和错误检查 (#38408)
修复 在 GCSDeleteObjectsOperator 中,为 OpenLineage 数据集使用前缀而不是所有文件路径 (#39059)
修复 在 GCSToGCSOperator 中,为 OpenLineage 数据集使用前缀而不是完整文件路径 (#39058)
修复 GCSTimeSpanFileTransformOperator 中的 OpenLineage 数据集 (#39064)
修复 'DataprocSubmitPySparkJobOperator' 中的临时文件名生成 (#39498)
修复 如果 TaskInstance 不处于运行或延迟状态,则取消 DataprocSubmitJobOperator 的外部作业的逻辑 (#39447)
修复 如果 TaskInstance 不处于运行或延迟状态,则取消 BigQueryInsertJobOperator 的外部作业的逻辑 (#39442)
修复 如果 TaskInstance 不处于运行或延迟状态,则取消 DataprocCreateClusterOperator 的外部作业的逻辑 (#39446)
修复 'DataprocCreateBatchOperator' 使用 'result_retry' 引发 'AttributeError' (#39462)
修复 GKEStartKueueInsideClusterOperator 的 yaml 解析 (#39234)
修复 BigQueryInsertJobOperator 中标签值的验证 (#39568)
其他¶
将 provider 中 Airflow 的最低版本提升到 Airflow 2.7.0 (#39240)
改进 'DataprocCreateClusterOperator' 触发器,以实现更好的错误处理和资源清理 (#39130)
在 Microsoft Azure provider 中添加 MSGraphOperator (#38111)
在 Google provider 中应用 PROVIDE_PROJECT_ID mypy 解决方法 (#39129)
处理 KubernetesDeleteJobOperator 导入 (#39036)
移除 Airflow 2.6 向后兼容代码 (#39558)
重新应用所有 provider 的模板 (#39554)
更快地 导入 'airflow_version' (#39552)
为已弃用的内容添加弃用警告并引发异常 (#38673)
简化 'airflow_version' 导入 (#39497)
将 GKE 操作符与已弃用的钩子断开连接 (#39434)
10.17.0¶
特性¶
为 BigQuery 添加 'impersonation_scopes' (#38169)
为 RunPipelineJobOperator 添加可延迟模式 (#37969)
添加 GKECreateCustomResourceOperator 和 GKEDeleteCustomResourceOperator 操作符 (#37616)
为 Google Cloud 生成式 AI 使用添加 VertexAI 语言模型和多模态模型操作符 (#37721)
添加 GKEListJobsOperator 和 GKEDescribeJobOperator (#37598)
创建 GKEStartKueueJobOperator 操作符 (#37477)
创建 DeleteKubernetesJobOperator 和 GKEDeleteJobOperator 操作符 (#37793)
更新 GCS 钩子,以获取受 CMEK 保护的对象的 crc32c 哈希值 (#38191)
在 BigQuery 作业中设置用于可追溯性的作业标签 (#37736)
CreateBatchPredictionJobOperator 的可延迟模式 (#37818)
Bug 修复¶
修复 BigQuery 连接并添加文档 (#38430)
修复(google,log): 避免日志名称被覆盖 (#38071)
修复 S3ToGCSOperator 触发器的凭据错误 (#37518)
修复 GCP Vertex AI AutoML 和自定义作业操作符中的 'parent_model' 参数 (#38417)
修复(google): 在触发器中,向 while 循环中的 yield 添加 return 语句 (#38394)
修复 'PostgresToGCSOperator' 中游标的唯一名称超过 Postgres 标识符限制的问题 (#38040)
修复 gcs 匿名用户问题,因为没有令牌 (#38102)
修复 BigQueryTablePartitionExistenceTrigger 分区查询 (#37655)
其他¶
添加 google-cloud-bigquery 作为显式的 google-provider 依赖项 (#38753)
避免在 'google' provider 的类方法中使用 'functools.lru_cache' (#38652)
重构 GKE 钩子 (#38404)
从airflow包中删除未使用的循环变量(#38308)
模板化字段逻辑检查cloud_storage_transfer_service(#37519)
重命名mlengine的操作符的字段名称,以符合模板化字段验证(#38053)
重命名Vertex AI AutoML 操作符的字段名称,以符合模板化字段验证(#38049)
重命名'DeleteCustomTrainingJobOperator'的字段名称,以符合模板化字段验证(#38048)
为从Google Cloud检索的Google转移操作符恢复delegate_to。(#37925)
重构CreateHyperparameterTuningJobOperator(#37938)
升级google-ads版本(#37787)
10.16.0¶
特性¶
'CloudRunExecuteJobOperator': 将project_id添加到hook.get_job调用中(#37201)
将开发者令牌作为身份验证方法添加到GoogleAdsHook(#37417)
添加GKEStartKueueInsideClusterOperator(#37072)
为BigQueryInsertJobTrigger添加可选的'location'参数(#37282)
feat(GKEPodAsyncHook): 使用异步凭据令牌实现(#37486)
创建GKEStartJobOperator和KubernetesJobOperator(#36847)
错误修复¶
修复'DataFusionPipelineLinkHelper'的无效弃用(#37755)
修复模板化字段赋值'google/cloud/operators/compute.py'(#37659)
修复bq_to_mysql初始化检查(#37653)
修复Async GCSObjectsWithPrefixExistenceSensor xcom推送(#37634)
修复GCSSynchronizeBucketsOperator超时错误(#37237)
修复:insert_rows的签名与超类型DbApiHook不兼容(#37391)
在_CredentialsToken中使用偏移感知日期时间(#37539)
在DataprocInstantiateInlineWorkflowTemplateOperator中使用wait_for_operation(#37145)
杂项¶
修复DataflowStartFlexTemplateOperator文档中的拼写错误(#37595)
仅在'DbApiHook.insert_rows'中使'executemany'关键字参数成为仅限关键字参数(#37840)
将'aws_conn_id'类型统一为始终为'str | None'(#37768)
将'pandas'限制为'<2.2'(#37748)
删除已损坏的弃用回退到Google提供程序操作符中(#37740)
实现AIP-60数据集URI格式(#37005)
解决'bigquery'的模板字段初始化检查(#37586)
更新DataprocCreateBatchOperator的文档(#37562)
替换提供程序中'datetime.utcnow'和'datetime.utcfromtimestamp'的使用(#37138)
10.15.0¶
特性¶
添加service_file支持到GKEPodAsyncHook(#37081)
更新GCP Dataproc ClusterGenerator以支持GPU参数(#37036)
创建DataprocStartClusterOperator和DataprocStopClusterOperator(#36996)
为CreateHyperparameterTuningJobOperator实现可延期模式(#36594)
为GKEPodHook启用'_enable_tcp_keepalive'功能(#36999)
错误修复¶
修复(providers/google): 修复GKEPodAsyncHook.service_file_as_context的使用方式(#37306)
修复ComputeEngineSSHHook的元数据覆盖(#37192)
修复自定义作业中'__init__'中的模板字段赋值(#36789)
修复DataflowTemplatedJobStartOperator中的位置要求(#37069)
修复'CloudDataTransferServiceCreateJobOperator'中'__init__'中的模板字段赋值(#36909)
修复了GCP Data Fusion链接的硬编码默认命名空间值。(#35379)
如果在Dataproc集群配置中设置为false,则不要忽略internal_ip_only(#37014)
杂项¶
恢复针对google-core-api的向后兼容性问题的保护(#37111)
feat: 将所有类、函数、方法弃用切换为装饰器(#36876)
10.14.0¶
注意
BaseSQLToGCSOperator
中parquet_row_group_size
的默认值已从1更改为100000,以便提供默认值,从而提供更好的压缩效率和读取输出Parquet文件中数据的性能。在许多情况下,先前的1值导致文件非常大,任务持续时间长以及内存不足的问题。默认值100000可能需要更多内存来执行操作符,在这种情况下,用户可以在操作符中覆盖parquet_row_group_size
参数。当export_format
为parquet
时,所有派生自BaseSQLToGCSOperator
的操作符都会受到影响:MySQLToGCSOperator
、PrestoToGCSOperator
、OracleToGCSOperator
、TrinoToGCSOperator
、MSSQLToGCSOperator
和PostgresToGCSOperator
。鉴于以上情况,我们将此更改视为错误修复。
特性¶
从'BigQueryToPostgresOperator'向'BigQueryToSqlBaseOperator'添加模板化字段(#36663)
添加了检查取消工作流调用的功能,并添加了新的查询工作流调用操作符(#36351)
实现Google Analytics Admin (GA4)操作符(#36276)
添加用于诊断群集的操作符(#36899)
将作用域添加到GCP令牌中(#36974)
feat: 完全支持gcloud-aio客户端中的Google凭据(#36849)
错误修复¶
修复模板化字段到超类构造函数(#36934)
修复:在GKEStartPodOperator中尊重连接ID和模拟(#36861)
修复提供程序中warnings.warn中的stacklevel(#36831)
修复 GCP Dataproc 链接中的 弃用 问题 (#36834)
修复 构造函数中 模板化字段 的 赋值 问题 (#36603)
在 延迟 Dataproc 运算符以触发之前 检查 集群状态 (#36892)
防止 运算符 __init__ 中的 模板化字段 逻辑检查 (#36489)
通过 BigQuery 加载 API 直接保留 ASCII 控制字符 (#36533)
更改 'BaseSQLToGCSOperator' 中 默认的 'parquet_row_group_size' (#36817)
修复 Google 运算符对 模拟链 的处理 (#36903)
其他¶
style(providers/google): 改进 BigQueryInsertJobOperator 类型提示 (#36894)
弃用 用于视觉和视频的 AutoMLTrainModelOperator (#36473)
删除 KubernetesPodOperator 模块的 向后兼容性 检查 (#36724)
删除 KubernetesPodTrigger 模块的 向后兼容性 检查 (#36721)
将 所有 提供程序和 airflow 的 最低 pandas 依赖项 设置为 1.2.5 (#36698)
删除 不必要的 模板化字段 (#36491)
docs(providers/google): 在 文档字符串中将 GoogleBaseHookAsync 改写为 GoogleBaseAsyncHook (#36946)
10.13.1¶
其他¶
删除 stackdriver 的 向后兼容代码 (#36442)
删除 未使用的 '_parse_version' 函数 (#36450)
从 GCS 任务处理程序中删除剩余的 Airflow 2.5 向后兼容代码 (#36443)(#36457)
10.13.0¶
注意
此提供程序版本仅适用于 Airflow 2.6+,如 Apache Airflow 提供程序支持策略中所述。
特性¶
GCP Secrets 后端模拟 (#36072)
为 GcsOperators 添加 OpenLineage 支持 - 删除、转换和时间范围转换 (#35838)
添加 使用 computeEngineSSHHook(google 提供程序) 和 IAP 隧道进行 服务帐户模拟 的支持 (#35136)
添加 数据扫描分析 (#35696)
为 Google Cloud Run 作业执行运算符 的 模板字段添加覆盖 (#36133)
为 BeamRunJavaPipelineOperator 实现 可延迟模式 (#36122)
添加 在不可延迟模式下 为 BeamRunPythonPipelineOperator 运行 流式作业 的能力 (#36108)
向 GCSObjectExistenceSensor 添加 use_glob (#34137)
Bug 修复¶
修复 DataprocSubmitJobOperator 以检索失败的作业错误消息 (#36053)
修复 CloudRunExecuteJobOperator 在 可延迟模式下无法检索 Cloud Run 作业状态 的问题 (#36012)
修复 gcs 列表 - 确保加载 blobs (#34919)
允许 模拟链中存在多个元素 (#35694)
将 Google Dataflow 客户端的重试类型更改为异步类型 (#36141)
对 DataprocCreateClusterOperator 运算符文档的次要修复。 (#36322)
fix(bigquery.py): 将正确的 project_id 传递给触发器 (#35200)
在检查前缀之前迭代 blobs (#36202)
修复 与 google-cloud-monitoring 2.18.0 的不兼容性问题 (#36200)
更新 PubSubAsyncHook 中的 'retry' 参数类型 (#36198)
其他¶
将提供程序中的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)
弃用 'CloudComposerEnvironmentSensor', 转而使用具有延迟模式的 'CloudComposerCreateEnvironmentOperator' (#35775)
遵循 子类中的 BaseHook 连接字段方法签名 (#36086)
允许传递存储选项 (#35820)
添加从源代码构建“先有鸡还是先有蛋”包的功能 (#35890)
从 Google 提供程序中删除剩余的 Airflow 2.5 向后兼容代码 (#36366)
将 KubernetesPodTrigger 钩子移动到缓存属性 (#36290)
通过 Ruff 在文档字符串中添加代码片段格式化 (#36262)
10.12.0¶
特性¶
为 schema_settings 和 message_retention_duration 添加了主题参数。 (#35767)
为 GCSToBigQueryOperator 添加 OpenLineage 支持 (#35778)
为 BigQueryToGCSOperator 添加 OpenLineage 支持 (#35660)
为 Dataproc 添加 驱动程序池、实例灵活性策略和最小实例数支持 (#34172)
为 Dataproc 工作节点添加 “NON_PREEMPTIBLE” 作为有效的抢占类型 (#35669)
添加将 impersonation_chain 传递给 BigQuery 触发器的能力 (#35629)
在GoogleDisplayVideo360CreateQueryOperator中添加本地文件过滤器(#35635)
扩展任务上下文日志记录支持,以便使用GCP GCS进行远程日志记录(#32970)
Bug 修复¶
修复并重新应用提供程序文档的模板(#35686)
修复检查Dataflow作业状态的逻辑(#34785)
其他¶
从BigQueryToBigQueryOperator中删除已弃用方法的使用(#35605)
在父级而非自身上检查attr关于TaskContextLogger set_context(#35780)
在提供程序中删除与Airflow 2.3/2.4的向后兼容性(#35727)
在GoogleDiscoveryApiHook中恢复delegate_to参数(#35728)
从BigQueryCursor中删除已弃用方法的使用(#35606)
对齐’MSSQLToGCSOperator’的文档(#35715)
10.11.0¶
功能¶
AIP-58: 添加Airflow ObjectStore (AFS)(#34729)
改进Dataprep钩子(#34880)
其他¶
向CloudRunExecuteJobOperator添加了“overrides”参数(#34874)
10.10.1¶
其他¶
添加与Google Cloud Storage相关的文档之间的链接(#34994)
将AI Platform Prediction的旧版本迁移到VertexAI(#34922)
在DataprocInstantiate{Inline}WorkflowTemplateOperator的on_kill中取消工作流(#34957)
10.10.0¶
注意
如Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.5+。
功能¶
改进:在BigQueryIntervalCheckOperator中引入project_id(#34573)
Bug 修复¶
当为google传感器引发异常时,遵守soft_fail参数(#34501)
修复GCSToGoogleDriveOperator和gdrive系统测试(#34545)
修复LookerHook序列化缺少一个参数错误(#34678)
修复Dataform系统测试(#34329)
其他¶
提升提供程序的最低airflow版本(#34728)
重构DataFusionInstanceLink的使用(#34514)
在Google提供程序示例中使用“airflow.models.dag.DAG”(#34614)
弃用生命科学操作符和钩子(#34549)
在提供程序中使用“airflow.exceptions.AirflowException”(#34511)
10.9.0¶
功能¶
为CloudDataFusionStartPipelineOperator添加对流(实时)管道的显式支持(#34271)
向Dataflow操作符添加“expected_terminal_state”参数(#34217)
Bug 修复¶
修复“ComputeEngineInsertInstanceOperator”在给定body参数时,不遵守jinja模板化的实例名称(#34171)
修复:BigQuery作业错误消息(#34208)
GKEPodHook忽略gcp_conn_id参数。(#34194)
其他¶
为Google提供程序提升最低common-sql提供程序版本(#34257)
删除字典上对keys()方法的不必要调用(#34260)
重构:在提供程序中进行积极思考(#34279)
重构:简化providers/google中的代码(#33229)
重构:简化比较(#34181)
弃用NL的AutoMLTrainModelOperator(#34212)
简化为bool(...)(#34258)
使Google Dataform操作符的templated_fields更加一致(#34187)
10.8.0¶
功能¶
向Dataplex DataQuality添加可延迟模式。(#33954)
允许在Google Cloud连接上设置impersonation_chain(#33715)
Bug 修复¶
修复(providers/google-marketing-platform):当引发异常时,遵守soft_fail参数(#34165)
修复:endpoint_service.py中的文档字符串(#34135)
修复BigQueryValueCheckOperator可延迟模式优化(#34018)
动态设置Datafusion管道的构件版本(#34068)
如果Dataproc群集以ERROR状态启动,则尽早删除它。(#33668)
通过将sleep替换为asyncio.sleep,避免在使用DataFusionAsyncHook时阻塞事件循环(#33756)
其他¶
整合os.path.*的导入(#34060)
重构提供程序中的正则表达式(#33898)
当在Google提供程序中可能时,将try移到循环之外(#33976)
组合提供程序中类似的if逻辑(#33987)
从提供程序中删除无用的字符串连接(#33968)
更新 Azure 文件共享 hook 以使用 azure-storage-file-share 而不是 azure-storage-file (#33904)
重构 providers 中不必要的 跳转 (#33833)
在 providers 中查找正值时,将循环替换为 any (#33984)
在 providers 中,将 try - except pass 替换为 contextlib.suppress (#33980)
从 providers 代码中删除一些无用的 try/except (#33967)
在 Airflow providers 中,将序列连接替换为解包 (#33933)
从 'BigQueryHook.get_pandas_df' 中删除一个已弃用的选项 (#33819)
在 providers 中,将不必要的字典推导式替换为 dict() (#33857)
通过将一些模块移动到类型检查块中,改进 google provider 中的模块导入 (#33783)
在 providers 中使用带有多个上下文的单个语句,而不是嵌套语句 (#33768)
在 providers 中使用文字字典,而不是调用 dict() (#33761)
在 providers 中删除不必要的代码并使用 list 重写 (#33763)
重构: 简化一些循环 (#33736)
E731: 在 Airflow providers 中,将 lambda 替换为 def 方法 (#33757)
在 Airflow providers 中使用 f-string 代替 (#33752)
10.7.0¶
特性¶
添加 CloudRunHook 和 operators (#33067)
添加 'CloudBatchHook' 和 operators (#32606)
添加对 Google Cloud 的 Data Pipelines Run Operator 的支持 (#32846)
添加参数 sftp_prefetch 到 SFTPToGCSOperator (#33274)
添加 Google Cloud 的 Data Pipelines Create Operator (#32843)
添加 Dataplex 数据质量 operators. (#32256)
Bug 修复¶
修复 BigQueryCreateExternalTableOperator 在使用与 CSV 不同的格式时的问题 (#33540)
修复 DataplexDataQualityJobStatusSensor 并添加单元测试 (#33440)
避免在运行时和模块级别导入 pandas 和 numpy (#33483)
其他¶
为 DataformCreateCompilationResultOperator 添加缺少的模板字段 (#33585)
合并 pandas 的导入和使用 (#33480)
从 datetime 导入 utc 并规范化其导入 (#33450)
10.6.0¶
特性¶
openlineage, bigquery: 为 BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)
为 GCSToS3Operator 添加 GCS 请求者付费存储桶支持 (#32760)
为 CloudDataTransferServiceGCSToGCSOperator 添加系统测试和文档 (#32960)
向 SQL 运算符添加一个新参数以指定 conn id 字段 (#30784)
Bug 修复¶
修复 'DataFusionAsyncHook' 捕获 404 错误 (#32855)
修复 MetastoreHivePartitionSensor 的系统测试 (#32861)
修复 捕获 409 错误 (#33173)
使 'sql' 成为 'BigQueryInsertJobOperator' 中的缓存属性 (#33218)
其他¶
refactor(providers.google): 使用模块级别 __getattr__ 将 DATAPROC_JOB_LOG_LINK 更改为 DATAPROC_JOB_LINK 并添加弃用警告 (#33189)
10.5.0¶
特性¶
openlineage, gcs: 为 GcsToGcsOperator 添加 openlineage 方法 (#31350)
通过 Dataproc Operators 添加 Spot Instances 支持 (#31644)
将 sqlalchemy-spanner 包安装到 Google provider 中 (#31925)
过滤和排序 DataprocListBatchesOperator 的结果 (#32500)
Bug 修复¶
修复在可延迟模式下不遵守 project_id 的 BigQueryGetDataOperator 的问题 (#32488)
刷新 GKE OAuth2 令牌 (#32673)
修复 'BigQueryInsertJobOperator' 不退出延迟状态的问题 (#31591)
其他¶
修复已弃用的 DataprocSubmitSparkJobOperator 的文档字符串并重构系统测试 (#32743)
为 DbApiHook.run 方法添加更准确的类型信息 (#31846)
为 providers 模块和类的文档字符串添加弃用信息 (#32536)
修复已弃用的 DataprocSubmitHiveJobOperator 的文档字符串 (#32723)
修复已弃用的 DataprocSubmitPigJobOperator 的文档字符串 (#32739)
修复 Datafusion 系统测试 (#32749)
10.4.0¶
特性¶
为 S3ToGCSOperator 实现 可延期模式 (#29462)
Bug 修复¶
修复 当 复制 文件 到 没有 通配符的 文件夹时 GCSToGCSOperator 的错误 (#32486)
修复 'GCSHook' 中 上传函数的 'cache_control' 参数 (#32440)
修复 BigQuery 传输 运算符 以 尊重 project_id 参数 (#32232)
修复 空列表时 gcp_gcs_delete_objects 的问题 (#32383)
修复 cloud_build 中 defer 的 无限循环 (#32387)
修复 没有通配符和 exact_match=True 时的 GCSToGCSOperator 复制 (#32376)
其他¶
允许提供 目标文件夹 (#31885)
将 'AzureBlobStorageToGCSOperator' 从 Azure 移至 Google provider (#32306)
在 BigQueryInsertJobOperator 中提供更好的 作业配置文档链接 (#31736)
10.3.0¶
功能¶
为 'KubernetesPodOperator' 添加 'on_finish_action' (#30718)
为 CloudSQLExportInstanceOperator 添加可延期模式 (#30852)
将 'src_fmt_configs' 添加到模板字段列表中 (#32097)
Bug 修复¶
[Issue-32069] 修复 批量请求中的名称格式 (#32070)
修复可延期模式下 'BigQueryInsertJobOperator' 的错误处理 (#32034)
修复 'BigQueryConsoleLink' 中的 'BIGQUERY_JOB_DETAILS_LINK_FMT' (#31953)
使 DataprocCreateBatchOperator 的可延期版本能够处理已存在的 batch_id (#32216)
其他¶
将 Google Ads API 版本从 v13 切换到 v14 (#32028)
弃用 GCS 中的 'delimiter' 参数和源对象通配符,引入 'match_glob' 参数 (#31261)
重构 GKECreateClusterOperator 的主体验证 (#31923)
优化 'BigQueryValueCheckOperator' 的可延期模式执行 (#31872)
添加 default_deferrable 配置 (#31712)
10.2.0¶
注意
此版本放弃了对 Python 3.7 的支持
功能¶
当事件在循环中产生时添加返回以停止执行 (#31985)
为 PubsubPullSensor 添加可延期模式 (#31284)
添加新参数以在 'BaseSQLToGCSOperator' 中设置 parquet 行组大小 (#31831)
为 google cloud storage 添加 'cacheControl' 字段 (#31338)
将 'preserveAsciiControlCharacters' 添加到 'src_fmt_configs' (#31643)
为 Google Secrets Manager secrets 后端添加凭据配置文件身份验证支持 (#31597)
为 Google Cloud Hook 添加凭据配置文件支持 (#31548)
为 'GCSUploadSessionCompleteSensor' 添加可延期模式 (#31081)
在 DataflowStartFlexTemplateOperator 中添加 append_job_name 参数 (#31511)
FIPS 环境:将 md5 的使用标记为 “不用于安全” (#31171)
实现 MetastoreHivePartitionSensor (#31016)
Bug 修复¶
Bigquery:修复已存在的表和数据集的链接 (#31589)
为 TabularDataset 提供缺少的项目 id 和凭据 (#31991)
其他¶
优化 'DataprocSubmitJobOperator' 的可延期模式执行 (#31317)
优化 'BigQueryInsertJobOperator' 的可延期模式执行 (#31249)
删除 yield from 触发器类后的 return 语句 (#31703)
将 unicodecsv 替换为标准 csv 库 (#31693)
优化可延期模式 (#31758)
移除 Python 3.7 支持 (#30963)
10.1.1¶
Bug 修复¶
修复在 'GKEStartPodOperator' 中通过私有端点访问 GKE 集群的问题 (#31391)
修复 'BigQueryGetDataOperator' 在可延期模式下的查询作业错误 (#31433)
10.1.0¶
注意
正如 Apache Airflow provider 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.4+
注意
此版本将默认的 Google 广告更改为 v13。由于 v12 已被 Google 弃用并将很快被删除,因此我们不认为这是 Airflow 中的一项重大更改。
注意
此版本的提供程序升级了许多 Google 包。请查看软件包更改日志
功能¶
为 DataprocInstantiateInlineWorkflowTemplateOperator 添加可延期模式 (#30878)
为 'GCSObjectUpdateSensor' 添加可延期模式 (#30579)
添加协议以定义 KubernetesPodOperator 所依赖的方法 (#31298)
添加 BigQueryToPostgresOperator (#30658)
Bug 修复¶
'DataflowTemplatedJobStartOperator' 修复了在提供区域时使用默认值覆盖位置的问题 (#31082)
在为 GCSObjectsWithPrefixExistenceSensor 延期之前执行一次 poke (#30939)
为 'GCSObjectsWithPrefixExistenceSensor' 添加可延期模式 (#30618)
允许在 gcs 删除/列表 钩子和运算符中使用多个前缀 (#30815)
修复 移除了 可延期的 GCS 传感器 中的 delegate_to 参数 (#30810)
其他¶
为 'BigQueryGetDataOperator' 添加 'use_legacy_sql' 参数 (#31190)
为 'BigQueryGetDataOperator' 添加 'as_dict' 参数 (#30887)
为 S3ToGCSOperator 添加 标记 apply_gcs_prefix (b/245077385) (#31127)
为 BigQueryHook 添加 'priority' 参数 (#30655)
提高 providers 中的 最低 Airflow 版本 (#30917)
为 BigQueryCreateExternalTableOperator 实现 gcs_schema_object (#30961)
优化 延迟 执行 模式 (#30946)
优化 可延期 模式 执行 (#30920)
优化 'GCSObjectExistenceSensor' 中的 可延期 模式 (#30901)
'CreateBatchPredictionJobOperator' 为 Vertex AI BatchPredictionJob 对象 添加 batch_size 参数 (#31118)
GKEPodHook 需要拥有 KPO 调用的所有 方法 (#31266)
添加 CloudBuild 构建 ID 日志 (#30516)
将 默认 Google 广告 切换为 v13 (#31382)
切换到 google 广告 v13 (#31369)
更新 google provider 软件包的 SDK (#30067)
10.0.0¶
重大更改¶
Google 宣布 Campaign Manager 360 v3.5 将于 2023 年 4 月 20 日停止使用。有关详细信息,请查看:https://developers.google.com/doubleclick-advertisers/deprecation。因此,Campaign Manager 360 操作器的默认 API 版本已更新为最新的 v4 版本。
警告
在此 provider 版本中,已弃用的 delegate_to
参数已从所有 GCP 操作器、钩子和触发器中删除,以及从与 GCS 交互的 firestore 和 gsuite 传输操作器中删除。可以通过使用 impersonation_chain
参数来实现模拟。 delegate_to
参数仍将仅在不与 Google Cloud 交互的 gsuite 和营销平台钩子和操作器中可用。
从 GCP 操作器和钩子中 删除 delegate_to (#30748)
更新 Google Campaign Manager360 操作器以使用 API v4 (#30598)
Bug 修复¶
更新 DataprocCreateCluster 操作器以正确使用 'label' 参数 (#30741)
其他¶
在 BigQueryGetDataOperator 中添加缺失的 project_id (#30651)
清理 Display Video 360 v1 API 的使用 (#30577)
9.0.0¶
重大更改¶
Google 宣布 Bid manager API v1 和 v1.1 将于 2023 年 4 月 27 日停止使用,有关详细信息,请查看:docs。 因此,GoogleDisplayVideo360Hook 和相关操作器中的 api_version 的默认值更新为 v2。
此 provider 版本包含一个临时解决方法,用于解决 google-ads API 的 v11
版本停用问题,而 google provider 依赖项阻止安装任何支持 v12
API 的 google-ads 客户端。此版本包含仅支持 v12 的 google-ads 库 20.0.0
的供应商版本。一旦 provider 的依赖项允许使用支持更新的 google-ads API 版本的 google-ads,将删除此解决方法(和供应商库)。
注意
仅支持 google ads 的 v12 版本。 当您创建操作器或客户端时,应设置 v12。
更新 DV360 操作器以使用 API v2 (#30326)
修复 google ads 供应商库中的 动态 导入 (#30544)
修复 供应商 google ads 所需的另一个 动态 导入 (#30564)
功能¶
为 GKEStartPodOperator 添加 可延期 模式 (#29266)
Bug 修复¶
BigQueryHook list_rows/get_datasets_list 可以返回 迭代器 (#30543)
修复 云构建异步凭据 (#30441)
8.12.0¶
功能¶
在 Bigquery 操作器中添加缺失的 'poll_interval' (#30132)
在 BigQueryInsertJobOperator 中添加 poll_interval 参数 (#30091)
将 'job_id' 添加到 'BigQueryToGCSOperator' templated_fields (#30006)
支持在使用远程日志记录时删除本地日志文件 (#29772)
Bug 修复¶
修复 设置 gs 到 bq 和 bq 到 gs 的 project_id (#30053)
修复 云构建操作器上的 位置 (#29937)
'GoogleDriveHook': 修复日志消息 + 添加更多详细的文档 (#29694)
将 "BOOLEAN" 添加到 MSSQLToGCSOperator 的 type_map 中,通过显式指定 BIT 字段来修复不正确的 bit->int 类型转换 (#29902)
Google Cloud Providers - 修复 _MethodDefault 深拷贝失败 (#29518)
处理异步 BigQuery dts 触发器上的 项目位置 参数 (#29786)
支持不指定 project_id 的 CloudDataTransferServiceJobStatusSensor (#30035)
等待 正常模式下的 insert_job 结果 (#29925)
其他¶
将 BigQueryTableExistenceAsyncSensor 合并到 BigQueryTableExistenceSensor 中 (#30235)
移除 google provider 中不必要的上限约束 (#29915)
将 BigQueryTableExistencePartitionAsyncSensor 合并到 BigQueryTableExistencePartitionSensor (#30231)
将 GCSObjectExistenceAsyncSensor 逻辑合并到 GCSObjectExistenceSensor (#30014)
使 cncf provider 文件名与 AIP-21 对齐 (#29905)
切换到使用vendor内置的google ads库。 (#30410)
合并google ads vendor内置代码。 (#30399)
8.11.0¶
功能¶
为 BigQueryTablePartitionExistenceSensor 添加可延迟模式。 (#29735)
为 BigQuery 运算符添加一个新的参数,以支持资源存在时的其他操作 (#29394)
为 DataprocInstantiateWorkflowTemplateOperator 添加可延迟模式 (#28618)
Dataproc 批处理 (#29136)
添加 'CloudSQLCloneInstanceOperator' (#29726)
Bug 修复¶
修复 'NoneType' 对象不可下标化的问题。 (#29820)
修复并增强 'check-for-inclusive-language' CI 检查 (#29549)
不要在BigQueryCreateDataTransferOperator 中将秘密推送到XCOM (#29348)
其他¶
Google Cloud Provider - 引入 GoogleCloudBaseOperator (#29680)
更新 google cloud dlp 包,并调整 hook 和操作符 (#29234)
重构 Dataproc 触发器 (#29364)
删除 google-cloud-bigtable 的 <2.0.0 限制 (#29644)
将帮助消息移动到google auth 代码 (#29888)
8.10.0¶
功能¶
为 GKECreateClusterOperator 和 GKEDeleteClusterOperator 添加延迟模式 (#28406)
Bug 修复¶
将 cloud_sql_binary_path 从连接移动到Hook (#29499)
检查 cloud sql provider 版本是否有效 (#29497)
'GoogleDriveHook': 为 upload_file 添加 folder_id 参数 (#29477)
其他¶
为 BigQuery 传输运算符添加文档 (#29466)
8.9.0¶
功能¶
为 现有的 ''DataprocDeleteClusterOperator'' 添加可延迟功能 (#29349)
为 dataflow 运算符添加可延迟模式 (#27776)
为 DataprocCreateBatchOperator 添加可延迟模式 (#28457)
为 DataprocCreateClusterOperator 和 DataprocUpdateClusterOperator 添加可延迟模式 (#28529)
为 MLEngineStartTrainingJobOperator 添加可延迟模式 (#27405)
为 DataFusionStartPipelineOperator 添加可延迟模式 (#28690)
为 Big Query Transfer 运算符添加可延迟模式 (#27833)
在 BaseSQLToGCSOperator 中添加对 write_on_empty 的支持 (#28959)
添加 DataprocCancelOperationOperator (#28456)
启用单独的触发器日志记录 (#27758)
Auto ML 资产 (#25466)
Bug 修复¶
修复 GoogleDriveHook 在 upload v2 上将文件写入已删除文件夹的问题 (#29119)
修复 Google provider CHANGELOG.rst (#29122)
修复 Google provider CHANGELOG.rst (#29114)
Keyfile 字典可以是字典,而不是字符串 (#29135)
GCSTaskHandler 可能会使用远程日志连接id (#29117)
其他¶
弃用 GCP 运算符中的 'delegate_to' 参数并更新文档 (#29088)
8.8.0¶
功能¶
添加 可延迟的 ''GCSObjectExistenceSensorAsync'' (#28763)
在 BaseSQLToGCSOperator 中支持 partition_columns (#28677)
Bug 修复¶
'BigQueryCreateExternalTableOperator' 修复字段分隔符不适用于 csv 的问题 (#28856)
修复使用私有的 _get_credentials 而不是公共的 get_credentials 的问题 (#28588)
修复 'GoogleCampaignManagerReportSensor' 出现 'QUEUED' 状态的问题 (#28735)
修复 BigQueryColumnCheckOperator 运行时错误 (#28796)
默认情况下,如果尚未在bigquery hook 的create_empty_dataset 方法中设置,则将 "datasetReference" 属性分配给 dataset_reference 字典。 (#28782)
8.7.0¶
功能¶
为 BigQueryCreateEmptyTableOperator 的模板字段添加 table_resource (#28235)
在 GCSObjectExistenceSensor 中添加重试参数 (#27943)
为 src_fmt_configs 添加 preserveAsciiControlCharacters (#27679)
为 CloudBuildCreateBuildOperator 添加可延迟模式 (#27783)
GCSToBigQueryOperator 允许自动检测 None 并推断架构 (#28564)
改进 Dataproc 可延迟运算符中的内存使用率 (#28117)
将 job_id 推送到 dataproc 提交作业操作的xcom 中 (#28639)
Bug 修复¶
修复 GCSToBigQueryOperator 中读取JSON 文件的模式字段的问题 (#28284)
修复 GCSToBigQueryOperator 不遵守 schema_obj 的问题 (#28444)
修复 GCSToGCSOperator 在没有通配符的情况下复制对象列表的问题 (#28111)
修复: 重新启用 在 gcs_to_bq 中 使用 参数 的功能, 该功能 之前 已被禁用 (#27961)
在 作业 配置 中 正确设置 bigquery ''use_legacy_sql'' 参数 (#28522)
其他¶
删除 'pylint' 消息 控制 指令 (#28555)
从 google/provider.yaml 中 删除 已弃用的 AIPlatformConsoleLinkk (#28449)
在 config.yml 中 使用 对象 而不是 数组 来 配置 模板 (#28417)
[其他] 去除 条件语句 中的 'pass' 语句 (#27775)
当 google 密钥 管理器 找不到 密钥时, 将 日志级别 更改为 DEBUG (#27856)
[其他] 在 提供程序中 使用 'exactly_one' 助手 替换 XOR '^' 条件 (#27858)
8.6.0¶
功能¶
无论 作业 状态 如何, 都为 工作流 运算符 保留 DataprocLink (#26986)
BigQueryToGCSOperator 的可延期 模式 (#27683)
在 BigQueryToGCSOperator 的 模板 字段 中 添加 导出 格式 (#27910)
错误修复¶
修复 在 BigQueryToBigQueryOperator 中 正确读取 location 参数 的问题 (#27661)
将 common.sql 提供程序 升级到 1.3.1 (#27888)
8.5.0¶
注意
正如Apache Airflow 提供程序支持策略中所述,此提供程序的版本仅适用于 Airflow 2.3+。
其他¶
将 所有 提供程序的 最低 airflow 版本 移至 2.3.0 (#27196)
将 hook bigquery 函数 '_bq_cast' 重命名为 'bq_cast' (#27543)
在 BigQueryHook 中使用 非弃用的 on_kill 方法 (#27547)
类型转换 biquery 作业 响应 列 值 (#27236)
删除 google-cloud-storage 上的 <2 限制 (#26922)
将 urlparse 替换为 urlsplit (#27389)
功能¶
当在环境变量或密钥后端中定义连接时,以前需要使用前缀 extra__google_cloud_platform__
定义 extra
字段。现在不再需要这样做了。因此,例如,您可以将密钥文件 json 存储为 keyfile_dict
而不是 extra__google_cloud_platform__keyfile_dict
。如果两者都存在,则首选短名称。
添加 与 旧版本 Apache Beam 的 向后 兼容性 (#27263)
将 可延期 模式 添加到 GCSToBigQueryOperator + 测试中 (#27052)
以 新方法 为 Vertex AI 运算符 添加 系统 测试 (#27053)
Dataform 运算符, 链接, 更新 系统 测试和文档 (#27144)
允许 WorkflowsCreateExecutionOperator 执行 参数中的 值为 字典 (#27361)
DataflowStopJobOperator 运算符 (#27033)
允许 覆盖 Postgres 中 json/jsonb 列数据类型 的 stringify_dict (#26875) (#26876)
允许并首选 dataprep hook 的 非前缀 额外字段 (#27039)
更新 google hook 以 首选 非前缀的 额外字段 (#27023)
错误修复¶
添加 新的 计算引擎 运算符 并 修复 系统 测试 (#25608)
常见的 sql 错误修复和改进 (#26761)
修复 Dataproc CreateBatch 运算符中的延迟 (#26126)
删除 签名中 单个 参数周围 不必要的 换行符 (#27525)
在 取消 BigQuery 作业时 设置 project_id 和 location (#27521)
使用 正确的 键 来 检索 dataflow job_id (#27336)
当 没有 值时, 使 GSheetsHook 返回 一个空列表 (#27261)
云 ML 引擎 运算符 资产 (#26836)
8.4.0¶
功能¶
添加 BigQuery 列和表检查 运算符 (#26368)
添加 可延期的 big query 运算符 和传感器 (#26156)
将 'output' 属性 添加到 MappedOperator (#25604)
将 append_job_name 参数 添加到 DataflowTemplatedJobStartOperator (#25746)
在 GoogleDriveHook 中 添加 一个参数, 用于 排除 已删除的文件 (#25675)
云 数据 丢失 防护 运算符 资产 (#26618)
云 存储 传输 运算符 资产 & 系统 测试 迁移 (AIP-47) (#26072)
将 可延期的 BigQuery 运算符 合并到 现有的 运算符中 (#26433)
在 delete/create 集群中 调用 wait_for_operation 时 指定 项目 ID (#26418)
在 Web UI 中 自动 尾部 文件 日志 (#26169)
云 函数 操作符 资产 & 系统 测试 迁移 (AIP-47) (#26073)
GCSToBigQueryOperator 解决 'max_id_key' 作业 检索 和 xcom 返回 (#26285)
允许 在 BaseSQLToGCSOperator 上 覆盖 json 导出 格式 的 'stringify_dict' (#26277)
在 链接 类 中 追加 GoogleLink 基础 (#26057)
云 视频 智能 操作符 资产 & 系统 测试 迁移 (AIP-47) (#26132)
生命 科学 资产 & 系统 测试 迁移 (AIP-47) (#25548)
GCSToBigQueryOperator 允许 在 备用 GCS 存储桶 中使用 schema_object (#26190)
在 可延迟 模式 下 为 Composer 操作符 使用 AsyncClient (#25951)
使用 project_id 获取 已验证的 客户端 (#25984)
云 构建 资产 & 系统 测试 迁移 (AIP-47) (#25895)
Dataproc 提交 作业 操作符 异步 (#25302)
在 BigQueryGetDataOperator 中 支持 project_id 参数 (#25782)
Bug 修复¶
修复 Datafusion 操作符 中的 JSONDecodeError (#26202)
修复 CreateWorkflowInvocation 中 永不结束 的 循环 (#25737)
更新 gcs.py (#26570)
当 BQ 游标 作业 没有 schema 时, 不要 抛出 异常 (#26096)
Google 云 任务 传感器 用于 队列 为空 的情况 (#25622)
更正 传输 配置 名称。 (#25719)
修复 BigQuery 结果 Schema 中 可选 'mode' 字段 的 解析 (#26786)
修复 GCSToBigQueryOperator 的 MaxID 逻辑 (#26768)
其他¶
Sql 到 GSC 操作符 更新 parquet 格式 的 文档 (#25878)
限制 Google Protobuf 以 兼容 biggtable 客户端 (#25886)
使 GoogleBaseHook 凭据 函数 公开 (#25785)
整合 到一个 'schedule' 参数 (#25410)
8.3.0¶
特性¶
在 BigQueryCursor 类 中 添加 description 方法 (#25366)
在 两个 BQ 操作符 中 添加 project_id 作为 模板变量 (#24768)
删除 Amazon 提供程序 中 已弃用的 模块 (#25543)
将 所有 “旧” SQL 操作符 移动到 common.sql 提供程序 (#25350)
使用 ParamSpec 改进 taskflow 类型 提示 (#25173)
使用 覆盖它的 方法 统一 DbApiHook.run() 方法 (#23971)
为 ParamSpec 更新 typing-extensions 和 mypy (#25088)
弃用 hql 参数 并 同步 DBApiHook 方法 API (#25299)
Dataform 操作符 (#25587)
Bug 修复¶
修复 GCSListObjectsOperator 文档字符串 (#25614)
修复 BigQueryInsertJobOperator cancel_on_kill (#25342)
修复 BaseSQLToGCSOperator approx_max_file_size_bytes (#25469)
修复 PostgresToGCSOperat 布尔 dtype (#25475)
修复 Vertex AI 自定义 作业 培训 问题 (#25367)
修复 Flask 2.2 和 Flask-Login 0.6.2 的 Flask 登录 用户 设置 (#25318)
8.2.0¶
特性¶
PubSub 资产 & 系统 测试 迁移 (AIP-47) (#24867)
添加 处理 现有 Dataproc 批处理 状态 (#24924)
为 Google Kubernetes Engine 操作符 添加 链接 (#24786)
向 'GoogleBaseHook' 添加 test_connection 方法 (#24682)
向 GoogleDriveToLocalOperator 添加 gcp_conn_id 参数 (#24622)
为 AutoML 中 的 column_transformations 参数 添加 DeprecationWarning (#24467)
修改 BigQueryCreateExternalTableOperator 以 使用 更新的 hook 函数 (#24363)
将 所有 SQL 类 移动到 common-sql 提供程序 (#24836)
Datacatalog 资产 & 系统 测试 迁移 (AIP-47) (#24600)
将 FAB 升级到 4.1.1 (#24399)
Bug 修复¶
GCSDeleteObjectsOperator 空 前缀 错误 修复 (#24353)
perf(BigQuery): 将 table_id 作为 str 类型 传递 (#23141)
更新 提供程序 以 使用 functools 兼容性 用于 ''cached_property'' (#24582)
8.1.0¶
特性¶
将 Oracle 库 更新到 最新版本 (#24311)
公开 SQL 到 GCS 元数据 (#24382)
Bug 修复¶
修复 google 提供程序 其他 附加项 中的 拼写错误 (#24431)
在 BigQueryToGCPOpertor 中 使用 insert_job 并 调整 链接 (#24416)
8.0.0¶
重大更改¶
注意
此版本的提供程序仅适用于 Airflow 2.2+,如Apache Airflow 提供程序支持策略中所述。
功能特性¶
添加 key_secret_project_id 参数,用于指定具有 KeyFile 的项目 (#23930)
为 DataflowStartFlexTemplateOperator 和 DataflowStartSqlJobOperator 添加 impersonation_chain (#24046)
向 CLOUD_SQL_EXPORT_VALIDATION 添加字段。 (#23724)
在 Compute Engine 中使用 ADC 时更新凭据 (#23773)
在 cloud_sql.py 中为运算符设置颜色 (#24000)
使用排除列将 Sql 导出到 gcs (#23695)
[Issue#22846] 允许在从 Cassandra 上传到 GCS 时选择是否编码 UUID (#23766)
工作流资产和系统测试迁移 (AIP-47) (#24105)
Spanner 资产和系统测试迁移 (AIP-47) (#23957)
语音转文本资产和系统测试迁移 (AIP-47) (#23643)
Cloud SQL 资产和系统测试迁移 (AIP-47) (#23583)
Cloud Storage 资产和 StorageLink 更新 (#23865)
Bug 修复¶
修复 BigQueryInsertJobOperator (#24165)
修复到 google workplace 的链接 (#24080)
修复 DataprocJobBaseOperator 与点状名称不兼容的问题 (#23439)。 (#23791)
从 BigQuery DTS 钩子中删除hack (#23887)
修复 GCSToGCSOperator 无法复制单个文件/文件夹,而不会复制具有该前缀的其他文件/文件夹的问题 (#24039)
解决 biguery 到 gcs 传输时出现的作业竞争错误 (#24330)
其他¶
修复 BigQuery 系统测试 (#24013)
确保 @contextmanager 装饰生成器函数 (#23103)
将 Dataproc 迁移到新的系统测试设计 (#22777)
AIP-47 - 将 google leveldb DAG 迁移到新设计 ##22447 (#24233)
将每个运行日志模板应用于日志处理程序 (#24153)
7.0.0¶
重大更改¶
从 PubSub 运算符中删除已弃用的参数: (#23261)
升级以支持 Google Ads v10 (#22965)
'DataprocJobBaseOperator' 更改 (#23350)
'DataprocJobBaseOperator':参数的顺序已更改。
'region' 参数没有默认值,影响的函数/类: 'DataprocHook.cancel_job' 'DataprocCreateClusterOperator' 'DataprocJobBaseOperator'
'DatastoreHook':删除 'datastore_conn_id'。请使用 'gcp_conn_id' (#23323)
'CloudBuildCreateBuildOperator':删除 'body'。请使用 'build' (#23263)
删除副本集群 id (#23251)
'BigtableCreateInstanceOperator' 删除 'replica_cluster_id', 'replica_cluster_zone'。请使用 'replica_clusters'
'BigtableHook.create_instance':删除 'replica_cluster_id', 'replica_cluster_zone'。请使用 'replica_clusters'
删除参数 (#23230)
'GoogleDisplayVideo360CreateReportOperator':删除 'params'。请使用 'parameters'
'FacebookAdsReportToGcsOperator':删除 'params'。请使用 'parameters'
'GoogleDriveToGCSOperator':删除 'destination_bucket' 和 'destination_object'。请使用 'bucket_name' 和 'object_name' (#23072)
'GCSObjectsWtihPrefixExistenceSensor' 已删除。请使用 'GCSObjectsWithPrefixExistenceSensor' (#23050)
删除 'project':(#23231)
'PubSubCreateTopicOperator':删除 'project'。请使用 'project_id'
'PubSubCreateSubscriptionOperator':删除 'topic_project'。请使用 'project_id'
'PubSubCreateSubscriptionOperator':删除 'subscription_project'。请使用 'subscription_project_id'
'PubSubDeleteTopicOperator':删除 'project'。请使用 'project_id'
'PubSubDeleteSubscriptionOperator':删除 'project'。请使用 'project_id'
'PubSubPublishMessageOperator':删除 'project'。请使用 'project_id'
'PubSubPullSensor':删除 'project'。请使用 'project_id'
'PubSubPullSensor':删除 'return_immediately'
删除 'location' - 替换为 'region' (#23250)
'DataprocJobSensor':删除 'location'。请使用 'region'
'DataprocCreateWorkflowTemplateOperator':删除 'location'。请使用 'region'
'DataprocCreateClusterOperator':删除 'location'。请使用 'region'
'DataprocSubmitJobOperator':删除 'location'。请使用 'region'
'DataprocHook':删除 'location' 参数。请使用 'region'
受影响的函数包括:
'cancel_job'
'create_workflow_template'
'get_batch_client'
'get_cluster_client'
'get_job'
'get_job_client'
'get_template_client'
'instantiate_inline_workflow_template'
'instantiate_workflow_template'
'submit_job'
'update_cluster'
'wait_for_job'
'DataprocHook':'wait_for_job' 函数中参数的顺序已更改
'DataprocSubmitJobOperator':参数的顺序已更改。
删除 xcom_push (#23252)
'CloudDatastoreImportEntitiesOperator':删除 'xcom_push'。请使用 'BaseOperator.do_xcom_push'
'CloudDatastoreExportEntitiesOperator':删除 'xcom_push'。请使用 'BaseOperator.do_xcom_push'
'bigquery_conn_id' 和 'google_cloud_storage_conn_id' 已删除。请使用 'gcp_conn_id' (#23326)
.受影响的类:
'BigQueryCheckOperator'
'BigQueryCreateEmptyDatasetOperator'
'BigQueryDeleteDatasetOperator'
'BigQueryDeleteTableOperator'
'BigQueryExecuteQueryOperator'
'BigQueryGetDataOperator'
'BigQueryHook'
'BigQueryIntervalCheckOperator'
'BigQueryTableExistenceSensor'
'BigQueryTablePartitionExistenceSensor'
'BigQueryToBigQueryOperator'
'BigQueryToGCSOperator'
'BigQueryUpdateTableSchemaOperator'
'BigQueryUpsertTableOperator'
'BigQueryValueCheckOperator'
'GCSToBigQueryOperator'
'ADLSToGCSOperator'
'BaseSQLToGCSOperator'
'CassandraToGCSOperator'
'GCSBucketCreateAclEntryOperator'
'GCSCreateBucketOperator'
'GCSDeleteObjectsOperator'
'GCSHook'
'GCSListObjectsOperator'
'GCSObjectCreateAclEntryOperator'
'GCSToBigQueryOperator'
'GCSToGCSOperator'
'GCSToLocalFilesystemOperator'
'LocalFilesystemToGCSOperator'
'S3ToGCSOperator': 移除 'dest_gcs_conn_id'。 请使用 'gcp_conn_id' (#23348)
'BigQueryHook' 的更改(#23269)
'BigQueryHook.create_empty_table': 移除 'num_retries'。 请使用 'retry'
'BigQueryHook.run_grant_dataset_view_access': 移除 'source_project'。 请使用 'project_id'
'DataprocHook': 移除已弃用的函数 'submit' (#23389)
特性¶
[特性] google provider - BigQueryInsertJobOperator 日志查询(#23648)
[特性] google provider - 拆分 GkeStartPodOperator 执行(#23518)
向 CLOUD_SQL_EXPORT_VALIDATION 添加 exportContext.offload 标志。(#23614)
为 BiqTable 运算符创建链接(#23164)
实现 #22859 - 添加 .sql 作为可模板化的扩展名(#22920)
'GCSFileTransformOperator': 新的可模板化字段 'source_object'、'destination_object' (#23328)
错误修复¶
修复 'PostgresToGCSOperator' 不允许嵌套的 JSON (#23063)
修复 当没有通配符时 GCSToGCSOperator 忽略 replace 参数(#23340)
更新处理器以修复损坏的下载 URL (#23299)
'LookerStartPdtBuildOperator'、'LookerCheckPdtBuildSensor': 修复空的物化 ID 处理(#23025)
将 ComputeSSH 更改为抛出 provider 导入错误,而不是 paramiko (#23035)
修复 DataprocSubmitJobOperator 在执行超时后 cancel_on_kill (#22955)
修复 BigQueryGetDataOperator 的 select * 查询 xcom 推送(#22936)
MSSQLToGCSOperator 失败: datetime 不是 JSON 可序列化的(#22882)
其他¶
添加 Stackdriver 资产并将系统测试迁移到 AIP-47 (#23320)
CloudTasks 资产 & 系统测试迁移 (AIP-47) (#23282)
TextToSpeech 资产 & 系统测试迁移 (AIP-47) (#23247)
修复 google provider 中的代码片段(#23438)
Bigquery 资产(#23165)
移除 'BigQueryUpdateTableSchemaOperator' 中多余的文档字符串(#23349)
将 gcs 迁移到新的系统测试设计(#22778)
在 'BigQueryHook.create_empty_table' 中添加缺少的文档字符串(#23270)
清理 Google provider CHANGELOG.rst (#23390)
将系统测试 gcs_to_bigquery 迁移到新的设计中(#22753)
添加示例 DAG 以演示 GCS 传感器的使用(#22808)
清理内联 f-string 连接(#23591)
升级 pre-commit 钩子版本(#22887)
使用新的 Breese 进行构建、拉取和验证映像。(#23104)
修复 main 中的新 MyPy 错误(#22884)
6.8.0¶
特性¶
在 BQCreateExternalTable 运算符中添加 autodetect 参数(#22710)
为 BigQuery 数据传输添加链接(#22280)
修改传输运算符以处理更多数据(#22495)
为 Vertex AI 服务创建端点和模型服务、批处理预测和超参数调整作业运算符(#22088)
PostgresToGoogleCloudStorageOperator - 时区不敏感字段的 BigQuery 架构类型(#22536)
更新密钥后端以使用 get_conn_value 而不是 get_conn_uri (#22348)
错误修复¶
修复文档字符串(#22497)
修复 'GoogleDisplayVideo360SDFtoGCSOperator' 中的 'download_media' URL (#22479)
修复 'CloudBuildRunBuildTriggerOperator' 无法找到构建 ID 的问题。(#22419)
如果 src 不存在,则 ''LocalFilesystemToGCSOperator'' 失败(#22772)
从 GCSTimeSpanFileTransformOperator 中移除 coerce_datetime 的使用(#22501)
其他¶
重构: BigQuery 到 GCS 运算符(#22506)
移除 PubSub 运算符中对已弃用的运算符/参数的引用(#22519)
新的系统测试设计(#22311)
6.7.0¶
特性¶
将 dataflow_default_options 添加到 templated_fields (#22367)
添加 'LocalFilesystemToGoogleDriveOperator' (#22219)
向 BigQueryInsertJobOperator 添加超时和重试(#22395)
错误修复¶
修复跳过非 GCS 定位的 jar 的问题(#22302)
[修复] gcs 运算符的文档中的拼写错误(#22290)
修复 为所有 提供程序 错误添加的 install_requires (#22382)
6.6.0¶
功能¶
支持 将更大的 文件 上传到 Google 云端硬盘 (#22179)
将默认的 'chunk_size' 更改为清晰的表示 & 添加文档 (#22222)
为 DataprocInstantiateInlineWorkflowTemplateOperator 添加指南 (#22062)
允许使用 GCS Hook 上传 来上传元数据 (#22058)
添加 Dataplex 运算符 (#20377)
其他¶
添加对 ARM 平台 的支持 (#22127)
在 PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)
使用 yaml 安全加载 (#22091)
6.5.0¶
功能¶
添加 Looker PDT 运算符 (#20882)
在 GCSToBigQueryOperator 中,为外部表创建添加 autodetect 参数 (#21944)
添加 Dataproc 资产/链接 (#21756)
为 Vertex AI 服务添加 Auto ML 运算符 (#21470)
添加 GoogleCalendarToGCSOperator (#20769)
使 所有 dataproc 运算符中的 project_id 参数 成为可选的 (#21866)
允许在 更多的 DataprocUpdateClusterOperator 字段中使用模板 (#21865)
Dataflow 资产 (#21639)
将 ClientInfo 提取到模块级别 (#21554)
Datafusion 资产 (#21518)
Dataproc 元存储 资产 (#21267)
规范化 BigQuery 传感器中的 *_conn_id 参数 (#21430)
错误修复¶
修复 bigquery_dts 参数文档字符串中的拼写错误 (#21786)
修复了 当 use_server_side_cursor=True 时, PostgresToGCSOperator 在空结果集上失败的问题 (#21307)
修复 bigquery 示例 DAG 中的多查询场景 (#21575)
其他¶
支持 Python 3.10
取消固定 'google-cloud-memcache' (#21912)
取消固定 ''pandas-gbq'' 并删除未使用的代码 (#21915)
抑制来自 Bigquery 传输的 hook 警告 (#20119)
6.4.0¶
功能¶
添加用于与 Google 日历集成的 hook (#20542)
将 encoding 参数添加到 'GCSToLocalFilesystemOperator' 以修复 #20901 (#20919)
将 batch 作为 DataprocCreateBatchOperator 中的模板化字段 (#20905)
使 wait_for_operation 的 timeout 成为可选的 (#20981)
添加更多 SQL 模板字段渲染器 (#21237)
为 Vertex AI 服务创建 CustomJob 和 Datasets 运算符 (#21253)
支持 将文件上传到 Google 共享云端硬盘 (#21319)
(providers_google) 在 bigquery 中添加位置检查 (#19571)
添加对 BeamGoPipelineOperator 的支持 (#20386)
Google Cloud Composer 运算符 (#21251)
在 BigQuery hook 中启用异步作业提交 (#21385)
如果 GCSToGCSOperator 中源文件不存在,则可选择引发错误 (#21391)
错误修复¶
Cloudsql 导入链接修复。 (#21199)
修复 BigQueryDataTransferServiceHook.get_transfer_run() 请求参数 (#21293)
:bug: (BigQueryHook) 修复 与 sqlalchemy 引擎的兼容性 (#19508)
其他¶
重构运算符链接以不创建临时 TaskInstances (#21285)
6.3.0¶
功能¶
将可选的位置添加到 bigquery 数据传输服务 (#15088) (#20221)
添加 Google Cloud Tasks 操作指南文档 (#20145)
添加了从 MSSQL 到 Google Cloud Storage (GCS)的示例 DAG (#19873)
支持区域 GKE 集群 (#18966)
默认情况下,在 KubernetesPodOperator 中删除 pod (#20575)
错误修复¶
修复 PubSubCreateSubscriptionOperator 的文档字符串 (#20237)
修复 Dataproc 元存储的缺少 get_backup 方法 (#20326)
BigQueryHook 修复 run_load 文档字符串中的拼写错误 (#19924)
修复 在 sftp_to_gcs 上传递 gzip 压缩参数 的问题。 (#20553)
切换到 CloudSQL 提供程序中 httpx.get 调用中的 follow_redirects (#20239)
避免 BigQuery 传输运算符中的弃用警告 (#20502)
将 download_video 参数更改为 resourceName (#20528)
修复 big query 到 mssql/mysql 传输问题 (#20001)
修复 在 ''provide_authorized_gcloud'' 中设置 项目 ID 的问题 (#20428)
其他¶
将 source_objects 数据类型检查移出 GCSToBigQueryOperator.__init__ (#20347)
在 Amazon 提供程序中组织 S3 类 (#20167)
提供程序 facebook hook 多账户 (#19377)
删除已弃用的方法调用 (blob.download_as_string) (#20091)
从 GoogleDriveToGCSOperator 中移除 已弃用的 template_fields (#19991)
注意! apache-airflow-providers-facebook
和 apache-airflow-providers-amazon
的可选功能需要较新版本的 provider(如依赖项中所指定)
6.2.0¶
功能¶
为 DataprocJobSensor 添加 等待机制 ,以避免在 Job 不可用时出现 509 错误 (#19740)
在 GCP 连接中添加从 Secret Manager 读取密钥的支持 (#19164)
添加 dataproc 元存储 操作符 (#18945)
为 GCloud Storage Transfer Service 操作符添加 'path' 参数的支持 (#17446)
将 'bucket_name' 验证移出 Google Marketing Platform 操作符的 '__init__' 中 (#19383)
创建 dataproc serverless spark batches 操作符 (#19248)
更新 CloudDataFusionStartPipelineOperator 的 pipeline_timeout (#18773)
在 GKEStartPodOperator 中支持 impersonation_chain 参数 (#19518)
Bug 修复¶
修复 GKEPodOperator 中错误合并的模拟 (#19696)
6.1.0¶
功能¶
为 query 的 'namespaceId' 添加值 (#19163)
在文件中添加用于常见拼写错误检查的预提交钩子 (#18964)
在 CassandraToGCSOperator 中支持将查询超时作为参数 (#18927)
更新 BigQueryCreateExternalTableOperator 文档和参数 (#18676)
替换 BigQueryToMsSqlOperator 的非属性 template_fields (#19052)
将 Dataproc 包升级到 3.0.0 并从 v1beta2 迁移到 v1 api (#18879)
在子进程中执行 beam 命令时使用 google cloud 凭据 (#18992)
替换 FacebookAdsReportToGcsOperator 的默认 api_version (#18996)
Dataflow 操作符 - 在 on_kill 方法中使用作业中的项目和位置。 (#18699)
Bug 修复¶
修复 CloudSQL Hook 中硬编码的 /tmp 目录 (#19229)
修复 Dataflow hook 在没有返回任何作业时的错误 (#18981)
修复 BigQueryToMsSqlOperator 文档 (#18995)
将模板化输入参数的验证移到上下文初始化后运行 (#19048)
Google provider 捕获无效的密钥名称 (#18790)
6.0.0¶
重大更改¶
将 Google Cloud Build 从 Discovery API 迁移到 Python SDK (#18184)
功能¶
为数据集名称添加索引,以便每个示例 DAG 都有单独的数据集 (#18459)
为某些测试包添加缺失的 __init__.py 文件 (#18142)
添加从系统测试运行 DAG 并查看 DAG 日志的可能性 (#17868)
将 AzureDataLakeStorage 重命名为 ADLS (#18493)
使 next_dagrun_info 接受一个数据间隔 (#18088)
使用 parameters 代替 params (#18143)
新的 google 操作符: SQLToGoogleSheetsOperator (#17887)
Bug 修复¶
修复 部分 Google 系统测试 (#18494)
修复 kubernetes 引擎系统测试 (#18548)
修复 BigQuery 系统测试 (#18373)
修复 使用表资源创建外部表时的错误 (#17998)
修复 ''BigQueryToMySqlOperator'' 中的 ''BigQuery'' 数据提取 (#18073)
修复 main 分支中具有急切升级的 provider 测试 (#18040)
fix(CloudSqlProxyRunner): 不要从 Airflow DB 查询连接 (#18006)
删除 GCSToBigquery 中至少一个模式的检查 (#18150)
在 BigQueryInsertJobOperator 上取消重复运行的作业 (#17496)
5.1.0¶
功能¶
在 GKEStartPodOperator 中为 config_file 参数添加错误检查 (#17700)
Gcp ai 超参数调优 (#17790)
如果指定了 'node_pools' ,则允许省略 'initial_node_count' (#17820)
[Airflow 13779] 在 wait_for_pipeline_state hook 中使用提供的参数 (#17137)
允许在 'template_fields_renderers' 中指定字典路径 (#17321)
不要缓存 Google Secret Manager 客户端 (#17539)
[AIRFLOW-9300] 为 CloudDataFusionStartPipelineOperator 添加 DatafusionPipelineStateSensor 和异步选项 (#17787)
Bug 修复¶
GCP Secret Manager 处理缺失凭据的错误 (#17264)
其他¶
优化 Airflow 2.2.0 的连接导入
添加 secrets 后端/日志/认证 信息 到 提供者 yaml (#17625)
5.0.0¶
重大更改¶
更新了 GoogleAdsHook 以支持 google 弃用 v5 之后的 较新 API 版本。Google Ads v8 是新的 默认 API。(#17111)
Google Ads Hook: 支持 google-ads 库的 较新 版本 (#17160)
警告
底层的 google-ads 库有重大更改。
以前,google ads 库将数据作为原生 protobuf 消息返回。现在,它将数据作为 proto-plus 对象返回,这些对象的行为更像传统的 Python 对象。
为了保持兼容性,hook 的 search()
会在返回数据之前将其转换回原生 protobuf。您现有的运算符 *应该* 像以前一样工作,但由于 v5 API 被弃用的紧迫性,没有进行过彻底的测试。因此,您应该仔细评估此新版本中运算符和 hook 的功能。
为了使用 API 的新 proto-plus 格式,您可以使用 search_proto_plus()
方法。
有关更多信息,请参阅 google-ads 迁移文档
功能¶
将 dataproc 位置 参数 标准化为 区域 (#16034)
添加 自定义 Salesforce 连接 类型 + SalesforceToS3Operator 更新 (#17162)
Bug 修复¶
更新 Google Memmcache 中 field_mask 的 别名 (#16975)
修复: dataprocpysparkjob project_id 作为 self.project_id (#17075)
修复 禁用 替换 和 存在 目标 对象的 GCStoGCS 运算符 (#16991)
4.0.0¶
重大更改¶
自动应用 apply_default 装饰器 (#15667)
警告
由于删除了 apply_default 装饰器,此版本的提供者需要 Airflow 2.1.0+。如果您的 Airflow 版本 < 2.1.0,并且您想安装此提供者版本,请先将 Airflow 升级到至少 2.1.0 版本。否则,您的 Airflow 包版本将自动升级,并且您必须手动运行 airflow upgrade db
以完成迁移。
将 plyvel 移动到 google 提供者 额外项 (#15812)
修复了 AzureFileShare 连接 额外项 (#16388)
功能¶
为 google dataproc 添加 额外 链接 (#10343)
添加 oracle 连接 链接 (#15632)
将 wait_for_done 参数 向下传递到 _DataflowJobsController (#15541)
仅在 GoogleAdsHook 中,而不是 运算符中 使用 api 版本 (#15266)
实现 BigQuery 表 架构 更新 运算符 (#15367)
添加 BigQueryToMsSqlOperator (#15422)
Bug 修复¶
修复: GCS 到 BigQuery source_object (#16160)
修复: ``GCSToLocalFilesystemOperator`` 中 不必要的 下载
(#16171)``修复 当 导出 格式为 parquet 时 出现的 bigquery 类型 错误 (#16027)
修复 bucket 和 object 的 参数 顺序 和 类型 (#15738)
修复 sql_to_gcs 文档字符串 lint 错误 (#15730)
修复: 确保与 MySQL 和 BigQuery 完全兼容的 与日期时间相关的值 (#15026)
修复 google 提供者中 弃用警告 的位置 (#16403)
3.0.0¶
重大更改¶
AutoMLPredictOperator
中的更改¶
airflow.providers.google.cloud.operators.automl.AutoMLPredictOperator
类中的 params
参数被重命名为 operation_params
,因为它与 BaseOperator
类中的 param
参数冲突。
与 apache.beam
提供者集成¶
在提供者的 3.0.0 版本中,我们更改了与 apache.beam
提供者集成的方式。当尝试使用 PIP > 20.2.4 将两个提供者一起安装时,以前的版本会导致冲突。PIP 20.2.4 及更低版本不会检测到冲突,但它确实存在,并且 Google BigQuery
python 客户端的版本在两边不匹配。结果,当安装了 apache.beam
和 google
提供者时,BigQuery
运算符的某些功能可能无法正常工作。这是因为当使用 apache-beam[gcp]
额外项时,apache-beam
客户端尚未支持新的 google python 客户端。 apache-beam[gcp]
额外项由 Dataflow
运算符使用,虽然它们可能与较新版本的 Google BigQuery
python 客户端一起使用,但这不能保证。
此版本为 google
提供者的 apache.beam
额外项引入了额外的额外要求,并且对称地,为 apache.beam
提供者的 google
额外项引入了额外的要求。默认情况下,google
和 apache.beam
提供者都不使用这些额外项,但您可以在安装提供者时指定它们。其结果是,Dataflow
运算符的某些功能可能不可用。
不幸的是,解决此问题的唯一 完整
解决方案是让 apache.beam
迁移到新的 (>=2.0.0) Google Python 客户端。
这是 google
提供者的额外项
extras_require = (
{
# ...
"apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
# ...
},
)
同样,这是 apache.beam
提供者的额外项
extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)
您仍然可以使用 PIP 版本 <= 20.2.4 运行此命令并返回到以前的行为
pip install apache-airflow-providers-google[apache.beam]
或
pip install apache-airflow-providers-apache-beam[google]
但请注意,在这种情况下,某些 BigQuery
运算符功能可能不可用。
功能¶
[Airflow-15245] - 将 自定义 镜像 系列 名称传递给 DataProcClusterCreateoperator (#15250)
Bug 修复¶
Bugfix: 修复 ''GCSToLocalFilesystemOperator'' 中 ''object_name'' 的 渲染 (#15487)
修复 DataprocCreateClusterOperator 中的 拼写错误 (#15462)
修复 leveldb hook 的 错误 路径 (#15453)
2.2.0¶
功能¶
添加 'Trino' 提供者 (测试时占用 更低的 内存) (#15187)
更新 运算符 的 剩余 旧 导入 路径 (#15127)
覆盖 dataprocSubmitJobOperator 中的 项目 (#14981)
带有 标签 和 描述 参数的 GCS 到 BigQuery 传输 运算符 (#14881)
添加 GCS 时间跨度 转换 运算符 (#13996)
将 作业 标签 添加到 bigquery 检查 运算符。 (#14685)
可用时使用 libyaml C 库。 (#14577)
添加 Google leveldb 钩子 和 操作符 (#13109) (#14105)
Bug 修复¶
Google Dataflow 钩子 处理 无 作业类型 (#14914)
2.1.0¶
功能¶
更正了 GCSHook.download 方法中 文档字符串中 参数的 顺序 (#14497)
重构 SQL/BigQuery/Qubole/Druid 检查 操作符 (#12677)
添加 GoogleDriveToLocalOperator (#14191)
为 BigQueryCreateEmptyTable(Dataset)Operator 添加 'exists_ok' 标志 (#14026)
为 BigQuery 添加 物化视图 支持 (#14201)
添加 BigQueryUpdateTableOperator (#14149)
添加 参数 到 CloudDataTransferServiceOperator (#14118)
添加 gdrive_to_gcs 操作符, drive 传感器, 以及 drive 钩子的 附加功能 (#13982)
改进 GCSToSFTPOperator 路径处理 (#11284)
Bug 修复¶
修复 dataproc 操作符和 钩子 (#14086)
#9803 修复 没有 通配符 的 复制操作中的 bug (#13919)
2.0.0¶
重大更改¶
更新了 google-cloud-*
库¶
此提供程序包的版本包含第三方库更新,如果您正在使用这些库中的对象,则可能需要更新 DAG 文件或自定义钩子和操作符。 更新这些库是必要的,以便能够使用新库版本提供的新功能,并获得仅适用于新库版本的错误修复。
详细信息在每个库的 UPDATING.md 文件中介绍,但有一些细节您应该注意。
库名称 |
先前的约束 |
当前的约束 |
升级文档 |
---|---|---|---|
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
字段名称使用 snake_case 约定¶
如果您的 DAG 使用了通过 XCom 传递的上述库中的对象,则需要更新所读取字段的命名约定。 以前,字段使用 CamelSnake 约定,现在使用 snake_case 约定。
之前
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistenceIamIdentity'].split(':', 2)[1] }}",
role="OWNER",
)
之后
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistence_iam_identity']"
".split(':', 2)[1] }}",
role="OWNER",
)
功能¶
添加 Apache Beam 操作符 (#12814)
添加 Google Cloud Workflows 操作符 (#13366)
使用 'GCSHook' 时,用 'gcp_conn_id' 替换 'google_cloud_storage_conn_id' (#13851)
为 Dataflow 添加 操作指南 (#13461)
将 MLEngineStartTrainingJobOperator 通用化到自定义镜像 (#13318)
为 BaseSQLToGCSOperator 添加 Parquet 数据类型 (#13359)
添加 DataprocCreateWorkflowTemplateOperator (#13338)
添加 OracleToGCS 传输 (#13246)
为 gcs 钩子方法添加 超时 选项。 (#13156)
为 dataproc 工作流模板 操作符添加 区域支持 (#12907)
在 BigQuery 钩子的 update_table 方法内,向客户端添加 project_id (#13018)
Bug 修复¶
修复 StackdriverTaskHandler 中的四个 bug (#13784)
解码 远程 Google 日志 (#13115)
修复并改进 GCP BigTable 钩子和系统测试 (#13896)
更新 Google DV360 钩子以修复 SDF 问题 (#13703)
修复 BigQueryHook 的 insert_all 方法以支持 没有架构的 表 (#13138)
修复 Google BigQueryHook 方法 get_schema() (#13136)
修复 Data Catalog 操作符 (#13096)
1.0.0¶
提供程序的初始版本。