apache-airflow-providers-google

更新日志

12.0.0

注意

Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.9+。

重大更改

警告

已从 Google 提供程序包中删除已弃用的类、参数和功能。引入了以下重大更改

  • 操作符

    • 删除了 CreateDataPipelineOperator。请改用 DataflowCreatePipelineOperator

    • 删除了 RunDataPipelineOperator。请改用 DataflowRunPipelineOperator

    • 删除了 CreateDataPipelineOperator。请改用 DataflowCreatePipelineOperator

    • 删除了 RunDataPipelineOperator。请改用 DataflowRunPipelineOperator

  • 钩子

    • 删除了 DataPipelineHook。请改用 DataflowHook

    • 删除了 DataPipelineHook。请改用 DataflowHook

  • Google 提供程序 删除 已弃用 到达 删除 日期 (2024 12 月) (#45084)

功能

  • 添加 Google Vertex AI 功能 存储 - 功能 视图 同步 操作符, 传感器 (#44891)

  • 引入 gcp 翻译(V3), 翻译 文档 提供程序 (#44971)

  • 引入 翻译 API v3 (高级) 模型 操作符。 (#44627)

  • 支持 Dataproc SQL 作业 中的 多个 SQL 查询 (#44890)

  • feat: BigQuery 创建 操作符 添加 OpenLineage 支持 (#44783)

  • feat: S3ToGCSOperator 添加 OpenLineage 支持 (#44426)

  • feat: 自动 OL 信息 注入 DataprocSubmitJobOperator 中的 spark 作业 (#44477)

  • 实现 AlloyDB 操作符: 创建/更新/删除 集群 (#45027)

错误修复

  • 修复 由于重复别名而导致 MetastoreHivePartitionSensor 失败 (#45001)

  • 修复 InsertBigQueryOperator  OpenLineage 发射 失败 (#44650)

  • BigQueryInsertJobOperator: 记录 瞬时 错误,并在将任务标记为成功之前 检查 作业 状态 (#44279)

  • 使 'CloudBatchSubmitJobOperator' 在作业失败时 失败 (#44425)

其他

  • 删除 AIRFLOW_V_2_9_PLUS 引用 (#44987)

  • 提供程序中 检查 Airflow 版本 的一致 方式 (#44686)

  • 修复 yoda-conditions (#44466)

  • feat: gcs 本地之间的 传输 操作符 添加 OpenLineage 支持 (#44417)

  • 提供程序中 最低 Airflow 版本 提升到 Airflow 2.9.0 (#44956)

  • chore: OpenLineage 工具中 删除 已弃用的 bigquery 方面 (#44838)

  • 实现 KubernetesInstallKueueOperator (#44568)

  • 修复 dataform 操作符 文档 (#44729)

  • 弃用 VertexAI PaLM 文本 生成模型 (#44719)

  • 文档中 显示 关于弃用的 醒目警告 (#44479)

  • chore: 统一处理 gcs 路径 (#44410)

11.0.0

重大更改

警告

已从 Google 提供程序包中删除已弃用的类、参数和功能。引入了以下重大更改

  • 操作符

    • 删除了 CreateAutoMLTextTrainingJobOperator。请改用 SupervisedFineTuningTrainOperator

    • 删除了 BigQueryExecuteQueryOperator。请改用 BigQueryInsertJobOperator

    • 删除了 BigQueryPatchDatasetOperator。请改用 BigQueryUpdateDatasetOperator

    • 删除了 DataflowCreateJavaJobOperator。请改用 BeamRunJavaPipelineOperator

    • 删除了 DataflowCreatePythonJobOperator。请改用 BeamRunPythonPipelineOperator

    • 删除了 DataprocSubmitPigJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 DataprocSubmitHiveJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 DataprocSubmitSparkSqlJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 DataprocSubmitSparkJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 DataprocSubmitHadoopJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 DataprocSubmitPySparkJobOperator。请改用 DataprocSubmitJobOperator

    • 删除了 GoogleAnalyticsListAccountsOperator。请改用 GoogleAnalyticsAdminListAccountsOperator

    • 删除了 GoogleAnalyticsGetAdsLinkOperator。请改用 GoogleAnalyticsAdminGetGoogleAdsLinkOperator

    • 删除了 GoogleAnalyticsRetrieveAdsLinksListOperator。请改用 GoogleAnalyticsAdminListGoogleAdsLinksOperator

    • 删除了 GoogleAnalyticsDataImportUploadOperator。请改用 GoogleAnalyticsAdminCreateDataStreamOperator

    • 删除了 GoogleAnalyticsDeletePreviousDataUploadsOperator。请改用 GoogleAnalyticsAdminDeleteDataStreamOperator

    • 删除了 GoogleAnalyticsModifyFileHeadersDataImportOperator。由于 Google Analytics API v3 已停止使用,该类不再实际使用,因此所涵盖的用例不再相关

    • 删除了 GoogleCampaignManagerDeleteReportOperator.delegate_to。请改用 GoogleCampaignManagerDeleteReportOperator.impersonation_chain

    • 删除了 GoogleCampaignManagerDownloadReportOperator.delegate_to。请改用 GoogleCampaignManagerDownloadReportOperator.impersonation_chain

    • 删除了 GoogleCampaignManagerInsertReportOperator.delegate_to。请改用 GoogleCampaignManagerInsertReportOperator.impersonation_chain

    • 删除了 GoogleCampaignManagerRunReportOperator.delegate_to。请改用 GoogleCampaignManagerRunReportOperator.impersonation_chain

    • 删除了 GoogleCampaignManagerBatchInsertConversionsOperator.delegate_to。请改用 GoogleCampaignManagerBatchInsertConversionsOperator.impersonation_chain

    • 删除了 GoogleCampaignManagerBatchUpdateConversionsOperator.delegate_to。请改用 GoogleCampaignManagerBatchUpdateConversionsOperator.impersonation_chain

    • 删除了 GoogleDisplayVideo360CreateQueryOperator.delegate_to。请改用 GoogleDisplayVideo360CreateQueryOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360DeleteReportOperator.delegate_to。请改用 GoogleDisplayVideo360DeleteReportOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360DownloadReportV2Operator.delegate_to。请改用 GoogleDisplayVideo360DownloadReportV2Operator.impersonation_chain

    • 移除了 GoogleDisplayVideo360RunQueryOperator.delegate_to。请改用 GoogleDisplayVideo360RunQueryOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360DownloadLineItemsOperator.delegate_to。请改用 GoogleDisplayVideo360DownloadLineItemsOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360UploadLineItemsOperator.delegate_to。请改用 GoogleDisplayVideo360UploadLineItemsOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360CreateSDFDownloadTaskOperator.delegate_to。请改用 GoogleDisplayVideo360CreateSDFDownloadTaskOperator.impersonation_chain

    • 移除了 GoogleDisplayVideo360SDFtoGCSOperator.delegate_to。请改用 GoogleDisplayVideo360SDFtoGCSOperator.impersonation_chain

    • 移除了 GoogleSheetsCreateSpreadsheetOperator.delegate_to。请改用 GoogleSheetsCreateSpreadsheetOperator.impersonation_chain

    • 移除了 GCSToGoogleDriveOperator.delegate_to。请改用 GCSToGoogleDriveOperator.impersonation_chain

    • 移除了 GCSToGoogleSheetsOperator.delegate_to。请改用 GCSToGoogleSheetsOperator.impersonation_chain

    • 移除了 LocalFilesystemToGoogleDriveOperator.delegate_to。请改用 LocalFilesystemToGoogleDriveOperator.impersonation_chain

    • 移除了 SQLToGoogleSheetsOperator.delegate_to。请改用 SQLToGoogleSheetsOperator.impersonation_chain

    • 移除了 CreateBatchPredictionJobOperator.sync。此参数实际上未使用。

    • 移除了 CreateHyperparameterTuningJobOperator.sync。此参数实际上未使用。

    • 移除了 CustomTrainingJobBaseOperator.sync。此参数实际上未使用。

    • 移除了 GKEStartPodOperator.get_gke_config_file()。请改用 GKEStartPodOperator.fetch_cluster_info()

  • 触发器

    • 移除了 GCSCheckBlobUpdateTimeTrigger.hook_params 参数中对 delegate_to 字段的支持。

  • 传感器

    • 移除了 BigQueryTableExistenceAsyncSensor。请改用 BigQueryTableExistenceSensor 并将 deferrable 属性设置为 True。

    • 移除了 BigQueryTableExistencePartitionAsyncSensor。请改用 BigQueryTablePartitionExistenceSensor 并将 deferrable 属性设置为 True。

    • 移除了 CloudComposerEnvironmentSensor。请改用 CloudComposerCreateEnvironmentOperatorCloudComposerUpdateEnvironmentOperatorCloudComposerDeleteEnvironmentOperator

    • 移除了 GCSObjectExistenceAsyncSensor。请改用 GCSObjectExistenceSensor 并将 deferrable 属性设置为 True。

    • 移除了 GoogleCampaignManagerReportSensor.delegate_to。请改用 GoogleCampaignManagerReportSensor.impersonation_chain

    • 移除了 GoogleDisplayVideo360GetSDFDownloadOperationSensor.delegate_to。请改用 GoogleDisplayVideo360GetSDFDownloadOperationSensor.impersonation_chain

    • 移除了 GoogleDisplayVideo360RunQuerySensor.delegate_to。请改用 GoogleDisplayVideo360RunQuerySensor.impersonation_chain

    • 移除了 GoogleDriveFileExistenceSensor.delegate_to。请改用 GoogleDriveFileExistenceSensor.impersonation_chain

  • 链接

    • 移除了 BigQueryConsoleIndexableLink。此属性实际上不再使用。

    • 移除了 BigQueryConsoleLink。此属性实际上不再使用。

  • 钩子

    • 移除了 GKEDeploymentHook。请改用 GKEKubernetesHook

    • 移除了 GKECustomResourceHook。请改用 GKEKubernetesHook

    • 移除了 GKEPodHook。请改用 GKEKubernetesHook

    • 移除了 GKEJobHook。请改用 GKEKubernetesHook

    • 移除了 GKEPodAsyncHook。请改用 GKEKubernetesAsyncHook

    • 移除了 SecretsManagerHook。请改用 GoogleCloudSecretManagerHook

    • 移除了 GoogleAnalyticsHook。由于 Google Analytics API v3 已停止服务,此类实际上不再使用。

    • 移除了 GoogleBaseHook.delegate_to。请使用 GoogleBaseHook.impersonation_chain。请注意,delegate_to 参数以前在所有 Google hook 中继承,现在已在 Google 提供程序中全部移除支持。

    • 移除了 GoogleDiscoveryApiHook.delegate_to。请改用 GoogleDiscoveryApiHook.impersonation_chain

    • 移除了 GoogleCampaignManagerHook.delegate_to。请改用 GoogleCampaignManagerHook.impersonation_chain

    • 移除了 GoogleDisplayVideo360Hook.delegate_to。请改用 GoogleDisplayVideo360Hook.impersonation_chain

    • 移除了 GoogleSearchAdsHook.delegate_to。请改用 GoogleSearchAdsHook.impersonation_chain

    • 移除了 GoogleCalendarHook.delegate_to。请改用 GoogleCalendarHook.impersonation_chain

    • 移除了 GoogleDriveHook.delegate_to。请改用 GoogleDriveHook.impersonation_chain

    • 移除了 GSheetsHook.delegate_to。请改用 GSheetsHook.impersonation_chain

    • 移除了 BigQueryHook.credentials_path。此属性实际上不再使用。

    • 移除了 GKEHook.get_conn()。请改用 GKEHook.get_cluster_manager_client()

    • 移除了 GKEHook.get_client()。请改用 GKEHook.get_cluster_manager_client()

    • 移除了 BigQueryHook.patch_table()。请改用 BigQueryHook.update_table()

    • 移除了 BigQueryHook.patch_dataset()。请改用 BigQueryHook.update_dataset()

    • 移除了 BigQueryHook.get_dataset_tables_list()。请改用 BigQueryHook.get_dataset_tables()

    • 移除了 BigQueryHook.run_table_delete()。请改用 BigQueryHook.delete_table()

    • 移除了 BigQueryHook.get_tabledata()。请改用 BigQueryHook.list_rows()

    • 移除了 BigQueryHook.cancel_query()。请改用 BigQueryHook.cancel_job()

    • 移除了 BigQueryHook.run_with_configuration()。请改用 BigQueryHook.insert_job()

    • 移除了 BigQueryHook.run_load()。请改用 BigQueryHook.insert_job()

    • 移除了 BigQueryHook.run_copy()。请改用 BigQueryHook.insert_job()

    • 移除了 BigQueryHook.run_extract()。请改用 BigQueryHook.insert_job()

    • 移除了 BigQueryHook.run_query()。请改用 BigQueryHook.insert_job()

    • 移除了 BigQueryHook.create_external_table()。请改用 BigQueryHook.create_empty_table()

    • 移除了 BigQueryHook.get_service()。请改用 BigQueryHook.get_client()

  • 后端

    • 移除了 CloudSecretManagerBackend.get_conn_uri()。请改用 CloudSecretManagerBackend.get_conn_value()

  • 其他弃用

    • 移除了 BigQueryBaseCursor.create_empty_table()。请改用 BigQueryHook.create_empty_table()

    • 移除了 BigQueryBaseCursor.create_empty_dataset()。请改用 BigQueryHook.create_empty_dataset()

    • 移除了 BigQueryBaseCursor.get_dataset_tables()。请改用 BigQueryHook.get_dataset_tables()

    • 移除了 BigQueryBaseCursor.delete_dataset()。请改用 BigQueryHook.delete_dataset()

    • 移除了 BigQueryBaseCursor.create_external_table()。请改用 BigQueryHook.create_empty_table()

    • 已移除 BigQueryBaseCursor.patch_table()。请改用 BigQueryHook.update_table()

    • 已移除 BigQueryBaseCursor.insert_all()。请改用 BigQueryHook.insert_all()

    • 已移除 BigQueryBaseCursor.update_dataset()。请改用 BigQueryHook.update_dataset()

    • 已移除 BigQueryBaseCursor.patch_dataset()。请改用 BigQueryHook.update_dataset()

    • 已移除 BigQueryBaseCursor.get_dataset_tables_list()。请改用 BigQueryHook.get_dataset_tables()

    • 已移除 BigQueryBaseCursor.get_datasets_list()。请改用 BigQueryHook.get_datasets_list()

    • 已移除 BigQueryBaseCursor.get_dataset()。请改用 BigQueryHook.get_dataset()

    • 已移除 BigQueryBaseCursor.run_grant_dataset_view_access()。请改用 BigQueryHook.run_grant_dataset_view_access()

    • 已移除 BigQueryBaseCursor.run_table_upsert()。请改用 BigQueryHook.run_table_upsert()

    • 已移除 BigQueryBaseCursor.run_table_delete()。请改用 BigQueryHook.delete_table()

    • 已移除 BigQueryBaseCursor.get_tabledata()。请改用 BigQueryHook.list_rows()

    • 已移除 BigQueryBaseCursor.get_schema()。请改用 BigQueryHook.get_schema()

    • 已移除 BigQueryBaseCursor.poll_job_complete()。请改用 BigQueryHook.poll_job_complete()

    • 已移除 BigQueryBaseCursor.cancel_query()。请改用 BigQueryHook.cancel_job()

    • 已移除 BigQueryBaseCursor.run_with_configuration()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_load()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_copy()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_extract()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_query()。请改用 BigQueryHook.insert_job()

  • 从 Google 提供程序中删除已弃用的功能 (#43953)

功能

  • feat: 为 BigQueryToBigQueryOperator 添加 OpenLineage 支持 (#44214)

  • 引入 gcp 高级 API (V3),转换原生数据集运算符 (#44271)

  • 引入新的 gcp TranslateText 和 TranslateTextBatch 运算符 (#43860)

  • 向 DataprocCreateClusterOperator 添加 gcloud 命令,使其能够在 GKE 集群上创建 dataproc (#44185)

Bug 修复

  • 修复“BigQueryAsyncHook.create_job_for_partition_get”中不正确的查询。 (#44225)

  • 修复 Dataplex 数据质量的部分更新 (#44262)

其他

  • 将 'google-cloud-translate' 升级到 '3.16' (#44297)

  • 将 'google-cloud-datacatalog' 升级到 '3.23' (#44281)

  • 在代码库中将 execution_date 重命名为 logical_date (#43902)

10.26.0

功能

  • 为 CloudSQL 连接添加 IAM 数据库身份验证支持 (#43631)

  • 为 'GCSToBigQueryOperator' 提供 'force_delete' 选项 (#43785)

  • 统一 BigQuery 运算符之间的 reattach_states 参数逻辑 (#43259)

Bug 修复

  • 从 ListCustomTrainingJobOperator 的 template_fields 中删除不存在的字段 (#43924)

  • 修复 'UploadModelOperator' 中验证 'parent_model' 参数的问题 (#43473)

其他

  • 为 DbApiHook、PrestoHook 和 TrinoHook 添加对分号剥离的支持 (#41916)

  • 删除 Google 提供程序中的 Airflow 2.1 兼容代码 (#43952)

  • 解释如何将 uv 与 airflow virtualenv 一起使用并使其工作 (#43604)

  • 将 python 运算符移动到标准提供程序 (#42081)

  • 更新 Google ADS 的版本 (#43474)

10.25.0

功能

  • feat: 为 GCSHook 添加 Hook 级别沿袭支持 (#42507)

  • feat: 检查 Dataform 操作状态的传感器 (#43055)

  • 为 Google Cloud Vertex AI 上下文缓存创建运算符 (#43008)

Bug 修复

  • 修复过时的 CloudRunExecuteJobOperator 文档 (#43195)

  • 修复 TestTranslationLegacyModelPredictLink dataset_id 错误 (#42463)

其他

  • 为在 dataproc 中创建批处理工作负载添加调试日志 (#43265)

  • 为 plyvel 添加最小版本 (#43129)

  • vertex ai 训练运算符:将 display_name 添加到渲染的字段 (#43028)

  • 使 google 提供程序 pyarrow 依赖项明确 (#42996)

  • 限制 looker-sdk 版本为 24.18.0 和 microsoft-kiota-http 为 1.3.4 (#42954)

10.24.0

功能

  • 为 DataprocCreateClusterOperator 和 DataprocCreateBatchOperator 添加“retry_if_resource_not_ready”逻辑 (#42703)

Bug 修复

  • 如果提供了 batch_id,则在 Dataproc Serverless Batch 启动后发布链接 (#41153)

  • 修复 PubsubPullTrigger 中的 PubSubAsyncHook 以使用 gcp_conn_id (#42671)

  • 修复 PubSubPullSensor 的一致返回响应 (#42080)

  • 在拆分完整的 BigQuery 表名称时,取消从表名称中排除分区 (#42541)

  • 修复 gcp 文本到语音 uri 获取 (#42309)

  • 在“GCSHook”中重构“bucket.get_blob”调用,以处理对不存在对象的验证。 (#42474)

  • Bugfix/dataflow 作业位置传递 (#41887)

其他

  • 移除 airflow 2.8.0 及以上版本中 任务 上下文 日志记录的 条件 检查 (#42764)

  • 与数据集相关的 python 变量名 重命名为 资产 (#41348)

  • 弃用 AutoMLBatchPredictOperator 并重构 AutoMl 系统测试 (#42260)

10.23.0

新功能

  • 添加在 dataproc 集群中创建 Flink 作业的功能 (#42342)

  • 添加新的 Google Search 360 Reporting 操作符 (#42255)

  • return_immediately 作为参数添加到 PubSubPullSensor (#41842)

  • 'UploadModelOperator' 中添加 parent_model 参数 (#42091)

  • 添加 DataflowStartYamlJobOperator (#41576)

  • Google Vertex AI Rapid Evaluation API 添加 RunEvaluationOperator (#41940)

  • Google Generative AI CountTokensAPI 添加 CountTokensOperator (#41908)

  • 添加 监督微调训练操作符、钩子、测试和文档 (#41807)

Bug 修复

  • 修复了一些小问题,以确保 Vertex AI LLMops 管道的成功运行 (#41997)

  • BigQuery 表名中排除 分区 (#42130)

  • [修复 #41763]: 当未指定 destination_path 或具有默认值时, SFTPToGCSOperator 中存在多余的 正斜杠 (#41928)

  • 修复 GKEJobTrigger 中的 poll_interval (#41712)

  • 更新 dataflow 作业 ID 提取的 模式 (#41794)

  • 强制使用带有 EOL 的弃用消息格式 ,用于 google 提供程序包 (#41637)

  • 修复 KubernetesJobOperator 'do_xcom_push' 'get_logs' 功能 (#40814)

其他

  • 标记 VertexAI AutoMLText 已弃用 (#42251)

  • 排除 google-cloud-spanner 3.49.0 (#42011)

  • 删除 已弃用的 Google analytics 操作符的 系统测试 (#41946)

  • 更新 google-cloud-bigquery 包的 最低版本 (#41882)

  • 取消固定 Google 提供程序的 google-cloud-bigquery 包版本 (#41839)

  • 弃用 DAG.following_schedule() 方法 (#41773)

  • 从提供程序中移除 已弃用的 soft_fail (#41710)

  • 更新 google-ads 的版本 (#41638)

  • 删除 已弃用的日志处理程序参数 filename_template (#41552)

主要

警告

之前的 Search Ads 360 Reporting API <https://developers.google.com/search-ads/v2/how-tos/reporting> (当前在 google-provider 中使用) 已于 2024 年 6 月 30 日停止使用 (详见 <https://developers.google.com/search-ads/v2/migration>)。所有新的报表开发都应使用新的 Search Ads 360 Reporting API。当前,报表操作符、传感器和钩子由于停用而失败。新的 API 不是旧 API 的替代品,它具有不同的方法和端点。因此,为新的 API 实现了新的操作符。

10.22.0

注意

此提供程序版本仅适用于 Airflow 2.8+,如 Apache Airflow 提供程序支持策略中所述。

新功能

  • 添加 'CloudRunServiceHook' 'CloudRunCreateServiceOperator' (#40008)

Bug 修复

  • 修复(providers/google): 将缺少的 sync_hook_class 添加到 CloudDataTransferServiceAsyncHook (#41417)

其他

  • 将提供程序中的 最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)

  • 重构 'DataprocCreateBatchOperator' (#41527)

  • 升级 gcloud-aio-auth>=5.2.0 (#41262)

10.21.1

Bug 修复

  • 修复 CloudSQL 钩子的 不必要导入 (#41009)

  • 将敏感信息移动到 google_analytics_admin 系统测试的 secret 管理器 (#40951)

  • 修复 自定义训练作业操作符以接受没有托管模型的结果 (#40685)

  • 修复 BigQueryInsertJobOperator reattach_state 参数的行为 (#40664)

  • 修复 CloudSQLDatabaseHook 临时文件处理 (#41092)

其他

  • 重构 dataproc 系统测试 (#40720)

  • openlineage: OpenLineage 提供程序迁移到 V2 facet。 (#39530)

  • 解决 CloudSQLDatabaseHook 弃用警告 (#40834)

  • 修复 BeamRunJavaPipelineOperator 在未设置 job_name 的情况下失败的问题 (#40645)

10.21.0

注意

更改 修复 'GCSToGCSOperator' 移动单个对象时的行为差异 (#40162)已被还原,因为它会破坏太多现有的工作流程。GCSToGCSOperator 的行为已恢复到之前的行为。

新功能

  • 更新 Google Cloud Generative Model 钩子/操作符,以与 Vertex AI API 保持一致 (#40484)

  • DataflowStartFlexTemplateOperator。 在每个检查周期检查 Dataflow 作业类型。 (#40584)

  • chunk_size 参数添加到 LocalFilesystemToGCSOperator (#40379)

  • BigQueryCheckOperator 添加对查询参数的支持 (#40558)

  • DataprocCreateBatchOperator 中添加指向 dataproc 作业的链接按钮 (#40643)

Bug 修复

  • 还原 "修复 'GCSToGCSOperator' 移动单个对象时的行为差异 (#40162)" (#40577)

  • 修复 BigQueryInsertJobOperator 在可延迟模式下的返回值和 openlineage 提取 (#40457)

  • 修复 GCP 可延迟操作符的 OpenLineage 提取 (#40521)

  • 修复 CloudBatchSubmitJobOperator 中对 project_id 的尊重 (#40560)

10.20.0

注意

现在,当移动或复制单个对象时,GCSToGCSOperator 会保留嵌套的文件夹结构,使其行为与处理多个对象时的行为一致。如果此更改影响到您的工作流程,您可能需要调整 source_object 参数,使其包含到包含单个文件的文件夹的完整路径,并显式指定 destination_object 以忽略嵌套的文件夹。例如,如果您之前使用 source_object='folder/nested_folder/' 来移动文件 'folder/nested_folder/second_nested_folder/file',现在您应该使用 source_object='folder/nested_folder/second_nested_folder/' 并指定 destination_object='folder/nested_folder/'。这将把文件移动到 'folder/nested_folder/file',而不是像之前那样固定地移动到 'folder/nested_folder/second_nested_folder/file'

警告

上述更改已在 10.21.0 版本中回滚。 GCSToGCSOperator 的行为已恢复到之前的状态。

功能

  • Google Cloud 多模态模型运算符 添加 generation_config safety_settings 配置 (#40126)

  • 'BigQueryUpdateTableSchemaOperator' 添加 缺失的 location 参数 (#40237)

  • Google Cloud 运算符添加 对外部 IdP OIDC 令牌检索的支持 (#39873)

  • BigQuery 运算符添加 encryption_configuration 参数 (#40063)

  • GoogleBaseAsyncHook 添加默认的 gcp_conn_id (#40080)

  • PubSubPublishMessageOperator GCP 运算符添加 排序键 选项 (#39955)

  • GCSHook 中添加从 GCS blob 获取元数据的方法 (#38398)

  • AutoMLHook 中的 create_auto_ml_forecasting_training_job 中添加窗口参数 (#39767)

  • 实现 CloudComposerDAGRunSensor (#40088)

  • 实现 'CloudDataTransferServiceRunJobOperator' (#39154)

  • 异步获取 GKEStartPod 的中间日志 (#39348)

  • Google 提供程序包中为 AzureBlobStorageToGCSOperator 添加 OpenLineage 支持 (#40290)

错误修复

  • 修复 hive_partition_sensor 系统测试 (#40023)

  • 修复 openai 1.32 破坏 openai 测试的问题 (#40110)

  • 修复 google auth mypy 版本发现的凭据初始化问题 (#40108)

  • 修复 DataflowHook 中排除双引号和换行符的正则表达式 (#39991)

  • 修复 BigQueryToPostgresOperator replace 参数 (#40278)

  • 修复 'GCSToGCSOperator' 在移动单个对象时的行为差异 (#40162)

其他

  • 重构 datapipeline 运算符 (#39716)

  • 更新 Python 3.12 pandas 最低要求 (#40272)

  • 实现 具有最低直接依赖项解析的每个提供程序的测试 (#39946)

  • openlineage: 在单独的进程中执行提取和消息发送 (#40078)

  • google-auth 的最低版本提升至 2.29.0 (#40190)

  • google-ads 版本提升为默认使用 v17 (#40158)

  • google: openlineage 导入移动到方法内部 (#40062)

  • DataplexGetDataQualityScanResultOperator 中添加 job_id 作为 模板字段 (#40041)

  • 在所有位置添加对 httpx >= 0.25.0 的依赖 (#40256)

10.19.0

注意

在 AutoML 自然语言、表格、视觉和视频智能服务的旧版本关闭后,多个 AutoML 运算符已停止支持。这包括 AutoMLDeployModelOperatorAutoMLTablesUpdateDatasetOperatorAutoMLTablesListTableSpecsOperatorAutoMLTablesListColumnSpecsOperator。请参阅运算符文档以查找可用的替代方案(如果有)。有关 AutoML 关闭的更多信息,请参阅

功能

  • GCP 基础钩子中引入匿名凭据 (#39695)

错误修复

  • 如果将 parent_model 版本后缀传递给 Vertex AI 运算符,则将其删除 (#39640)

  • 修复如果缺少位置,则 BigQueryCursor 执行方法的问题 (#39659)

  • 修复 PubSubPullSensor 在可延迟模式下的确认功能 (#39711)

  • AutoML 运算符链接重定向到 Google 翻译链接 (#39668)

  • google-cloud-bigquery 固定为 < 3.21.0 (#39583)

其他

  • 删除 Google Snowflake 提供程序中的 'openlineage.common' 依赖项 (#39614)

  • 弃用 AutoML 表格运算符 (#39752)

  • 解决 Azure FileShare-to-GCS 测试中的弃用警告 (#39599)

  • typo: spec 中使用错误的 OpenLineage facet key (#39782)

  • StackdriverTaskHandler 中删除了过时的代码 (#39744)

10.18.0

注意

Apache Airflow 提供程序支持策略 中所述,此提供程序的版本仅适用于 Airflow 2.7+。

功能

  • Google llm 运算符添加模板化字段 (#39174)

  • 添加当 deferrable=True 时处理 BigQueryInsertJobOperator on_kill 的逻辑 (#38912)

  • 创建 'CloudComposerRunAirflowCLICommandOperator' 运算符 (#38965)

  • Dataflow 传感器的可延迟模式 (#37693)

  • 自定义训练作业运算符的可延迟模式 (#38584)

  • 增强 CloudSQLExecuteQueryOperator 中的 SSL 支持 (#38894)

  • 创建 GKESuspendJobOperator GKEResumeJobOperator 运算符 (#38677)

  • Google 传输服务运算符中的 aws 凭证添加对角色 arn 的支持 (#38911)

  • BigQueryCheckOperator BigQueryTableCheckOperator 添加 encryption_configuration 参数 (#39432)

  • 'BigQueryGetDataOperator' 添加 'job_id' 参数 (#39315)

Bug 修复

  • 修复 DataflowTemplatedJobStartOperator DataflowStartFlexTemplateOperator 的可延迟模式 (#39018)

  • 修复 BigQueryToPostgresOperator 的批量处理 (#39233)

  • 修复 当任务标记为失败时,deferrable mode=True 下的 DataprocSubmitJobOperator (#39230)

  • 修复 GCSObjectExistenceSensor 操作符在可延迟和不可延迟模式下返回相同的 XCOM (#39206)

  • 修复 conn_id BigQueryToMsSqlOperator (#39171)

  • 修复 google 身份验证刷新凭据错误的情况下添加重试逻辑 (#38961)

  • 修复 BigQueryCheckOperator 在可延迟模式下跳过的值和错误检查 (#38408)

  • 修复 GCSDeleteObjectsOperator 中,为 OpenLineage 数据集使用前缀而不是所有文件路径 (#39059)

  • 修复 GCSToGCSOperator 中,为 OpenLineage 数据集使用前缀而不是完整文件路径 (#39058)

  • 修复 GCSTimeSpanFileTransformOperator 中的 OpenLineage 数据集 (#39064)

  • 修复 'DataprocSubmitPySparkJobOperator' 中的临时文件名生成 (#39498)

  • 修复 如果 TaskInstance 不处于运行或延迟状态,则取消 DataprocSubmitJobOperator 的外部作业的逻辑 (#39447)

  • 修复 如果 TaskInstance 不处于运行或延迟状态,则取消 BigQueryInsertJobOperator 的外部作业的逻辑 (#39442)

  • 修复 如果 TaskInstance 不处于运行或延迟状态,则取消 DataprocCreateClusterOperator 的外部作业的逻辑 (#39446)

  • 修复 'DataprocCreateBatchOperator' 使用 'result_retry' 引发 'AttributeError' (#39462)

  • 修复 GKEStartKueueInsideClusterOperator yaml 解析 (#39234)

  • 修复 BigQueryInsertJobOperator 中标签值的验证 (#39568)

其他

  • provider Airflow 的最低版本提升到 Airflow 2.7.0 (#39240)

  • 改进 'DataprocCreateClusterOperator' 触发器,以实现更好的错误处理和资源清理 (#39130)

  • Microsoft Azure provider 中添加 MSGraphOperator (#38111)

  • Google provider 中应用 PROVIDE_PROJECT_ID mypy 解决方法 (#39129)

  • 处理 KubernetesDeleteJobOperator 导入 (#39036)

  • 移除 Airflow 2.6 向后兼容代码 (#39558)

  • 重新应用所有 provider 的模板 (#39554)

  • 更快地 导入 'airflow_version' (#39552)

  • 为已弃用的内容添加弃用警告并引发异常 (#38673)

  • 简化 'airflow_version' 导入 (#39497)

  • GKE 操作符与已弃用的钩子断开连接 (#39434)

10.17.0

特性

  • BigQuery 添加 'impersonation_scopes' (#38169)

  • RunPipelineJobOperator 添加可延迟模式 (#37969)

  • 添加 GKECreateCustomResourceOperator GKEDeleteCustomResourceOperator 操作符 (#37616)

  • Google Cloud 生成式 AI 使用添加 VertexAI 语言模型和多模态模型操作符 (#37721)

  • 添加 GKEListJobsOperator GKEDescribeJobOperator (#37598)

  • 创建 GKEStartKueueJobOperator 操作符 (#37477)

  • 创建 DeleteKubernetesJobOperator GKEDeleteJobOperator 操作符 (#37793)

  • 更新 GCS 钩子,以获取受 CMEK 保护的对象的 crc32c 哈希值 (#38191)

  • BigQuery 作业中设置用于可追溯性的作业标签 (#37736)

  • CreateBatchPredictionJobOperator 的可延迟模式 (#37818)

Bug 修复

  • 修复 BigQuery 连接并添加文档 (#38430)

  • 修复(google,log): 避免日志名称被覆盖 (#38071)

  • 修复 S3ToGCSOperator 触发器的凭据错误 (#37518)

  • 修复 GCP Vertex AI AutoML 和自定义作业操作符中的 'parent_model' 参数 (#38417)

  • 修复(google): 在触发器中,向 while 循环中的 yield 添加 return 语句 (#38394)

  • 修复 'PostgresToGCSOperator' 中游标的唯一名称超过 Postgres 标识符限制的问题 (#38040)

  • 修复 gcs 匿名用户问题,因为没有令牌 (#38102)

  • 修复 BigQueryTablePartitionExistenceTrigger 分区查询 (#37655)

其他

  • 添加 google-cloud-bigquery 作为显式的 google-provider 依赖项 (#38753)

  • 避免在 'google' provider 的类方法中使用 'functools.lru_cache' (#38652)

  • 重构 GKE 钩子 (#38404)

  • airflow包中删除未使用的循环变量(#38308)

  • 模板化字段逻辑检查cloud_storage_transfer_service(#37519)

  • 重命名mlengine的操作符的字段名称,以符合模板化字段验证(#38053)

  • 重命名Vertex AI AutoML 操作符的字段名称,以符合模板化字段验证(#38049)

  • 重命名'DeleteCustomTrainingJobOperator'的字段名称,以符合模板化字段验证(#38048)

  • Google Cloud检索的Google转移操作符恢复delegate_to。(#37925)

  • 重构CreateHyperparameterTuningJobOperator(#37938)

  • 升级google-ads版本(#37787)

10.16.0

特性

  • 'CloudRunExecuteJobOperator': project_id添加到hook.get_job调用中(#37201)

  • 开发者令牌作为身份验证方法添加到GoogleAdsHook(#37417)

  • 添加GKEStartKueueInsideClusterOperator(#37072)

  • BigQueryInsertJobTrigger添加可选的'location'参数(#37282)

  • feat(GKEPodAsyncHook): 使用异步凭据令牌实现(#37486)

  • 创建GKEStartJobOperatorKubernetesJobOperator(#36847)

错误修复

  • 修复'DataFusionPipelineLinkHelper'的无效弃用(#37755)

  • 修复模板化字段赋值'google/cloud/operators/compute.py'(#37659)

  • 修复bq_to_mysql初始化检查(#37653)

  • 修复Async GCSObjectsWithPrefixExistenceSensor xcom推送(#37634)

  • 修复GCSSynchronizeBucketsOperator超时错误(#37237)

  • 修复:insert_rows的签名与超类型DbApiHook不兼容(#37391)

  • _CredentialsToken中使用偏移感知日期时间(#37539)

  • DataprocInstantiateInlineWorkflowTemplateOperator中使用wait_for_operation(#37145)

杂项

  • 修复DataflowStartFlexTemplateOperator文档中的拼写错误(#37595)

  • 仅在'DbApiHook.insert_rows'中使'executemany'关键字参数成为仅限关键字参数(#37840)

  • 'aws_conn_id'类型统一为始终为'str | None'(#37768)

  • 'pandas'限制为'<2.2'(#37748)

  • 删除已损坏的弃用回退到Google提供程序操作符中(#37740)

  • 实现AIP-60数据集URI格式(#37005)

  • 解决'bigquery'的模板字段初始化检查(#37586)

  • 更新DataprocCreateBatchOperator的文档(#37562)

  • 替换提供程序中'datetime.utcnow''datetime.utcfromtimestamp'的使用(#37138)

10.15.0

特性

  • 添加service_file支持到GKEPodAsyncHook(#37081)

  • 更新GCP Dataproc ClusterGenerator以支持GPU参数(#37036)

  • 创建DataprocStartClusterOperatorDataprocStopClusterOperator(#36996)

  • CreateHyperparameterTuningJobOperator实现可延期模式(#36594)

  • GKEPodHook启用'_enable_tcp_keepalive'功能(#36999)

错误修复

  • 修复(providers/google): 修复GKEPodAsyncHook.service_file_as_context的使用方式(#37306)

  • 修复ComputeEngineSSHHook的元数据覆盖(#37192)

  • 修复自定义作业中'__init__'中的模板字段赋值(#36789)

  • 修复DataflowTemplatedJobStartOperator中的位置要求(#37069)

  • 修复'CloudDataTransferServiceCreateJobOperator''__init__'中的模板字段赋值(#36909)

  • 修复GCP Data Fusion链接的硬编码默认命名空间值。(#35379)

  • 如果Dataproc集群配置中设置为false,则不要忽略internal_ip_only(#37014)

杂项

  • 恢复针对google-core-api的向后兼容性问题的保护(#37111)

  • feat: 将所有类、函数、方法弃用切换为装饰器(#36876)

10.14.0

注意

BaseSQLToGCSOperatorparquet_row_group_size的默认值已从1更改为100000,以便提供默认值,从而提供更好的压缩效率和读取输出Parquet文件中数据的性能。在许多情况下,先前的1值导致文件非常大,任务持续时间长以及内存不足的问题。默认值100000可能需要更多内存来执行操作符,在这种情况下,用户可以在操作符中覆盖parquet_row_group_size参数。当export_formatparquet时,所有派生自BaseSQLToGCSOperator的操作符都会受到影响:MySQLToGCSOperatorPrestoToGCSOperatorOracleToGCSOperatorTrinoToGCSOperatorMSSQLToGCSOperatorPostgresToGCSOperator。鉴于以上情况,我们将此更改视为错误修复。

特性

  • 'BigQueryToPostgresOperator''BigQueryToSqlBaseOperator'添加模板化字段(#36663)

  • 添加了检查取消工作流调用的功能,并添加了新的查询工作流调用操作符(#36351)

  • 实现Google Analytics Admin (GA4)操作符(#36276)

  • 添加用于诊断群集的操作符(#36899)

  • 作用域添加到GCP令牌中(#36974)

  • feat: 完全支持gcloud-aio客户端中的Google凭据(#36849)

错误修复

  • 修复模板化字段到超类构造函数(#36934)

  • 修复:GKEStartPodOperator中尊重连接ID和模拟(#36861)

  • 修复提供程序中warnings.warn中的stacklevel(#36831)

  • 修复 GCP Dataproc 链接中的 弃用 问题 (#36834)

  • 修复 构造函数中 模板化字段 赋值 问题 (#36603)

  • 延迟 Dataproc 运算符以触发之前 检查 集群状态 (#36892)

  • 防止 运算符 __init__ 中的 模板化字段 逻辑检查 (#36489)

  • 通过 BigQuery 加载 API 直接保留 ASCII 控制字符 (#36533)

  • 更改 'BaseSQLToGCSOperator' 默认的 'parquet_row_group_size' (#36817)

  • 修复 Google 运算符对 模拟链 的处理 (#36903)

其他

  • style(providers/google): 改进 BigQueryInsertJobOperator 类型提示 (#36894)

  • 弃用 用于视觉和视频的 AutoMLTrainModelOperator (#36473)

  • 删除 KubernetesPodOperator 模块的 向后兼容性 检查 (#36724)

  • 删除 KubernetesPodTrigger 模块的 向后兼容性 检查 (#36721)

  • 所有 提供程序和 airflow 最低 pandas 依赖项 设置为 1.2.5 (#36698)

  • 删除 不必要的 模板化字段 (#36491)

  • docs(providers/google): 文档字符串中将 GoogleBaseHookAsync 改写为 GoogleBaseAsyncHook (#36946)

10.13.1

其他

  • 删除 stackdriver 向后兼容代码 (#36442)

  • 删除 未使用的 '_parse_version' 函数 (#36450)

  • GCS 任务处理程序中删除剩余的 Airflow 2.5 向后兼容代码 (#36443)(#36457)

10.13.0

注意

此提供程序版本仅适用于 Airflow 2.6+,如 Apache Airflow 提供程序支持策略中所述。

特性

  • GCP Secrets 后端模拟 (#36072)

  • GcsOperators 添加 OpenLineage 支持 - 删除、转换和时间范围转换 (#35838)

  • 添加 使用 computeEngineSSHHook(google 提供程序) IAP 隧道进行 服务帐户模拟 的支持 (#35136)

  • 添加 数据扫描分析 (#35696)

  • Google Cloud Run 作业执行运算符 模板字段添加覆盖 (#36133)

  • BeamRunJavaPipelineOperator 实现 可延迟模式 (#36122)

  • 添加 在不可延迟模式下 BeamRunPythonPipelineOperator 运行 流式作业 的能力 (#36108)

  • GCSObjectExistenceSensor 添加 use_glob (#34137)

Bug 修复

  • 修复 DataprocSubmitJobOperator 以检索失败的作业错误消息 (#36053)

  • 修复 CloudRunExecuteJobOperator 可延迟模式下无法检索 Cloud Run 作业状态 的问题 (#36012)

  • 修复 gcs 列表 - 确保加载 blobs (#34919)

  • 允许 模拟链中存在多个元素 (#35694)

  • Google Dataflow 客户端的重试类型更改为异步类型 (#36141)

  • DataprocCreateClusterOperator 运算符文档的次要修复。 (#36322)

  • fix(bigquery.py): 将正确的 project_id 传递给触发器 (#35200)

  • 在检查前缀之前迭代 blobs (#36202)

  • 修复 google-cloud-monitoring 2.18.0 的不兼容性问题 (#36200)
    • 更新 PubSubAsyncHook 中的 'retry' 参数类型 (#36198)

其他

  • 将提供程序中的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)

  • 弃用 'CloudComposerEnvironmentSensor', 转而使用具有延迟模式的 'CloudComposerCreateEnvironmentOperator' (#35775)

  • 遵循 子类中的 BaseHook 连接字段方法签名 (#36086)

  • 允许传递存储选项 (#35820)

  • 添加从源代码构建“先有鸡还是先有蛋”包的功能 (#35890)

  • Google 提供程序中删除剩余的 Airflow 2.5 向后兼容代码 (#36366)

  • KubernetesPodTrigger 钩子移动到缓存属性 (#36290)

  • 通过 Ruff 在文档字符串中添加代码片段格式化 (#36262)

10.12.0

特性

  • schema_settings message_retention_duration 添加了主题参数。 (#35767)

  • GCSToBigQueryOperator 添加 OpenLineage 支持 (#35778)

  • BigQueryToGCSOperator 添加 OpenLineage 支持 (#35660)

  • Dataproc 添加 驱动程序池、实例灵活性策略和最小实例数支持 (#34172)

  • Dataproc 工作节点添加 “NON_PREEMPTIBLE” 作为有效的抢占类型 (#35669)

  • 添加将 impersonation_chain 传递给 BigQuery 触发器的能力 (#35629)

  • GoogleDisplayVideo360CreateQueryOperator中添加本地文件过滤器(#35635)

  • 扩展任务上下文日志记录支持,以便使用GCP GCS进行远程日志记录(#32970)

Bug 修复

  • 修复并重新应用提供程序文档的模板(#35686)

  • 修复检查Dataflow作业状态的逻辑(#34785)

其他

  • BigQueryToBigQueryOperator中删除已弃用方法的使用(#35605)

  • 在父级而非自身上检查attr关于TaskContextLogger set_context(#35780)

  • 在提供程序中删除与Airflow 2.3/2.4的向后兼容性(#35727)

  • GoogleDiscoveryApiHook中恢复delegate_to参数(#35728)

  • BigQueryCursor中删除已弃用方法的使用(#35606)

  • 对齐’MSSQLToGCSOperator’的文档(#35715)

10.11.1

其他

  • Google Ads API版本从v14更新为v15(#35295)

10.11.0

功能

  • AIP-58: 添加Airflow ObjectStore (AFS)(#34729)

  • 改进Dataprep钩子(#34880)

其他

  • CloudRunExecuteJobOperator添加了“overrides”参数(#34874)

10.10.1

其他

  • 添加与Google Cloud Storage相关的文档之间的链接(#34994)

  • AI Platform Prediction的旧版本迁移到VertexAI(#34922)

  • DataprocInstantiate{Inline}WorkflowTemplateOperatoron_kill中取消工作流(#34957)

10.10.0

注意

Apache Airflow 提供程序支持策略中所述,此提供程序版本仅适用于 Airflow 2.5+。

功能

  • 改进:BigQueryIntervalCheckOperator中引入project_id(#34573)

Bug 修复

  • 当为google传感器引发异常时,遵守soft_fail参数(#34501)

  • 修复GCSToGoogleDriveOperatorgdrive系统测试(#34545)

  • 修复LookerHook序列化缺少一个参数错误(#34678)

  • 修复Dataform系统测试(#34329)

其他

  • 提升提供程序的最低airflow版本(#34728)

  • 重构DataFusionInstanceLink的使用(#34514)

  • Google提供程序示例中使用“airflow.models.dag.DAG”(#34614)

  • 弃用生命科学操作符和钩子(#34549)

  • 在提供程序中使用“airflow.exceptions.AirflowException”(#34511)

10.9.0

功能

  • CloudDataFusionStartPipelineOperator添加对流(实时)管道的显式支持(#34271)

  • Dataflow操作符添加“expected_terminal_state”参数(#34217)

Bug 修复

  • 修复“ComputeEngineInsertInstanceOperator”在给定body参数时,不遵守jinja模板化的实例名称(#34171)

  • 修复:BigQuery作业错误消息(#34208)

  • GKEPodHook忽略gcp_conn_id参数。(#34194)

其他

  • Google提供程序提升最低common-sql提供程序版本(#34257)

  • 删除字典上对keys()方法的不必要调用(#34260)

  • 重构:在提供程序中进行积极思考(#34279)

  • 重构:简化providers/google中的代码(#33229)

  • 重构:简化比较(#34181)

  • 弃用NLAutoMLTrainModelOperator(#34212)

  • 简化为bool(...)(#34258)

  • 使Google Dataform操作符的templated_fields更加一致(#34187)

10.8.0

功能

  • Dataplex DataQuality添加可延迟模式。(#33954)

  • 允许在Google Cloud连接上设置impersonation_chain(#33715)

Bug 修复

  • 修复(providers/google-marketing-platform):当引发异常时,遵守soft_fail参数(#34165)

  • 修复:endpoint_service.py中的文档字符串(#34135)

  • 修复BigQueryValueCheckOperator可延迟模式优化(#34018)

  • 动态设置Datafusion管道的构件版本(#34068)

  • 如果Dataproc群集以ERROR状态启动,则尽早删除它。(#33668)

  • 通过将sleep替换为asyncio.sleep,避免在使用DataFusionAsyncHook时阻塞事件循环(#33756)

其他

  • 整合os.path.*的导入(#34060)

  • 重构提供程序中的正则表达式(#33898)

  • 当在Google提供程序中可能时,将try移到循环之外(#33976)

  • 组合提供程序中类似的if逻辑(#33987)

  • 从提供程序中删除无用的字符串连接(#33968)

  • 更新 Azure 文件共享 hook 以使用 azure-storage-file-share 而不是 azure-storage-file (#33904)

  • 重构 providers 中不必要的 跳转 (#33833)

  • providers 中查找正值时,将循环替换为 any (#33984)

  • providers 中,将 try - except pass 替换为 contextlib.suppress (#33980)

  • providers 代码中删除一些无用的 try/except (#33967)

  • Airflow providers 中,将序列连接替换为解包 (#33933)

  • 'BigQueryHook.get_pandas_df' 中删除一个已弃用的选项 (#33819)

  • providers 中,将不必要的字典推导式替换为 dict() (#33857)

  • 通过将一些模块移动到类型检查块中,改进 google provider 中的模块导入 (#33783)

  • providers 中使用带有多个上下文的单个语句,而不是嵌套语句 (#33768)

  • providers 中使用文字字典,而不是调用 dict() (#33761)

  • providers 中删除不必要的代码并使用 list 重写 (#33763)

  • 重构: 简化一些循环 (#33736)

  • E731: Airflow providers 中,将 lambda 替换为 def 方法 (#33757)

  • Airflow providers 中使用 f-string 代替 (#33752)

10.7.0

特性

  • 添加 CloudRunHook operators (#33067)

  • 添加 'CloudBatchHook' operators (#32606)

  • 添加对 Google Cloud Data Pipelines Run Operator 的支持 (#32846)

  • 添加参数 sftp_prefetch SFTPToGCSOperator (#33274)

  • 添加 Google Cloud Data Pipelines Create Operator (#32843)

  • 添加 Dataplex 数据质量 operators. (#32256)

Bug 修复

  • 修复 BigQueryCreateExternalTableOperator 在使用与 CSV 不同的格式时的问题 (#33540)

  • 修复 DataplexDataQualityJobStatusSensor 并添加单元测试 (#33440)

  • 避免在运行时和模块级别导入 pandas numpy (#33483)

其他

  • DataformCreateCompilationResultOperator 添加缺少的模板字段 (#33585)

  • 合并 pandas 的导入和使用 (#33480)

  • datetime 导入 utc 并规范化其导入 (#33450)

10.6.0

特性

  • openlineage, bigquery: BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)

  • GCSToS3Operator 添加 GCS 请求者付费存储桶支持 (#32760)

  • CloudDataTransferServiceGCSToGCSOperator 添加系统测试和文档 (#32960)

  • SQL 运算符添加一个新参数以指定 conn id 字段 (#30784)

Bug 修复

  • 修复 'DataFusionAsyncHook' 捕获 404 错误 (#32855)

  • 修复 MetastoreHivePartitionSensor 的系统测试 (#32861)

  • 修复 捕获 409 错误 (#33173)

  • 使 'sql' 成为 'BigQueryInsertJobOperator' 中的缓存属性 (#33218)

其他

  • refactor(providers.google): 使用模块级别 __getattr__ DATAPROC_JOB_LOG_LINK 更改为 DATAPROC_JOB_LINK 并添加弃用警告 (#33189)

10.5.0

特性

  • openlineage, gcs: GcsToGcsOperator 添加 openlineage 方法 (#31350)

  • 通过 Dataproc Operators 添加 Spot Instances 支持 (#31644)

  • sqlalchemy-spanner 包安装到 Google provider (#31925)

  • 过滤和排序 DataprocListBatchesOperator 的结果 (#32500)

Bug 修复

  • 修复在可延迟模式下不遵守 project_id BigQueryGetDataOperator 的问题 (#32488)

  • 刷新 GKE OAuth2 令牌 (#32673)

  • 修复 'BigQueryInsertJobOperator' 不退出延迟状态的问题 (#31591)

其他

  • 修复已弃用的 DataprocSubmitSparkJobOperator 的文档字符串并重构系统测试 (#32743)

  • DbApiHook.run 方法添加更准确的类型信息 (#31846)

  • providers 模块和类的文档字符串添加弃用信息 (#32536)

  • 修复已弃用的 DataprocSubmitHiveJobOperator 的文档字符串 (#32723)

  • 修复已弃用的 DataprocSubmitPigJobOperator 的文档字符串 (#32739)

  • 修复 Datafusion 系统测试 (#32749)

10.4.0

特性

  • S3ToGCSOperator 实现 可延期模式 (#29462)

Bug 修复

  • 修复 复制 文件 没有 通配符的 文件夹时 GCSToGCSOperator 的错误 (#32486)

  • 修复 'GCSHook' 上传函数的 'cache_control' 参数 (#32440)

  • 修复 BigQuery 传输 运算符 尊重 project_id 参数 (#32232)

  • 修复 空列表时 gcp_gcs_delete_objects 的问题 (#32383)

  • 修复 cloud_build defer 无限循环 (#32387)

  • 修复 没有通配符和 exact_match=True 时的 GCSToGCSOperator 复制 (#32376)

其他

  • 允许提供 目标文件夹 (#31885)

  • 'AzureBlobStorageToGCSOperator' Azure 移至 Google provider (#32306)

  • BigQueryInsertJobOperator 中提供更好的 作业配置文档链接 (#31736)

10.3.0

功能

  • 'KubernetesPodOperator' 添加 'on_finish_action' (#30718)

  • CloudSQLExportInstanceOperator 添加可延期模式 (#30852)

  • 'src_fmt_configs' 添加到模板字段列表中 (#32097)

Bug 修复

  • [Issue-32069] 修复 批量请求中的名称格式 (#32070)

  • 修复可延期模式下 'BigQueryInsertJobOperator' 的错误处理 (#32034)

  • 修复 'BigQueryConsoleLink' 中的 'BIGQUERY_JOB_DETAILS_LINK_FMT' (#31953)

  • 使 DataprocCreateBatchOperator 的可延期版本能够处理已存在的 batch_id (#32216)

其他

  • Google Ads API 版本从 v13 切换到 v14 (#32028)

  • 弃用 GCS 中的 'delimiter' 参数和源对象通配符,引入 'match_glob' 参数 (#31261)

  • 重构 GKECreateClusterOperator 的主体验证 (#31923)

  • 优化 'BigQueryValueCheckOperator' 的可延期模式执行 (#31872)

  • 添加 default_deferrable 配置 (#31712)

10.2.0

注意

此版本放弃了对 Python 3.7 的支持

功能

  • 当事件在循环中产生时添加返回以停止执行 (#31985)

  • PubsubPullSensor 添加可延期模式 (#31284)

  • 添加新参数以在 'BaseSQLToGCSOperator' 中设置 parquet 行组大小 (#31831)

  • google cloud storage 添加 'cacheControl' 字段 (#31338)

  • 'preserveAsciiControlCharacters' 添加到 'src_fmt_configs' (#31643)

  • Google Secrets Manager secrets 后端添加凭据配置文件身份验证支持 (#31597)

  • Google Cloud Hook 添加凭据配置文件支持 (#31548)

  • 'GCSUploadSessionCompleteSensor' 添加可延期模式 (#31081)

  • DataflowStartFlexTemplateOperator 中添加 append_job_name 参数 (#31511)

  • FIPS 环境:将 md5 的使用标记为 “不用于安全” (#31171)

  • 实现 MetastoreHivePartitionSensor (#31016)

Bug 修复

  • Bigquery:修复已存在的表和数据集的链接 (#31589)

  • TabularDataset 提供缺少的项目 id 和凭据 (#31991)

其他

  • 优化 'DataprocSubmitJobOperator' 的可延期模式执行 (#31317)

  • 优化 'BigQueryInsertJobOperator' 的可延期模式执行 (#31249)

  • 删除 yield from 触发器类后的 return 语句 (#31703)

  • unicodecsv 替换为标准 csv (#31693)

  • 优化可延期模式 (#31758)

  • 移除 Python 3.7 支持 (#30963)

10.1.1

Bug 修复

  • 修复在 'GKEStartPodOperator' 中通过私有端点访问 GKE 集群的问题 (#31391)

  • 修复 'BigQueryGetDataOperator' 在可延期模式下的查询作业错误 (#31433)

10.1.0

注意

正如 Apache Airflow provider 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.4+

注意

此版本将默认的 Google 广告更改为 v13。由于 v12 已被 Google 弃用并将很快被删除,因此我们不认为这是 Airflow 中的一项重大更改。

注意

此版本的提供程序升级了许多 Google 包。请查看软件包更改日志

功能

  • DataprocInstantiateInlineWorkflowTemplateOperator 添加可延期模式 (#30878)

  • 'GCSObjectUpdateSensor' 添加可延期模式 (#30579)

  • 添加协议以定义 KubernetesPodOperator 所依赖的方法 (#31298)

  • 添加 BigQueryToPostgresOperator (#30658)

Bug 修复

  • 'DataflowTemplatedJobStartOperator' 修复了在提供区域时使用默认值覆盖位置的问题 (#31082)

  • 在为 GCSObjectsWithPrefixExistenceSensor 延期之前执行一次 poke (#30939)

  • 'GCSObjectsWithPrefixExistenceSensor' 添加可延期模式 (#30618)

  • 允许在 gcs 删除/列表 钩子和运算符中使用多个前缀 (#30815)

  • 修复 移除了 可延期的 GCS 传感器 中的 delegate_to 参数 (#30810)

其他

  • 'BigQueryGetDataOperator' 添加 'use_legacy_sql' 参数 (#31190)

  • 'BigQueryGetDataOperator' 添加 'as_dict' 参数 (#30887)

  • S3ToGCSOperator 添加 标记 apply_gcs_prefix (b/245077385) (#31127)

  • BigQueryHook 添加 'priority' 参数 (#30655)

  • 提高 providers 中的 最低 Airflow 版本 (#30917)

  • BigQueryCreateExternalTableOperator 实现 gcs_schema_object (#30961)

  • 优化 延迟 执行 模式 (#30946)

  • 优化 可延期 模式 执行 (#30920)

  • 优化 'GCSObjectExistenceSensor' 中的 可延期 模式 (#30901)

  • 'CreateBatchPredictionJobOperator' Vertex AI BatchPredictionJob 对象 添加 batch_size 参数 (#31118)

  • GKEPodHook 需要拥有 KPO 调用的所有 方法 (#31266)

  • 添加 CloudBuild 构建 ID 日志 (#30516)

  • 默认 Google 广告 切换为 v13 (#31382)

  • 切换到 google 广告 v13 (#31369)

  • 更新 google provider 软件包的 SDK (#30067)

10.0.0

重大更改

Google 宣布 Campaign Manager 360 v3.5 将于 2023 年 4 月 20 日停止使用。有关详细信息,请查看:https://developers.google.com/doubleclick-advertisers/deprecation。因此,Campaign Manager 360 操作器的默认 API 版本已更新为最新的 v4 版本。

警告

在此 provider 版本中,已弃用的 delegate_to 参数已从所有 GCP 操作器、钩子和触发器中删除,以及从与 GCS 交互的 firestore 和 gsuite 传输操作器中删除。可以通过使用 impersonation_chain 参数来实现模拟。 delegate_to 参数仍将仅在不与 Google Cloud 交互的 gsuite 和营销平台钩子和操作器中可用。

  • GCP 操作器和钩子中 删除 delegate_to (#30748)

  • 更新 Google Campaign Manager360 操作器以使用 API v4 (#30598)

Bug 修复

  • 更新 DataprocCreateCluster 操作器以正确使用 'label' 参数 (#30741)

其他

  • BigQueryGetDataOperator 中添加缺失的 project_id (#30651)

  • 清理 Display Video 360 v1 API 的使用 (#30577)

9.0.0

重大更改

Google 宣布 Bid manager API v1 和 v1.1 将于 2023 年 4 月 27 日停止使用,有关详细信息,请查看:docs。 因此,GoogleDisplayVideo360Hook 和相关操作器中的 api_version 的默认值更新为 v2。

此 provider 版本包含一个临时解决方法,用于解决 google-ads API 的 v11 版本停用问题,而 google provider 依赖项阻止安装任何支持 v12 API 的 google-ads 客户端。此版本包含仅支持 v12 的 google-ads 库 20.0.0 的供应商版本。一旦 provider 的依赖项允许使用支持更新的 google-ads API 版本的 google-ads,将删除此解决方法(和供应商库)。

注意

仅支持 google ads 的 v12 版本。 当您创建操作器或客户端时,应设置 v12。

  • 更新 DV360 操作器以使用 API v2 (#30326)

  • 修复 google ads 供应商库中的 动态 导入 (#30544)

  • 修复 供应商 google ads 所需的另一个 动态 导入 (#30564)

功能

  • GKEStartPodOperator 添加 可延期 模式 (#29266)

Bug 修复

  • BigQueryHook list_rows/get_datasets_list 可以返回 迭代器 (#30543)

  • 修复 云构建异步凭据 (#30441)

8.12.0

功能

  • Bigquery 操作器中添加缺失的 'poll_interval' (#30132)

  • BigQueryInsertJobOperator 中添加 poll_interval 参数 (#30091)

  • 'job_id' 添加到 'BigQueryToGCSOperator' templated_fields (#30006)

  • 支持在使用远程日志记录时删除本地日志文件 (#29772)

Bug 修复

  • 修复 设置 gs bq bq gs project_id (#30053)

  • 修复 云构建操作器上的 位置 (#29937)

  • 'GoogleDriveHook': 修复日志消息 + 添加更多详细的文档 (#29694)

  • "BOOLEAN" 添加到 MSSQLToGCSOperator type_map 中,通过显式指定 BIT 字段来修复不正确的 bit->int 类型转换 (#29902)

  • Google Cloud Providers - 修复 _MethodDefault 深拷贝失败 (#29518)

  • 处理异步 BigQuery dts 触发器上的 项目位置 参数 (#29786)

  • 支持不指定 project_id CloudDataTransferServiceJobStatusSensor (#30035)

  • 等待 正常模式下的 insert_job 结果 (#29925)

其他

  • BigQueryTableExistenceAsyncSensor 合并到 BigQueryTableExistenceSensor (#30235)

  • 移除  google provider不必要上限约束 (#29915)

  • BigQueryTableExistencePartitionAsyncSensor 合并 BigQueryTableExistencePartitionSensor (#30231)

  • GCSObjectExistenceAsyncSensor 逻辑合并 GCSObjectExistenceSensor (#30014)

  • 使 cncf provider 文件名 AIP-21 对齐 (#29905)

  • 切换使用vendor内置google ads库。 (#30410)

  • 合并google ads vendor内置代码。 (#30399)

8.11.0

功能

  • BigQueryTablePartitionExistenceSensor 添加可延迟模式。 (#29735)

  • BigQuery 运算符添加一个新的参数支持资源存在其他操作 (#29394)

  • DataprocInstantiateWorkflowTemplateOperator 添加可延迟模式 (#28618)

  • Dataproc 批处理 (#29136)

  • 添加 'CloudSQLCloneInstanceOperator' (#29726)

Bug 修复

  • 修复 'NoneType' 对象不可下标化的问题。 (#29820)

  • 修复增强 'check-for-inclusive-language' CI 检查 (#29549)

  • 不要BigQueryCreateDataTransferOperator 秘密推送XCOM (#29348)

其他

  • Google Cloud Provider - 引入 GoogleCloudBaseOperator (#29680)

  • 更新 google cloud dlp ,并调整 hook 操作符 (#29234)

  • 重构 Dataproc 触发器 (#29364)

  • 删除 google-cloud-bigtable <2.0.0 限制 (#29644)

  • 帮助消息移动google auth 代码 (#29888)

8.10.0

功能

  • GKECreateClusterOperator GKEDeleteClusterOperator 添加延迟模式 (#28406)

Bug 修复

  • cloud_sql_binary_path 连接移动Hook (#29499)

  • 检查 cloud sql provider 版本是否有效 (#29497)

  • 'GoogleDriveHook': upload_file 添加 folder_id 参数 (#29477)

其他

  • BigQuery 传输运算符添加文档 (#29466)

8.9.0

功能

  • 现有 ''DataprocDeleteClusterOperator'' 添加可延迟功能 (#29349)

  • dataflow 运算符添加可延迟模式 (#27776)

  • DataprocCreateBatchOperator 添加可延迟模式 (#28457)

  • DataprocCreateClusterOperator DataprocUpdateClusterOperator 添加可延迟模式 (#28529)

  • MLEngineStartTrainingJobOperator 添加可延迟模式 (#27405)

  • DataFusionStartPipelineOperator 添加可延迟模式 (#28690)

  • Big Query Transfer 运算符添加可延迟模式 (#27833)

  • BaseSQLToGCSOperator 添加 write_on_empty 的支持 (#28959)

  • 添加 DataprocCancelOperationOperator (#28456)

  • 启用单独触发器日志记录 (#27758)

  • Auto ML 资产 (#25466)

Bug 修复

  • 修复 GoogleDriveHook upload v2 文件写入删除文件夹的问题 (#29119)

  • 修复 Google provider CHANGELOG.rst (#29122)

  • 修复 Google provider CHANGELOG.rst (#29114)

  • Keyfile 字典可以字典,而不是字符串 (#29135)

  • GCSTaskHandler 可能使用远程日志连接id (#29117)

其他

  • 弃用 GCP 运算符 'delegate_to' 参数更新文档 (#29088)

8.8.0

功能

  • 添加 可延迟 ''GCSObjectExistenceSensorAsync'' (#28763)

  • BaseSQLToGCSOperator 支持 partition_columns (#28677)

Bug 修复

  • 'BigQueryCreateExternalTableOperator' 修复字段分隔符适用于 csv 的问题 (#28856)

  • 修复使用私有 _get_credentials 而不是公共 get_credentials 的问题 (#28588)

  • 修复 'GoogleCampaignManagerReportSensor' 出现 'QUEUED' 状态的问题 (#28735)

  • 修复 BigQueryColumnCheckOperator 运行时错误 (#28796)

  • 默认情况下,如果尚未bigquery hook create_empty_dataset 方法设置,则 "datasetReference" 属性分配 dataset_reference 字典。 (#28782)

8.7.0

功能

  • BigQueryCreateEmptyTableOperator 模板字段添加 table_resource (#28235)

  • GCSObjectExistenceSensor 添加重试参数 (#27943)

  • src_fmt_configs 添加 preserveAsciiControlCharacters (#27679)

  • CloudBuildCreateBuildOperator 添加可延迟模式 (#27783)

  • GCSToBigQueryOperator 允许自动检测 None 推断架构 (#28564)

  • 改进 Dataproc 可延迟运算符内存使用 (#28117)

  • job_id 推送 dataproc 提交作业操作xcom (#28639)

Bug 修复

  • 修复 GCSToBigQueryOperator 读取JSON 文件模式字段问题 (#28284)

  • 修复 GCSToBigQueryOperator 遵守 schema_obj 的问题 (#28444)

  • 修复 GCSToGCSOperator 没有通配符的情况复制对象列表的问题 (#28111)

  • 修复: 重新启用 gcs_to_bq 使用 参数 的功能, 该功能 之前 已被禁用 (#27961)

  • 作业 配置 正确设置 bigquery ''use_legacy_sql'' 参数 (#28522)

其他

  • 删除 'pylint' 消息 控制 指令 (#28555)

  • google/provider.yaml 删除 已弃用的 AIPlatformConsoleLinkk (#28449)

  • config.yml 使用 对象 而不是 数组 配置 模板 (#28417)

  • [其他] 去除 条件语句 中的 'pass' 语句 (#27775)

  • google 密钥 管理器 找不到 密钥时, 日志级别 更改为 DEBUG (#27856)

  • [其他] 提供程序中 使用 'exactly_one' 助手 替换 XOR '^' 条件 (#27858)

8.6.0

功能

  • 无论 作业 状态 如何, 都为 工作流 运算符 保留 DataprocLink (#26986)

  • BigQueryToGCSOperator 的可延期 模式 (#27683)

  • BigQueryToGCSOperator 模板 字段 添加 导出 格式 (#27910)

错误修复

  • 修复 BigQueryToBigQueryOperator 正确读取 location 参数 的问题 (#27661)

  • common.sql 提供程序 升级到 1.3.1 (#27888)

8.5.0

注意

正如Apache Airflow 提供程序支持策略中所述,此提供程序的版本仅适用于 Airflow 2.3+。

其他

  • 所有 提供程序的 最低 airflow 版本 移至 2.3.0 (#27196)

  • hook bigquery 函数 '_bq_cast' 重命名为 'bq_cast' (#27543)

  • BigQueryHook 中使用 非弃用的 on_kill 方法 (#27547)

  • 类型转换 biquery 作业 响应 (#27236)

  • 删除 google-cloud-storage 上的 <2 限制 (#26922)

  • urlparse 替换为 urlsplit (#27389)

功能

当在环境变量或密钥后端中定义连接时,以前需要使用前缀 extra__google_cloud_platform__ 定义 extra 字段。现在不再需要这样做了。因此,例如,您可以将密钥文件 json 存储为 keyfile_dict 而不是 extra__google_cloud_platform__keyfile_dict。如果两者都存在,则首选短名称。

  • 添加 旧版本 Apache Beam 向后 兼容性 (#27263)

  • 可延期 模式 添加到 GCSToBigQueryOperator + 测试中 (#27052)

  • 新方法 Vertex AI 运算符 添加 系统 测试 (#27053)

  • Dataform 运算符, 链接, 更新 系统 测试和文档 (#27144)

  • 允许 WorkflowsCreateExecutionOperator 执行 参数中的 值为 字典 (#27361)

  • DataflowStopJobOperator 运算符 (#27033)

  • 允许 覆盖 Postgres json/jsonb 列数据类型 stringify_dict (#26875) (#26876)

  • 允许并首选 dataprep hook 非前缀 额外字段 (#27039)

  • 更新 google hook 首选 非前缀的 额外字段 (#27023)

错误修复

  • 添加 新的 计算引擎 运算符 修复 系统 测试 (#25608)

  • 常见的 sql 错误修复和改进 (#26761)

  • 修复 Dataproc CreateBatch 运算符中的延迟 (#26126)

  • 删除 签名中 单个 参数周围 不必要的 换行符 (#27525)

  • 取消 BigQuery 作业时 设置 project_id location (#27521)

  • 使用 正确的 检索 dataflow job_id (#27336)

  • 没有 值时, 使 GSheetsHook 返回 一个空列表 (#27261)

  • ML 引擎 运算符 资产 (#26836)

8.4.0

功能

  • 添加 BigQuery 列和表检查 运算符 (#26368)

  • 添加 可延期的 big query 运算符 和传感器 (#26156)

  • 'output' 属性 添加到 MappedOperator (#25604)

  • append_job_name 参数 添加到 DataflowTemplatedJobStartOperator (#25746)

  • GoogleDriveHook 添加 一个参数, 用于 排除 已删除的文件 (#25675)

  • 数据 丢失 防护 运算符 资产 (#26618)

  • 存储 传输 运算符 资产 & 系统 测试 迁移 (AIP-47) (#26072)

  • 可延期的 BigQuery 运算符 合并到 现有的 运算符中 (#26433)

  • delete/create 集群中 调用 wait_for_operation 指定 项目 ID (#26418)

  • Web UI 自动 尾部 文件 日志 (#26169)

  • 函数 操作符 资产 & 系统 测试 迁移 (AIP-47) (#26073)

  • GCSToBigQueryOperator 解决 'max_id_key' 作业 检索 xcom 返回 (#26285)

  • 允许 BaseSQLToGCSOperator 覆盖 json 导出 格式 'stringify_dict' (#26277)

  • 链接 追加 GoogleLink 基础 (#26057)

  • 视频 智能 操作符 资产 & 系统 测试 迁移 (AIP-47) (#26132)

  • 生命 科学 资产 & 系统 测试 迁移 (AIP-47) (#25548)

  • GCSToBigQueryOperator 允许 备用 GCS 存储桶 中使用 schema_object (#26190)

  • 可延迟 模式 Composer 操作符 使用 AsyncClient (#25951)

  • 使用 project_id 获取 已验证的 客户端 (#25984)

  • 构建 资产 & 系统 测试 迁移 (AIP-47) (#25895)

  • Dataproc 提交 作业 操作符 异步 (#25302)

  • BigQueryGetDataOperator 支持 project_id 参数 (#25782)

Bug 修复

  • 修复 Datafusion 操作符 中的 JSONDecodeError (#26202)

  • 修复 CreateWorkflowInvocation 永不结束 循环 (#25737)

  • 更新 gcs.py (#26570)

  • BQ 游标 作业 没有 schema 时, 不要 抛出 异常 (#26096)

  • Google 任务 传感器 用于 队列 为空 的情况 (#25622)

  • 更正 传输 配置 名称。 (#25719)

  • 修复 BigQuery 结果 Schema 可选 'mode' 字段 解析 (#26786)

  • 修复 GCSToBigQueryOperator MaxID 逻辑 (#26768)

其他

  • Sql GSC 操作符 更新 parquet 格式 文档 (#25878)

  • 限制 Google Protobuf 兼容 biggtable 客户端 (#25886)

  • 使 GoogleBaseHook 凭据 函数 公开 (#25785)

  • 整合 到一个 'schedule' 参数 (#25410)

8.3.0

特性

  • BigQueryCursor 添加 description 方法 (#25366)

  • 两个 BQ 操作符 添加 project_id 作为 模板变量 (#24768)

  • 删除 Amazon 提供程序 已弃用的 模块 (#25543)

  • 所有 “旧” SQL 操作符 移动到 common.sql 提供程序 (#25350)

  • 使用 ParamSpec 改进 taskflow 类型 提示 (#25173)

  • 使用 覆盖它的 方法 统一 DbApiHook.run() 方法 (#23971)

  • ParamSpec 更新 typing-extensions mypy (#25088)

  • 弃用 hql 参数 同步 DBApiHook 方法 API (#25299)

  • Dataform 操作符 (#25587)

Bug 修复

  • 修复 GCSListObjectsOperator 文档字符串 (#25614)

  • 修复 BigQueryInsertJobOperator cancel_on_kill (#25342)

  • 修复 BaseSQLToGCSOperator approx_max_file_size_bytes (#25469)

  • 修复 PostgresToGCSOperat 布尔 dtype (#25475)

  • 修复 Vertex AI 自定义 作业 培训 问题 (#25367)

  • 修复 Flask 2.2 Flask-Login 0.6.2 Flask 登录 用户 设置 (#25318)

8.2.0

特性

  • PubSub 资产 & 系统 测试 迁移 (AIP-47) (#24867)

  • 添加 处理 现有 Dataproc 批处理 状态 (#24924)

  • Google Kubernetes Engine 操作符 添加 链接 (#24786)

  • 'GoogleBaseHook' 添加 test_connection 方法 (#24682)

  • GoogleDriveToLocalOperator 添加 gcp_conn_id 参数 (#24622)

  • AutoML column_transformations 参数 添加 DeprecationWarning (#24467)

  • 修改 BigQueryCreateExternalTableOperator 使用 更新的 hook 函数 (#24363)

  • 所有 SQL 移动到 common-sql 提供程序 (#24836)

  • Datacatalog 资产 & 系统 测试 迁移 (AIP-47) (#24600)

  • FAB 升级到 4.1.1 (#24399)

Bug 修复

  • GCSDeleteObjectsOperator 前缀 错误 修复 (#24353)

  • perf(BigQuery): table_id 作为 str 类型 传递 (#23141)

  • 更新 提供程序 使用 functools 兼容性 用于 ''cached_property'' (#24582)

8.1.0

特性

  • Oracle 更新到 最新版本 (#24311)

  • 公开 SQL GCS 元数据 (#24382)

Bug 修复

  • 修复 google 提供程序 其他 附加项 中的 拼写错误 (#24431)

  • BigQueryToGCPOpertor 使用 insert_job 调整 链接 (#24416)

8.0.0

重大更改

注意

此版本的提供程序仅适用于 Airflow 2.2+,如Apache Airflow 提供程序支持策略中所述。

功能特性

  • 添加 key_secret_project_id 参数,用于指定具有 KeyFile 的项目 (#23930)

  • DataflowStartFlexTemplateOperator DataflowStartSqlJobOperator 添加 impersonation_chain (#24046)

  • CLOUD_SQL_EXPORT_VALIDATION 添加字段。 (#23724)

  • Compute Engine 中使用 ADC 时更新凭据 (#23773)

  • cloud_sql.py 中为运算符设置颜色 (#24000)

  • 使用排除列将 Sql 导出到 gcs (#23695)

  • [Issue#22846] 允许在从 Cassandra 上传到 GCS 时选择是否编码 UUID (#23766)

  • 工作流资产和系统测试迁移 (AIP-47) (#24105)

  • Spanner 资产和系统测试迁移 (AIP-47) (#23957)

  • 语音转文本资产和系统测试迁移 (AIP-47) (#23643)

  • Cloud SQL 资产和系统测试迁移 (AIP-47) (#23583)

  • Cloud Storage 资产和 StorageLink 更新 (#23865)

Bug 修复

  • 修复 BigQueryInsertJobOperator (#24165)

  • 修复到 google workplace 的链接 (#24080)

  • 修复 DataprocJobBaseOperator 与点状名称不兼容的问题 (#23439)。 (#23791)

  • BigQuery DTS 钩子中删除hack (#23887)

  • 修复 GCSToGCSOperator 无法复制单个文件/文件夹,而不会复制具有该前缀的其他文件/文件夹的问题 (#24039)

  • 解决 biguery gcs 传输时出现的作业竞争错误 (#24330)

其他

  • 修复 BigQuery 系统测试 (#24013)

  • 确保 @contextmanager 装饰生成器函数 (#23103)

  • Dataproc 迁移到新的系统测试设计 (#22777)

  • AIP-47 - google leveldb DAG 迁移到新设计 ##22447 (#24233)

  • 将每个运行日志模板应用于日志处理程序 (#24153)

7.0.0

重大更改

  • PubSub 运算符中删除已弃用的参数: (#23261)

  • 升级以支持 Google Ads v10 (#22965)

  • 'DataprocJobBaseOperator' 更改 (#23350)

    • 'DataprocJobBaseOperator':参数的顺序已更改。

    • 'region' 参数没有默认值,影响的函数/类: 'DataprocHook.cancel_job' 'DataprocCreateClusterOperator' 'DataprocJobBaseOperator'

  • 'DatastoreHook':删除 'datastore_conn_id'。请使用 'gcp_conn_id' (#23323)

  • 'CloudBuildCreateBuildOperator':删除 'body'。请使用 'build' (#23263)

  • 删除副本集群 id (#23251)

    • 'BigtableCreateInstanceOperator' 删除 'replica_cluster_id', 'replica_cluster_zone'。请使用 'replica_clusters'

    • 'BigtableHook.create_instance':删除 'replica_cluster_id', 'replica_cluster_zone'。请使用 'replica_clusters'

  • 删除参数 (#23230)

    • 'GoogleDisplayVideo360CreateReportOperator':删除 'params'。请使用 'parameters'

    • 'FacebookAdsReportToGcsOperator':删除 'params'。请使用 'parameters'

  • 'GoogleDriveToGCSOperator':删除 'destination_bucket' 'destination_object'。请使用 'bucket_name' 'object_name' (#23072)

  • 'GCSObjectsWtihPrefixExistenceSensor' 已删除。请使用 'GCSObjectsWithPrefixExistenceSensor' (#23050)

  • 删除 'project':(#23231)

    • 'PubSubCreateTopicOperator':删除 'project'。请使用 'project_id'

    • 'PubSubCreateSubscriptionOperator':删除 'topic_project'。请使用 'project_id'

    • 'PubSubCreateSubscriptionOperator':删除 'subscription_project'。请使用 'subscription_project_id'

    • 'PubSubDeleteTopicOperator':删除 'project'。请使用 'project_id'

    • 'PubSubDeleteSubscriptionOperator':删除 'project'。请使用 'project_id'

    • 'PubSubPublishMessageOperator':删除 'project'。请使用 'project_id'

    • 'PubSubPullSensor':删除 'project'。请使用 'project_id'

    • 'PubSubPullSensor':删除 'return_immediately'

  • 删除 'location' - 替换为 'region' (#23250)

    • 'DataprocJobSensor':删除 'location'。请使用 'region'

    • 'DataprocCreateWorkflowTemplateOperator':删除 'location'。请使用 'region'

    • 'DataprocCreateClusterOperator':删除 'location'。请使用 'region'

    • 'DataprocSubmitJobOperator':删除 'location'。请使用 'region'

    • 'DataprocHook':删除 'location' 参数。请使用 'region'

    • 受影响的函数包括:

      • 'cancel_job'

      • 'create_workflow_template'

      • 'get_batch_client'

      • 'get_cluster_client'

      • 'get_job'

      • 'get_job_client'

      • 'get_template_client'

      • 'instantiate_inline_workflow_template'

      • 'instantiate_workflow_template'

      • 'submit_job'

      • 'update_cluster'

      • 'wait_for_job'

    • 'DataprocHook':'wait_for_job' 函数中参数的顺序已更改

    • 'DataprocSubmitJobOperator':参数的顺序已更改。

  • 删除 xcom_push (#23252)

    • 'CloudDatastoreImportEntitiesOperator':删除 'xcom_push'。请使用 'BaseOperator.do_xcom_push'

    • 'CloudDatastoreExportEntitiesOperator':删除 'xcom_push'。请使用 'BaseOperator.do_xcom_push'

  • 'bigquery_conn_id' 'google_cloud_storage_conn_id' 已删除。请使用 'gcp_conn_id' (#23326).

    • 受影响的类:

      • 'BigQueryCheckOperator'

      • 'BigQueryCreateEmptyDatasetOperator'

      • 'BigQueryDeleteDatasetOperator'

      • 'BigQueryDeleteTableOperator'

      • 'BigQueryExecuteQueryOperator'

      • 'BigQueryGetDataOperator'

      • 'BigQueryHook'

      • 'BigQueryIntervalCheckOperator'

      • 'BigQueryTableExistenceSensor'

      • 'BigQueryTablePartitionExistenceSensor'

      • 'BigQueryToBigQueryOperator'

      • 'BigQueryToGCSOperator'

      • 'BigQueryUpdateTableSchemaOperator'

      • 'BigQueryUpsertTableOperator'

      • 'BigQueryValueCheckOperator'

      • 'GCSToBigQueryOperator'

      • 'ADLSToGCSOperator'

      • 'BaseSQLToGCSOperator'

      • 'CassandraToGCSOperator'

      • 'GCSBucketCreateAclEntryOperator'

      • 'GCSCreateBucketOperator'

      • 'GCSDeleteObjectsOperator'

      • 'GCSHook'

      • 'GCSListObjectsOperator'

      • 'GCSObjectCreateAclEntryOperator'

      • 'GCSToBigQueryOperator'

      • 'GCSToGCSOperator'

      • 'GCSToLocalFilesystemOperator'

      • 'LocalFilesystemToGCSOperator'

  • 'S3ToGCSOperator': 移除 'dest_gcs_conn_id'。 请使用 'gcp_conn_id' (#23348)

  • 'BigQueryHook' 的更改(#23269)

    • 'BigQueryHook.create_empty_table': 移除 'num_retries'。 请使用 'retry'

    • 'BigQueryHook.run_grant_dataset_view_access': 移除 'source_project'。 请使用 'project_id'

  • 'DataprocHook': 移除已弃用的函数 'submit' (#23389)

特性

  • [特性] google provider - BigQueryInsertJobOperator 日志查询(#23648)

  • [特性] google provider - 拆分 GkeStartPodOperator 执行(#23518)

  • CLOUD_SQL_EXPORT_VALIDATION 添加 exportContext.offload 标志。(#23614)

  • BiqTable 运算符创建链接(#23164)

  • 实现 #22859 - 添加 .sql 作为可模板化的扩展名(#22920)

  • 'GCSFileTransformOperator': 新的可模板化字段 'source_object'、'destination_object' (#23328)

错误修复

  • 修复 'PostgresToGCSOperator' 不允许嵌套的 JSON (#23063)

  • 修复 当没有通配符时 GCSToGCSOperator 忽略 replace 参数(#23340)

  • 更新处理器以修复损坏的下载 URL (#23299)

  • 'LookerStartPdtBuildOperator'、'LookerCheckPdtBuildSensor': 修复空的物化 ID 处理(#23025)

  • ComputeSSH 更改为抛出 provider 导入错误,而不是 paramiko (#23035)

  • 修复 DataprocSubmitJobOperator 在执行超时后 cancel_on_kill (#22955)

  • 修复 BigQueryGetDataOperator select * 查询 xcom 推送(#22936)

  • MSSQLToGCSOperator 失败: datetime 不是 JSON 可序列化的(#22882)

其他

  • 添加 Stackdriver 资产并将系统测试迁移到 AIP-47 (#23320)

  • CloudTasks 资产 & 系统测试迁移 (AIP-47) (#23282)

  • TextToSpeech 资产 & 系统测试迁移 (AIP-47) (#23247)

  • 修复 google provider 中的代码片段(#23438)

  • Bigquery 资产(#23165)

  • 移除 'BigQueryUpdateTableSchemaOperator' 中多余的文档字符串(#23349)

  • gcs 迁移到新的系统测试设计(#22778)

  • 'BigQueryHook.create_empty_table' 中添加缺少的文档字符串(#23270)

  • 清理 Google provider CHANGELOG.rst (#23390)

  • 将系统测试 gcs_to_bigquery 迁移到新的设计中(#22753)

  • 添加示例 DAG 以演示 GCS 传感器的使用(#22808)

  • 清理内联 f-string 连接(#23591)

  • 升级 pre-commit 钩子版本(#22887)

  • 使用新的 Breese 进行构建、拉取和验证映像。(#23104)

  • 修复 main 中的新 MyPy 错误(#22884)

6.8.0

特性

  • BQCreateExternalTable 运算符中添加 autodetect 参数(#22710)

  • BigQuery 数据传输添加链接(#22280)

  • 修改传输运算符以处理更多数据(#22495)

  • Vertex AI 服务创建端点和模型服务、批处理预测和超参数调整作业运算符(#22088)

  • PostgresToGoogleCloudStorageOperator - 时区不敏感字段的 BigQuery 架构类型(#22536)

  • 更新密钥后端以使用 get_conn_value 而不是 get_conn_uri (#22348)

错误修复

  • 修复文档字符串(#22497)

  • 修复 'GoogleDisplayVideo360SDFtoGCSOperator' 中的 'download_media' URL (#22479)

  • 修复 'CloudBuildRunBuildTriggerOperator' 无法找到构建 ID 的问题。(#22419)

  • 如果 src 不存在,则 ''LocalFilesystemToGCSOperator'' 失败(#22772)

  • GCSTimeSpanFileTransformOperator 中移除 coerce_datetime 的使用(#22501)

其他

  • 重构: BigQuery GCS 运算符(#22506)

  • 移除 PubSub 运算符中对已弃用的运算符/参数的引用(#22519)

  • 新的系统测试设计(#22311)

6.7.0

特性

  • dataflow_default_options 添加到 templated_fields (#22367)

  • 添加 'LocalFilesystemToGoogleDriveOperator' (#22219)

  • BigQueryInsertJobOperator 添加超时和重试(#22395)

错误修复

  • 修复跳过非 GCS 定位的 jar 的问题(#22302)

  • [修复] gcs 运算符的文档中的拼写错误(#22290)

  • 修复 为所有 提供程序 错误添加的 install_requires (#22382)

6.6.0

功能

  • 支持 将更大的 文件 上传到 Google 云端硬盘 (#22179)

  • 将默认的 'chunk_size' 更改为清晰的表示 & 添加文档 (#22222)

  • DataprocInstantiateInlineWorkflowTemplateOperator 添加指南 (#22062)

  • 允许使用 GCS Hook 上传 来上传元数据 (#22058)

  • 添加 Dataplex 运算符 (#20377)

其他

  • 添加对 ARM 平台 的支持 (#22127)

  • PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)

  • 使用 yaml 安全加载 (#22091)

6.5.0

功能

  • 添加 Looker PDT 运算符 (#20882)

  • GCSToBigQueryOperator 中,为外部表创建添加 autodetect 参数 (#21944)

  • 添加 Dataproc 资产/链接 (#21756)

  • Vertex AI 服务添加 Auto ML 运算符 (#21470)

  • 添加 GoogleCalendarToGCSOperator (#20769)

  • 使 所有 dataproc 运算符中的 project_id 参数 成为可选的 (#21866)

  • 允许在 更多的 DataprocUpdateClusterOperator 字段中使用模板 (#21865)

  • Dataflow 资产 (#21639)

  • ClientInfo 提取到模块级别 (#21554)

  • Datafusion 资产 (#21518)

  • Dataproc 元存储 资产 (#21267)

  • 规范化 BigQuery 传感器中的 *_conn_id 参数 (#21430)

错误修复

  • 修复 bigquery_dts 参数文档字符串中的拼写错误 (#21786)

  • 修复了 use_server_side_cursor=True 时, PostgresToGCSOperator 在空结果集上失败的问题 (#21307)

  • 修复 bigquery 示例 DAG 中的多查询场景 (#21575)

其他

  • 支持 Python 3.10

  • 取消固定 'google-cloud-memcache' (#21912)

  • 取消固定 ''pandas-gbq'' 并删除未使用的代码 (#21915)

  • 抑制来自 Bigquery 传输的 hook 警告 (#20119)

6.4.0

功能

  • 添加用于与 Google 日历集成的 hook (#20542)

  • encoding 参数添加到 'GCSToLocalFilesystemOperator' 以修复 #20901 (#20919)

  • batch 作为 DataprocCreateBatchOperator 中的模板化字段 (#20905)

  • 使 wait_for_operation timeout 成为可选的 (#20981)

  • 添加更多 SQL 模板字段渲染器 (#21237)

  • Vertex AI 服务创建 CustomJob Datasets 运算符 (#21253)

  • 支持 将文件上传到 Google 共享云端硬盘 (#21319)

  • (providers_google) bigquery 中添加位置检查 (#19571)

  • 添加对 BeamGoPipelineOperator 的支持 (#20386)

  • Google Cloud Composer 运算符 (#21251)

  • BigQuery hook 中启用异步作业提交 (#21385)

  • 如果 GCSToGCSOperator 中源文件不存在,则可选择引发错误 (#21391)

错误修复

  • Cloudsql 导入链接修复。 (#21199)

  • 修复 BigQueryDataTransferServiceHook.get_transfer_run() 请求参数 (#21293)

  • :bug: (BigQueryHook) 修复 sqlalchemy 引擎的兼容性 (#19508)

其他

  • 重构运算符链接以不创建临时 TaskInstances (#21285)

6.3.0

功能

  • 将可选的位置添加到 bigquery 数据传输服务 (#15088) (#20221)

  • 添加 Google Cloud Tasks 操作指南文档 (#20145)

  • 添加了从 MSSQL Google Cloud Storage (GCS)的示例 DAG (#19873)

  • 支持区域 GKE 集群 (#18966)

  • 默认情况下,在 KubernetesPodOperator 中删除 pod (#20575)

错误修复

  • 修复 PubSubCreateSubscriptionOperator 的文档字符串 (#20237)

  • 修复 Dataproc 元存储的缺少 get_backup 方法 (#20326)

  • BigQueryHook 修复 run_load 文档字符串中的拼写错误 (#19924)

  • 修复 sftp_to_gcs 上传递 gzip 压缩参数 的问题。 (#20553)

  • 切换到 CloudSQL 提供程序中 httpx.get 调用中的 follow_redirects (#20239)

  • 避免 BigQuery 传输运算符中的弃用警告 (#20502)

  • download_video 参数更改为 resourceName (#20528)

  • 修复 big query mssql/mysql 传输问题 (#20001)

  • 修复 ''provide_authorized_gcloud'' 中设置 项目 ID 的问题 (#20428)

其他

  • source_objects 数据类型检查移出 GCSToBigQueryOperator.__init__ (#20347)

  • Amazon 提供程序中组织 S3 (#20167)

  • 提供程序 facebook hook 多账户 (#19377)

  • 删除已弃用的方法调用 (blob.download_as_string) (#20091)

  • GoogleDriveToGCSOperator 中移除 已弃用的 template_fields (#19991)

注意! apache-airflow-providers-facebookapache-airflow-providers-amazon 的可选功能需要较新版本的 provider(如依赖项中所指定)

6.2.0

功能

  • DataprocJobSensor 添加 等待机制 ,以避免在 Job 不可用时出现 509 错误 (#19740)

  • GCP 连接中添加从 Secret Manager 读取密钥的支持 (#19164)

  • 添加 dataproc 元存储 操作符 (#18945)

  • GCloud Storage Transfer Service 操作符添加 'path' 参数的支持 (#17446)

  • 'bucket_name' 验证移出 Google Marketing Platform 操作符的 '__init__' (#19383)

  • 创建 dataproc serverless spark batches 操作符 (#19248)

  • 更新 CloudDataFusionStartPipelineOperator pipeline_timeout (#18773)

  • GKEStartPodOperator 中支持 impersonation_chain 参数 (#19518)

Bug 修复

  • 修复 GKEPodOperator 中错误合并的模拟 (#19696)

6.1.0

功能

  • query 'namespaceId' 添加值 (#19163)

  • 在文件中添加用于常见拼写错误检查的预提交钩子 (#18964)

  • CassandraToGCSOperator 中支持将查询超时作为参数 (#18927)

  • 更新 BigQueryCreateExternalTableOperator 文档和参数 (#18676)

  • 替换 BigQueryToMsSqlOperator 的非属性 template_fields (#19052)

  • Dataproc 包升级到 3.0.0 并从 v1beta2 迁移到 v1 api (#18879)

  • 在子进程中执行 beam 命令时使用 google cloud 凭据 (#18992)

  • 替换 FacebookAdsReportToGcsOperator 的默认 api_version (#18996)

  • Dataflow 操作符 - on_kill 方法中使用作业中的项目和位置。 (#18699)

Bug 修复

  • 修复 CloudSQL Hook 中硬编码的 /tmp 目录 (#19229)

  • 修复 Dataflow hook 在没有返回任何作业时的错误 (#18981)

  • 修复 BigQueryToMsSqlOperator 文档 (#18995)

  • 将模板化输入参数的验证移到上下文初始化后运行 (#19048)

  • Google provider 捕获无效的密钥名称 (#18790)

6.0.0

重大更改

  • Google Cloud Build Discovery API 迁移到 Python SDK (#18184)

功能

  • 为数据集名称添加索引,以便每个示例 DAG 都有单独的数据集 (#18459)

  • 为某些测试包添加缺失的 __init__.py 文件 (#18142)

  • 添加从系统测试运行 DAG 并查看 DAG 日志的可能性 (#17868)

  • AzureDataLakeStorage 重命名为 ADLS (#18493)

  • 使 next_dagrun_info 接受一个数据间隔 (#18088)

  • 使用 parameters 代替 params (#18143)

  • 新的 google 操作符: SQLToGoogleSheetsOperator (#17887)

Bug 修复

  • 修复 部分 Google 系统测试 (#18494)

  • 修复 kubernetes 引擎系统测试 (#18548)

  • 修复 BigQuery 系统测试 (#18373)

  • 修复 使用表资源创建外部表时的错误 (#17998)

  • 修复 ''BigQueryToMySqlOperator'' 中的 ''BigQuery'' 数据提取 (#18073)

  • 修复 main 分支中具有急切升级的 provider 测试 (#18040)

  • fix(CloudSqlProxyRunner): 不要从 Airflow DB 查询连接 (#18006)

  • 删除 GCSToBigquery 中至少一个模式的检查 (#18150)

  • BigQueryInsertJobOperator 上取消重复运行的作业 (#17496)

5.1.0

功能

  • GKEStartPodOperator 中为 config_file 参数添加错误检查 (#17700)

  • Gcp ai 超参数调优 (#17790)

  • 如果指定了 'node_pools' ,则允许省略 'initial_node_count' (#17820)

  • [Airflow 13779] wait_for_pipeline_state hook 中使用提供的参数 (#17137)

  • 允许在 'template_fields_renderers' 中指定字典路径 (#17321)

  • 不要缓存 Google Secret Manager 客户端 (#17539)

  • [AIRFLOW-9300] CloudDataFusionStartPipelineOperator 添加 DatafusionPipelineStateSensor 和异步选项 (#17787)

Bug 修复

  • GCP Secret Manager 处理缺失凭据的错误 (#17264)

其他

  • 优化 Airflow 2.2.0 的连接导入

  • 添加 secrets 后端/日志/认证 信息 提供者 yaml (#17625)

5.0.0

重大更改

  • 更新了 GoogleAdsHook 以支持 google 弃用 v5 之后的 较新 API 版本。Google Ads v8 是新的 默认 API。(#17111)

  • Google Ads Hook: 支持 google-ads 库的 较新 版本 (#17160)

警告

底层的 google-ads 库有重大更改。

以前,google ads 库将数据作为原生 protobuf 消息返回。现在,它将数据作为 proto-plus 对象返回,这些对象的行为更像传统的 Python 对象。

为了保持兼容性,hook 的 search() 会在返回数据之前将其转换回原生 protobuf。您现有的运算符 *应该* 像以前一样工作,但由于 v5 API 被弃用的紧迫性,没有进行过彻底的测试。因此,您应该仔细评估此新版本中运算符和 hook 的功能。

为了使用 API 的新 proto-plus 格式,您可以使用 search_proto_plus() 方法。

有关更多信息,请参阅 google-ads 迁移文档

功能

  • dataproc 位置 参数 标准化为 区域 (#16034)

  • 添加 自定义 Salesforce 连接 类型 + SalesforceToS3Operator 更新 (#17162)

Bug 修复

  • 更新 Google Memmcache field_mask 别名 (#16975)

  • 修复: dataprocpysparkjob project_id 作为 self.project_id (#17075)

  • 修复 禁用 替换 存在 目标 对象的 GCStoGCS 运算符 (#16991)

4.0.0

重大更改

  • 自动应用 apply_default 装饰器 (#15667)

警告

由于删除了 apply_default 装饰器,此版本的提供者需要 Airflow 2.1.0+。如果您的 Airflow 版本 < 2.1.0,并且您想安装此提供者版本,请先将 Airflow 升级到至少 2.1.0 版本。否则,您的 Airflow 包版本将自动升级,并且您必须手动运行 airflow upgrade db 以完成迁移。

  • plyvel 移动到 google 提供者 额外项 (#15812)

  • 修复了 AzureFileShare 连接 额外项 (#16388)

功能

  • google dataproc 添加 额外 链接 (#10343)

  • 添加 oracle 连接 链接 (#15632)

  • wait_for_done 参数 向下传递到 _DataflowJobsController (#15541)

  • 仅在 GoogleAdsHook 中,而不是 运算符中 使用 api 版本 (#15266)

  • 实现 BigQuery 架构 更新 运算符 (#15367)

  • 添加 BigQueryToMsSqlOperator (#15422)

Bug 修复

  • 修复: GCS BigQuery source_object (#16160)

  • 修复: ``GCSToLocalFilesystemOperator`` 不必要的 下载 (#16171)``

  • 修复 导出 格式为 parquet 出现的 bigquery 类型 错误 (#16027)

  • 修复 bucket object 参数 顺序 类型 (#15738)

  • 修复 sql_to_gcs 文档字符串 lint 错误 (#15730)

  • 修复: 确保与 MySQL BigQuery 完全兼容的 与日期时间相关的值 (#15026)

  • 修复 google 提供者中 弃用警告 的位置 (#16403)

3.0.0

重大更改

AutoMLPredictOperator 中的更改

airflow.providers.google.cloud.operators.automl.AutoMLPredictOperator 类中的 params 参数被重命名为 operation_params,因为它与 BaseOperator 类中的 param 参数冲突。

apache.beam 提供者集成

在提供者的 3.0.0 版本中,我们更改了与 apache.beam 提供者集成的方式。当尝试使用 PIP > 20.2.4 将两个提供者一起安装时,以前的版本会导致冲突。PIP 20.2.4 及更低版本不会检测到冲突,但它确实存在,并且 Google BigQuery python 客户端的版本在两边不匹配。结果,当安装了 apache.beamgoogle 提供者时,BigQuery 运算符的某些功能可能无法正常工作。这是因为当使用 apache-beam[gcp] 额外项时,apache-beam 客户端尚未支持新的 google python 客户端。 apache-beam[gcp] 额外项由 Dataflow 运算符使用,虽然它们可能与较新版本的 Google BigQuery python 客户端一起使用,但这不能保证。

此版本为 google 提供者的 apache.beam 额外项引入了额外的额外要求,并且对称地,为 apache.beam 提供者的 google 额外项引入了额外的要求。默认情况下,googleapache.beam 提供者都不使用这些额外项,但您可以在安装提供者时指定它们。其结果是,Dataflow 运算符的某些功能可能不可用。

不幸的是,解决此问题的唯一 完整 解决方案是让 apache.beam 迁移到新的 (>=2.0.0) Google Python 客户端。

这是 google 提供者的额外项

extras_require = (
    {
        # ...
        "apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
        # ...
    },
)

同样,这是 apache.beam 提供者的额外项

extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)

您仍然可以使用 PIP 版本 <= 20.2.4 运行此命令并返回到以前的行为

pip install apache-airflow-providers-google[apache.beam]

pip install apache-airflow-providers-apache-beam[google]

但请注意,在这种情况下,某些 BigQuery 运算符功能可能不可用。

功能

  • [Airflow-15245] - 自定义 镜像 系列 名称传递给 DataProcClusterCreateoperator (#15250)

Bug 修复

  • Bugfix: 修复 ''GCSToLocalFilesystemOperator'' ''object_name'' 渲染 (#15487)

  • 修复 DataprocCreateClusterOperator 中的 拼写错误 (#15462)

  • 修复 leveldb hook 错误 路径 (#15453)

2.2.0

功能

  • 添加 'Trino' 提供者 (测试时占用 更低的 内存) (#15187)

  • 更新 运算符 剩余 导入 路径 (#15127)

  • 覆盖 dataprocSubmitJobOperator 中的 项目 (#14981)

  • 带有 标签 描述 参数的 GCS BigQuery 传输 运算符 (#14881)

  • 添加 GCS 时间跨度 转换 运算符 (#13996)

  • 作业 标签 添加到 bigquery 检查 运算符。 (#14685)

  • 可用时使用 libyaml C 库。 (#14577)

  • 添加 Google leveldb 钩子 操作符 (#13109) (#14105)

Bug 修复

  • Google Dataflow 钩子 处理 作业类型 (#14914)

2.1.0

功能

  • 更正了 GCSHook.download 方法中 文档字符串中 参数的 顺序 (#14497)

  • 重构 SQL/BigQuery/Qubole/Druid 检查 操作符 (#12677)

  • 添加 GoogleDriveToLocalOperator (#14191)

  • BigQueryCreateEmptyTable(Dataset)Operator 添加 'exists_ok' 标志 (#14026)

  • BigQuery 添加 物化视图 支持 (#14201)

  • 添加 BigQueryUpdateTableOperator (#14149)

  • 添加 参数 CloudDataTransferServiceOperator (#14118)

  • 添加 gdrive_to_gcs 操作符, drive 传感器, 以及 drive 钩子的 附加功能 (#13982)

  • 改进 GCSToSFTPOperator 路径处理 (#11284)

Bug 修复

  • 修复 dataproc 操作符和 钩子 (#14086)

  • #9803 修复 没有 通配符 复制操作中的 bug (#13919)

2.0.0

重大更改

更新了 google-cloud-*

此提供程序包的版本包含第三方库更新,如果您正在使用这些库中的对象,则可能需要更新 DAG 文件或自定义钩子和操作符。 更新这些库是必要的,以便能够使用新库版本提供的新功能,并获得仅适用于新库版本的错误修复。

详细信息在每个库的 UPDATING.md 文件中介绍,但有一些细节您应该注意。

库名称

先前的约束

当前的约束

升级文档

google-cloud-automl

>=0.4.0,<2.0.0

>=2.1.0,<3.0.0

升级 google-cloud-automl

google-cloud-bigquery-datatransfer

>=0.4.0,<2.0.0

>=3.0.0,<4.0.0

升级 google-cloud-bigquery-datatransfer

google-cloud-datacatalog

>=0.5.0,<0.8

>=3.0.0,<4.0.0

升级 google-cloud-datacatalog

google-cloud-dataproc

>=1.0.1,<2.0.0

>=2.2.0,<3.0.0

升级 google-cloud-dataproc

google-cloud-kms

>=1.2.1,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-kms

google-cloud-logging

>=1.14.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-logging

google-cloud-monitoring

>=0.34.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-monitoring

google-cloud-os-login

>=1.0.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-os-login

google-cloud-pubsub

>=1.0.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-pubsub

google-cloud-tasks

>=1.2.1,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-task

字段名称使用 snake_case 约定

如果您的 DAG 使用了通过 XCom 传递的上述库中的对象,则需要更新所读取字段的命名约定。 以前,字段使用 CamelSnake 约定,现在使用 snake_case 约定。

之前

set_acl_permission = GCSBucketCreateAclEntryOperator(
    task_id="gcs-set-acl-permission",
    bucket=BUCKET_NAME,
    entity="user-{{ task_instance.xcom_pull('get-instance')['persistenceIamIdentity'].split(':', 2)[1] }}",
    role="OWNER",
)

之后

set_acl_permission = GCSBucketCreateAclEntryOperator(
    task_id="gcs-set-acl-permission",
    bucket=BUCKET_NAME,
    entity="user-{{ task_instance.xcom_pull('get-instance')['persistence_iam_identity']"
    ".split(':', 2)[1] }}",
    role="OWNER",
)

功能

  • 添加 Apache Beam 操作符 (#12814)

  • 添加 Google Cloud Workflows 操作符 (#13366)

  • 使用 'GCSHook' 时,用 'gcp_conn_id' 替换 'google_cloud_storage_conn_id' (#13851)

  • Dataflow 添加 操作指南 (#13461)

  • MLEngineStartTrainingJobOperator 通用化到自定义镜像 (#13318)

  • BaseSQLToGCSOperator 添加 Parquet 数据类型 (#13359)

  • 添加 DataprocCreateWorkflowTemplateOperator (#13338)

  • 添加 OracleToGCS 传输 (#13246)

  • gcs 钩子方法添加 超时 选项。 (#13156)

  • dataproc 工作流模板 操作符添加 区域支持 (#12907)

  • BigQuery 钩子的 update_table 方法内,向客户端添加 project_id (#13018)

Bug 修复

  • 修复 StackdriverTaskHandler 中的四个 bug (#13784)

  • 解码 远程 Google 日志 (#13115)

  • 修复并改进 GCP BigTable 钩子和系统测试 (#13896)

  • 更新 Google DV360 钩子以修复 SDF 问题 (#13703)

  • 修复 BigQueryHook insert_all 方法以支持 没有架构的 (#13138)

  • 修复 Google BigQueryHook 方法 get_schema() (#13136)

  • 修复 Data Catalog 操作符 (#13096)

1.0.0

提供程序的初始版本。

此条目是否有帮助?