Google Cloud Life Sciences 操作符¶
Google Cloud Life Sciences 是一项服务,可在 Google Cloud 上执行一系列计算引擎容器。它用于大规模处理、分析和注释基因组和生物医学数据。
先决任务¶
要使用这些操作符,您必须执行以下操作
使用 Cloud 控制台 选择或创建 Cloud Platform 项目。
为您的项目启用帐单,如 Google Cloud 文档 中所述。
启用 API,如 Cloud 控制台文档 中所述。
通过 pip 安装 API 库。
pip install 'apache-airflow[google]'有关 安装 的详细信息,请参阅。
管道配置¶
为了运行管道,有必要配置请求正文。以下是一个具有单个操作的管道配置示例。
SIMPLE_ACTION_PIPELINE = {
"pipeline": {
"actions": [
{"imageUri": "bash", "commands": ["-c", "echo Hello, world"]},
],
"resources": {
"regions": [f"{LOCATION}"],
"virtualMachine": {
"machineType": "n1-standard-1",
},
},
},
}
管道还可以配置多个操作。
MULTI_ACTION_PIPELINE = {
"pipeline": {
"actions": [
{
"imageUri": "google/cloud-sdk",
"commands": ["gsutil", "cp", f"gs://{BUCKET_NAME}/{FILE_NAME}", "/tmp"],
},
{"imageUri": "bash", "commands": ["-c", "echo Hello, world"]},
{
"imageUri": "google/cloud-sdk",
"commands": [
"gsutil",
"cp",
f"gs://{BUCKET_NAME}/{FILE_NAME}",
f"gs://{BUCKET_NAME}/output.in",
],
},
],
"resources": {
"regions": [f"{LOCATION}"],
"virtualMachine": {
"machineType": "n1-standard-1",
},
},
}
}
阅读 请求正文参数 以了解您可以在配置中包含的所有字段
运行管道¶
使用 LifeSciencesRunPipelineOperator
执行管道。
simple_life_science_action_pipeline = LifeSciencesRunPipelineOperator(
task_id="simple-action-pipeline",
body=SIMPLE_ACTION_PIPELINE,
project_id=PROJECT_ID,
location=LOCATION,
)