tests.system.apache.hive.example_twitter_dag

这是一个用于管理 Twitter 数据的示例 DAG。

属性

ENV_ID

DAG_ID

fetch

test_run

函数

fetch_tweets()

此任务应调用 Twitter API,检索昨天来自和发送给这四个 Twitter

clean_tweets()

这是一个清理八个文件的占位符。在此步骤中,您可以删除或选择性保留列

analyze_tweets()

这是一个分析 Twitter 数据的占位符。可以简单地通过算法进行情感分析

transfer_to_db()

这是一个从 Hive 数据中提取摘要并将其存储到 MySQL 的占位符。

模块内容

tests.system.apache.hive.example_twitter_dag.ENV_ID[source]
tests.system.apache.hive.example_twitter_dag.DAG_ID = 'example_twitter_dag'[source]
tests.system.apache.hive.example_twitter_dag.fetch_tweets()[source]

此任务应调用 Twitter API,检索昨天来自和发送给这四个 Twitter 用户(Twitter_A,..,Twitter_D)的推文。此任务应生成八个 csv 输出文件,命名约定为 direction(from or to)_twitterHandle_date.csv

tests.system.apache.hive.example_twitter_dag.clean_tweets()[source]

这是一个清理八个文件的占位符。在此步骤中,您可以删除或选择性保留列以及文本的不同部分。

tests.system.apache.hive.example_twitter_dag.analyze_tweets()[source]

这是一个分析 Twitter 数据的占位符。可以简单地通过 bag of words 等算法进行情感分析,或者进行更复杂的分析。您也可以查阅 Web Services 来执行此类任务。

tests.system.apache.hive.example_twitter_dag.transfer_to_db()[source]

这是一个从 Hive 数据中提取摘要并将其存储到 MySQL 的占位符。

tests.system.apache.hive.example_twitter_dag.fetch[source]
tests.system.apache.hive.example_twitter_dag.test_run[source]

此条目是否有帮助?