建议用于收集社交网络分析的 BigData DB

Suggested BigData DB for Collecting social network analytics

我想建立一个系统,每小时收集社交网络数据,并对特定 shares/posts(可能有数千个)上发生的事情进行采样。 爬取后,我想将其保存在一个大数据数据库中,以便稍后进行分析。

分析过程可能是 Spark 甚至应用程序代码分析。 这意味着我正在寻找可以让我执行以下操作的最佳数据库: 1.查询。 2.Spark等常用的数据处理可以在上面使用

你会推荐哪一个?数据库? MongoDB?沙发床?大表? DynamoDB?

谢谢!

既然你提到了 spark,而且我认为你需要存储 GB 的数据一天,而且这个输入数据永远不会改变(只读)我建议将你的原始数据存储在文件中,比如 s3 或 hdfs。因为从文件读取 json 比从任何数据库读取都快,而且无论是来自 hdfs、hbase 还是 couchbase,您的 spark 作业都是相同的。文件存储也会更便宜。

如果你仍然想将它们存储在 hbase 中,即使你使用 phoenix,它也没有提供太多 sql 查询功能,hbase 是一个键值数据库,你最终会得到许多二级索引表和重复数据,对于这种批处理用例来说是不必要的。

Cassandra 旨在实现 Amazon 的 Dynamo 分布式存储和复制技术与 Google 的 Bigtable 数据和存储引擎模型的组合 Twitter 和 Facebook 使用 Cassandra。

对于全文搜索,请使用 Solr。