需要最好的数据库来处理海量数据
Need Best database to process huge data
我的情况如下。
我每天从不同的在线商店和内容提供商(例如 CNET 数据源)获得 256 GB 的产品信息。
这些信息可以是 CSV、XML 和 TXT 文件。文件将被解析并存储到 MongoDB。
以后的信息将被转换为可搜索的,并被索引到 Elasticsearch 中。
所有256GB的信息每天都没有变化。大多数 70% 的信息都是相同的,只有少数字段(如价格、尺码、名称等)会经常更改。
我正在使用 PHP 处理文件。
我的问题是
- 解析海量数据
- 映射数据库中的字段(例如标题不是所有在线商店的标题。他们会将字段名称命名为 Short-Title 或其他名称)
- 每天增加 GB 的信息。如何存储所有和处理。 (可能是大数据但不确定如何使用它)
- 海量数据快速查询
请建议我适合这个问题的数据库。
解析大量数据 - Spark 是满足您需求的最快的分布式解决方案,认为您有 70% 相同的数据只是为了比较其副本,无论如何您都必须处理它,在这里您可以将 n 全部映射为嗯。
数据存储,如果你在这里做任何聚合,我建议使用 HBase/Impala ,如果每一行产品对你很重要使用 cassandra
因为搜索没有什么比lucene更快,所以用Solr或Elasticsearch随便你觉得舒服,两者都很好。
我的情况如下。
我每天从不同的在线商店和内容提供商(例如 CNET 数据源)获得 256 GB 的产品信息。 这些信息可以是 CSV、XML 和 TXT 文件。文件将被解析并存储到 MongoDB。 以后的信息将被转换为可搜索的,并被索引到 Elasticsearch 中。
所有256GB的信息每天都没有变化。大多数 70% 的信息都是相同的,只有少数字段(如价格、尺码、名称等)会经常更改。 我正在使用 PHP 处理文件。
我的问题是
- 解析海量数据
- 映射数据库中的字段(例如标题不是所有在线商店的标题。他们会将字段名称命名为 Short-Title 或其他名称)
- 每天增加 GB 的信息。如何存储所有和处理。 (可能是大数据但不确定如何使用它)
- 海量数据快速查询
请建议我适合这个问题的数据库。
解析大量数据 - Spark 是满足您需求的最快的分布式解决方案,认为您有 70% 相同的数据只是为了比较其副本,无论如何您都必须处理它,在这里您可以将 n 全部映射为嗯。
数据存储,如果你在这里做任何聚合,我建议使用 HBase/Impala ,如果每一行产品对你很重要使用 cassandra
因为搜索没有什么比lucene更快,所以用Solr或Elasticsearch随便你觉得舒服,两者都很好。