如何将 Cassandra 与 Hadoop 集成以利用 Hive
how to integrate Cassandra with Hadoop to take advantage of Hive
我在 2015 年一直在寻找将 Cassandra 集成到 Hadoop 上的解决方案已经将近 3 天了,网上的许多资源都已过时或从网上消失,而且 Datastax Enterprise 不免费提供此类集成的解决方案。
这样做有哪些选择?我想使用 Hive 查询语言从我的 Cassandra 获取数据,我认为第一步是将 Cassandra 与 Hadoop 集成。
最简单(但也是付费选项)是将 C* 的 Datastax Enterprise 打包与 Hadoop + Hive 一起使用。这提供了 Hive 表与 C* 的自动连接和注册,并在需要时包括并设置 Hadoop 执行平台。
http://www.datastax.com/products/datastax-enterprise
第二种最简单的方法是改用 Spark。 Spark Cassandra Connector 是开源的,允许使用 HiveQL 访问 C* 表。这是 运行ning 在 Spark 作为执行平台而不是 Hadoop 上完成的,但具有相似(如果不是更好)的性能。
有了这个解决方案,我会建立一个独立的 Spark 集群(因为你没有现有的 hadoop 基础设施),然后使用 spark-sql-thrift 服务器来 运行 查询C* 表。
https://github.com/datastax/spark-cassandra-connector
还有其他选择,但这些是我最熟悉的(和利益冲突通知,也开发 :D )
我在 2015 年一直在寻找将 Cassandra 集成到 Hadoop 上的解决方案已经将近 3 天了,网上的许多资源都已过时或从网上消失,而且 Datastax Enterprise 不免费提供此类集成的解决方案。
这样做有哪些选择?我想使用 Hive 查询语言从我的 Cassandra 获取数据,我认为第一步是将 Cassandra 与 Hadoop 集成。
最简单(但也是付费选项)是将 C* 的 Datastax Enterprise 打包与 Hadoop + Hive 一起使用。这提供了 Hive 表与 C* 的自动连接和注册,并在需要时包括并设置 Hadoop 执行平台。 http://www.datastax.com/products/datastax-enterprise
第二种最简单的方法是改用 Spark。 Spark Cassandra Connector 是开源的,允许使用 HiveQL 访问 C* 表。这是 运行ning 在 Spark 作为执行平台而不是 Hadoop 上完成的,但具有相似(如果不是更好)的性能。
有了这个解决方案,我会建立一个独立的 Spark 集群(因为你没有现有的 hadoop 基础设施),然后使用 spark-sql-thrift 服务器来 运行 查询C* 表。 https://github.com/datastax/spark-cassandra-connector
还有其他选择,但这些是我最熟悉的(和利益冲突通知,也开发 :D )