我如何从 Spark 写入 HDFS 以更快地访问该数据？

How can I write to HDFS from Spark to make access to that data faster?

假设我不是像 Hive 或 HBase 这样的工具（Spark 无论如何都无法使用 Hive 索引进行优化），将数据写入 HDFS 以更快地访问该数据的最佳方式是什么。

我想的是保存很多不同的文件，文件名由keys标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样，我们将有 26x26=676 个文件。因此，例如，如果我们想查看 Alan Walker 的记录，我们只需要加载文件 AW.这是一个好方法还是有更好的方法来做这种事情？

我相信索引是您所需要的。在 HDFS 中和在数据库中一样，索引在插入时有一些开销，但查询速度要快得多。

HDFS 没有任何类型的索引，因为它应该是 DFS 而不是数据库，但是您提到的要求已通过第三方程序实现

有许多 索引工具 可以与 HDFS 一起使用，例如，您可以查看 APACHE SOLR

这里有一个教程可以帮助您继续前进：https://lucene.apache.org/solr/guide/6_6/running-solr-on-hdfs.html

我如何从 Spark 写入 HDFS 以更快地访问该数据？

How can I write to HDFS from Spark to make access to that data faster?

hadoop

hdfs

apache-spark