我如何从 Spark 写入 HDFS 以更快地访问该数据?

How can I write to HDFS from Spark to make access to that data faster?

假设我不是像 Hive 或 HBase 这样的工具(Spark 无论如何都无法使用 Hive 索引进行优化),将数据写入 HDFS 以更快地访问该数据的最佳方式是什么。

我想的是保存很多不同的文件,文件名由keys标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样,我们将有 26x26=676 个文件。因此,例如,如果我们想查看 Alan Walker 的记录,我们只需要加载文件 AW.这是一个好方法还是有更好的方法来做这种事情?

我相信索引是您所需要的。在 HDFS 中和在数据库中一样,索引在插入时有一些开销,但查询速度要快得多。

HDFS 没有任何类型的索引,因为它应该是 DFS 而不是数据库,但是您提到的要求已通过第三方程序实现

有许多 索引工具 可以与 HDFS 一起使用,例如,您可以查看 APACHE SOLR

这里有一个教程可以帮助您继续前进:https://lucene.apache.org/solr/guide/6_6/running-solr-on-hdfs.html