如何解析多个pdf转换成hadoop(例子)

How to parse multiple pdf conversion into hadoop (example)

我有 100 万个 pdf,如何使用 hadoop 转换为文本并将其用于分析。 目标是利用 hadoop 的强大功能将 pdf 数据提取为文本。

我已经在 Hadoop 上处理了一个 pdf 文件,没有尝试处理多个文件,但我相信它也可以很好地处理多个文件。

完整代码见下方link

http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html

希望对您有所帮助!!..