如何解析多个pdf转换成hadoop(例子)
How to parse multiple pdf conversion into hadoop (example)
我有 100 万个 pdf,如何使用 hadoop 转换为文本并将其用于分析。
目标是利用 hadoop 的强大功能将 pdf 数据提取为文本。
我已经在 Hadoop 上处理了一个 pdf 文件,没有尝试处理多个文件,但我相信它也可以很好地处理多个文件。
完整代码见下方link
http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html
希望对您有所帮助!!..
我有 100 万个 pdf,如何使用 hadoop 转换为文本并将其用于分析。 目标是利用 hadoop 的强大功能将 pdf 数据提取为文本。
我已经在 Hadoop 上处理了一个 pdf 文件,没有尝试处理多个文件,但我相信它也可以很好地处理多个文件。
完整代码见下方link
http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html
希望对您有所帮助!!..