如何编写自定义输入格式
How to write a Custom Input Format
我是 Hadoop 的新手,我遇到的情况是每 4 行输入文本中只有一行是相关的。目前我使用默认 TextInputFormat
和条件逻辑来跳过所有其他不相关的三行。
如何使用 Custom Input Format
来处理这个问题。由于我是 hadoop 的新手,所以我对 CustomInputFormat
了解不多。任何帮助,将不胜感激。谢谢!
我认为您可以使用 NLineInputFormat
来指定一条记录由多少行组成。这可能是简单易用的解决方案。
如果您想实现自己的输入格式,那么您可能会实现自定义输入格式和记录 reader 以指定构建您的一条记录的内容。
以下是示例之一
http://deep-developers.blogspot.in/2014/06/custom-input-split-and-custom.html
我是 Hadoop 的新手,我遇到的情况是每 4 行输入文本中只有一行是相关的。目前我使用默认 TextInputFormat
和条件逻辑来跳过所有其他不相关的三行。
如何使用 Custom Input Format
来处理这个问题。由于我是 hadoop 的新手,所以我对 CustomInputFormat
了解不多。任何帮助,将不胜感激。谢谢!
我认为您可以使用 NLineInputFormat
来指定一条记录由多少行组成。这可能是简单易用的解决方案。
如果您想实现自己的输入格式,那么您可能会实现自定义输入格式和记录 reader 以指定构建您的一条记录的内容。
以下是示例之一 http://deep-developers.blogspot.in/2014/06/custom-input-split-and-custom.html