hadoop - 如果一个文件只有一个记录并且文件的大小大于块大小,输入拆分形式将如何?
hadoop - how would input splits form if a file has only one record and the size of file is more than block size?
举例说明问题-
我有一个大小为 500MB 的文件 (input.csv)
文件中只有一行(记录)
文件将如何存储在 HDFS 块中以及如何计算输入拆分?
您可能需要检查这个 link:How does Hadoop process records split across block boundaries? 注意提到的 'remote read'。
您问题中提到的单个记录将存储在多个块中。但是,如果您使用 TextInputFormat 进行读取,则映射器必须跨块执行远程读取才能处理记录。
举例说明问题-
我有一个大小为 500MB 的文件 (input.csv)
文件中只有一行(记录)
文件将如何存储在 HDFS 块中以及如何计算输入拆分?
您可能需要检查这个 link:How does Hadoop process records split across block boundaries? 注意提到的 'remote read'。
您问题中提到的单个记录将存储在多个块中。但是,如果您使用 TextInputFormat 进行读取,则映射器必须跨块执行远程读取才能处理记录。