从并行 txt 文件中读取 dask 数据帧
Read dask dataframe from parallel txt files
我在 S3 中存储了两个(或更多)并行文本文件 - 即第一个文件中的第 1 行对应于第二个文件中的第 1 行等。我想将这些文件作为列读取到单个 dask 数据帧中。 best/easiest/fastest 的方法是什么?
PS。我可以将它们中的每一个读入一个单独的数据帧,但随后我无法将它们加入索引,因为数据帧索引值似乎既不唯一也不单调。同时行的对应关系由它们在每个文件中的位置定义。
不幸的是dask.dataframe 按字节而不是按行拆分大文件。如果不先通读所有内容,就很难找到大文件中的特定行。
我在 S3 中存储了两个(或更多)并行文本文件 - 即第一个文件中的第 1 行对应于第二个文件中的第 1 行等。我想将这些文件作为列读取到单个 dask 数据帧中。 best/easiest/fastest 的方法是什么?
PS。我可以将它们中的每一个读入一个单独的数据帧,但随后我无法将它们加入索引,因为数据帧索引值似乎既不唯一也不单调。同时行的对应关系由它们在每个文件中的位置定义。
不幸的是dask.dataframe 按字节而不是按行拆分大文件。如果不先通读所有内容,就很难找到大文件中的特定行。