"How read part of large CSV or read it with any step"
"How read part of large CSV or read it with any step"
我有一个非常大的数据集,包含 125497040 行和 6 列。当我尝试读取 pandas 中的整个 CSV 文件时,我的系统崩溃了,因此我分块读取文件。
我想知道有没有一种方法可以通过分块读取来可视化整个数据?
我认为一次可视化所有数据不是一个好主意,因为我们无法在一张小图表中看到所有图表点。您可以使用任何平滑 or/and 近似算法,或者只用某个步骤取一个点。您可以在图表缩放中对此进行详细说明。
看看 Plotly https://plot.ly/javascript/zoom-events/ .
如果这对您来说是一种令人满意的方法,那么值得将问题重新表述为 "How read part of large CSV or read it with any step"。看来,这个问题可以用这个来解决:
http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk
我有一个非常大的数据集,包含 125497040 行和 6 列。当我尝试读取 pandas 中的整个 CSV 文件时,我的系统崩溃了,因此我分块读取文件。
我想知道有没有一种方法可以通过分块读取来可视化整个数据?
我认为一次可视化所有数据不是一个好主意,因为我们无法在一张小图表中看到所有图表点。您可以使用任何平滑 or/and 近似算法,或者只用某个步骤取一个点。您可以在图表缩放中对此进行详细说明。
看看 Plotly https://plot.ly/javascript/zoom-events/ .
如果这对您来说是一种令人满意的方法,那么值得将问题重新表述为 "How read part of large CSV or read it with any step"。看来,这个问题可以用这个来解决:
http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk