如何解决每个CSV元素计算错误的问题?
How to solve the problem of each CSV element calculation error?
我有一个 CSV 文件,必须计算并输出结果。
CSV 文件有数百万行。以下是我的CSV文件截图。
以下是我的代码:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option("display.max_rows",1000000000)
pd.set_option("display.max_columns",1000000000)
df = pd.read_csv("Ax_Seg_output_no_comma.csv")
cnted = df.groupby(['Content'],as_index=False)['Content'].agg({'cnt':'count'})
cnted.to_csv('01.csv',index=0)
我用了pandas算出来了,但是遇到了一些问题。
应该算错了
我需要得到这样的结果 A,5
B,2
C,1
......
但是,我得到了一些错误的结果是A,5
B
C,1
部分元素未统计。
部分台词不算数
如果我只统计25000行的元素,它可以输出正确的结果。
以下是错误的结果:
然后,正常的结果应该是这样的:
我怀疑它是否超过 pandas 限制。我认为它没有更多的错误。
谁能帮帮我?谢谢
(原来的CSV文件:https://drive.google.com/file/d/18_Y3Wu8OFFpAzgRXRsNh8C_nyh8wPPEu/view?usp=sharing)
您的代码很好,但结果令人困惑,因为某些项目('Content' 的值)是多行的。这就是为什么您会看到以下内容:
a
b:2
某些项目包含多行/换行符的原因是您的 CSV 中有引号。要忽略它们,请按如下方式阅读 csv:
import csv
df = pd.read_csv("Ax_Seg_output_no_comma.csv", quoting=csv.QUOTE_NONE)
我有一个 CSV 文件,必须计算并输出结果。
CSV 文件有数百万行。以下是我的CSV文件截图。
以下是我的代码:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option("display.max_rows",1000000000)
pd.set_option("display.max_columns",1000000000)
df = pd.read_csv("Ax_Seg_output_no_comma.csv")
cnted = df.groupby(['Content'],as_index=False)['Content'].agg({'cnt':'count'})
cnted.to_csv('01.csv',index=0)
我用了pandas算出来了,但是遇到了一些问题。
应该算错了
我需要得到这样的结果
A,5
B,2
C,1
......但是,我得到了一些错误的结果是
A,5
B
C,1
部分元素未统计。
部分台词不算数
如果我只统计25000行的元素,它可以输出正确的结果。
以下是错误的结果:
然后,正常的结果应该是这样的:
我怀疑它是否超过 pandas 限制。我认为它没有更多的错误。
谁能帮帮我?谢谢
(原来的CSV文件:https://drive.google.com/file/d/18_Y3Wu8OFFpAzgRXRsNh8C_nyh8wPPEu/view?usp=sharing)
您的代码很好,但结果令人困惑,因为某些项目('Content' 的值)是多行的。这就是为什么您会看到以下内容:
a
b:2
某些项目包含多行/换行符的原因是您的 CSV 中有引号。要忽略它们,请按如下方式阅读 csv:
import csv
df = pd.read_csv("Ax_Seg_output_no_comma.csv", quoting=csv.QUOTE_NONE)