如何解决每个CSV元素计算错误的问题？

Question

我有一个 CSV 文件，必须计算并输出结果。

CSV 文件有数百万行。以下是我的CSV文件截图。

以下是我的代码：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option("display.max_rows",1000000000)
pd.set_option("display.max_columns",1000000000)
df = pd.read_csv("Ax_Seg_output_no_comma.csv")
cnted = df.groupby(['Content'],as_index=False)['Content'].agg({'cnt':'count'})
cnted.to_csv('01.csv',index=0)

我用了pandas算出来了，但是遇到了一些问题。

应该算错了

我需要得到这样的结果 A,5 B,2 C,1......

但是，我得到了一些错误的结果是A,5BC,1

部分元素未统计。

部分台词不算数
如果我只统计25000行的元素，它可以输出正确的结果。

以下是错误的结果：

然后，正常的结果应该是这样的：

我怀疑它是否超过 pandas 限制。我认为它没有更多的错误。

谁能帮帮我？谢谢

（原来的CSV文件：https://drive.google.com/file/d/18_Y3Wu8OFFpAzgRXRsNh8C_nyh8wPPEu/view?usp=sharing）

Answer 1

您的代码很好，但结果令人困惑，因为某些项目（'Content' 的值）是多行的。这就是为什么您会看到以下内容：

a

b:2

某些项目包含多行/换行符的原因是您的 CSV 中有引号。要忽略它们，请按如下方式阅读 csv：

import csv 
df = pd.read_csv("Ax_Seg_output_no_comma.csv", quoting=csv.QUOTE_NONE)

如何解决每个CSV元素计算错误的问题？

How to solve the problem of each CSV element calculation error?

python

csv

python-3.x

export-to-csv

pandas