如何解决每个CSV元素计算错误的问题?

How to solve the problem of each CSV element calculation error?

我有一个 CSV 文件,必须计算并输出结果。

CSV 文件有数百万行。以下是我的CSV文件截图。

以下是我的代码:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option("display.max_rows",1000000000)
pd.set_option("display.max_columns",1000000000)
df = pd.read_csv("Ax_Seg_output_no_comma.csv")
cnted = df.groupby(['Content'],as_index=False)['Content'].agg({'cnt':'count'})
cnted.to_csv('01.csv',index=0)

我用了pandas算出来了,但是遇到了一些问题。

  1. 应该算错了

    我需要得到这样的结果 A,5 B,2 C,1......

    但是,我得到了一些错误的结果是A,5BC,1

部分元素未统计。

  1. 部分台词不算数

  2. 如果我只统计25000行的元素,它可以输出正确的结果。

以下是错误的结果:

然后,正常的结果应该是这样的:

我怀疑它是否超过 pandas 限制。我认为它没有更多的错误。

谁能帮帮我?谢谢

(原来的CSV文件:https://drive.google.com/file/d/18_Y3Wu8OFFpAzgRXRsNh8C_nyh8wPPEu/view?usp=sharing

您的代码很好,但结果令人困惑,因为某些项目('Content' 的值)是多行的。这就是为什么您会看到以下内容:

a

b:2

某些项目包含多行/换行符的原因是您的 CSV 中有引号。要忽略它们,请按如下方式阅读 csv:

import csv 
df = pd.read_csv("Ax_Seg_output_no_comma.csv", quoting=csv.QUOTE_NONE)