统计文本数据集的字符总数

Count the total number of characters of a text dataset

我有一个数据框格式的数据集,其中第一列包含文本,第二列包含标签。我想计算数据集的字符总数。我为总字数实现了一个代码,但我不能将它应用于字符。如果你能帮助我,我将不胜感激。

# To see the total number of words 
dt['text'].apply(lambda x: len(x.split(' '))).sum()
dt['text'].str.len().sum()

这将为您提供字符总数。您可以从 here 查看 str 的文档(Series 和 Index 的矢量化字符串函数。)

您可以使用.str.len()来获取长度,即总字符数如下

import pandas as pd
df = pd.DataFrame({'text':['A','BBB','CCCCC']})
print(df['text'].str.len())

输出

0    1
1    3
2    5
Name: text, dtype: int64