统计文本数据集的字符总数
Count the total number of characters of a text dataset
我有一个数据框格式的数据集,其中第一列包含文本,第二列包含标签。我想计算数据集的字符总数。我为总字数实现了一个代码,但我不能将它应用于字符。如果你能帮助我,我将不胜感激。
# To see the total number of words
dt['text'].apply(lambda x: len(x.split(' '))).sum()
dt['text'].str.len().sum()
这将为您提供字符总数。您可以从 here 查看 str
的文档(Series 和 Index 的矢量化字符串函数。)
您可以使用.str.len()
来获取长度,即总字符数如下
import pandas as pd
df = pd.DataFrame({'text':['A','BBB','CCCCC']})
print(df['text'].str.len())
输出
0 1
1 3
2 5
Name: text, dtype: int64
我有一个数据框格式的数据集,其中第一列包含文本,第二列包含标签。我想计算数据集的字符总数。我为总字数实现了一个代码,但我不能将它应用于字符。如果你能帮助我,我将不胜感激。
# To see the total number of words
dt['text'].apply(lambda x: len(x.split(' '))).sum()
dt['text'].str.len().sum()
这将为您提供字符总数。您可以从 here 查看 str
的文档(Series 和 Index 的矢量化字符串函数。)
您可以使用.str.len()
来获取长度,即总字符数如下
import pandas as pd
df = pd.DataFrame({'text':['A','BBB','CCCCC']})
print(df['text'].str.len())
输出
0 1
1 3
2 5
Name: text, dtype: int64