Stata 中的描述性统计 - 词频
Descriptive statistics in Stata - Word frequencies
我有一个大型数据集,其中包含变量 fileid、年份和大约 1000 个单词(每个单词都是一个单独的变量)。所有行条目均来自公司报告,指示年份、唯一的文件 ID 以及该报告中每个词的相应绝对频率。现在我想要一些描述性统计数据:根本未使用的词数、词的均值、词的方差、词的前百分位数。我如何在 Stata 中对其进行编程?
警告:您最好使用 R 或其他程序中的文本处理包。但由于没有其他人回答,我会给它一个仅限 Stata 的镜头。可能已经构建了一个更适合的 ado 文件,但我不知道有一个。
我假设
each word is a separate variable
表示有一个变量word_profit
取值k,从0到K其中word_profit[i]
是第i个报表写利润的次数,fileid[i]
.
词的意思
collapse (mean) word_*
会给出单词被使用的平均次数。添加 by(year)
选项将为您提供按年计算的方法。为了使它比一个非常广泛的观测数据集更易于管理,您需要 运行 在崩溃后执行以下操作:
gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp
词的变化
collapse (std) word_*
会给你标准偏差。要获得方差,只需平方标准差即可。
完全没有使用的字数
如果不更清楚一点,我不太清楚你在这里想要什么。你可以计算每个单词的零:
foreach var of varlist word_* {
gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*
我有一个大型数据集,其中包含变量 fileid、年份和大约 1000 个单词(每个单词都是一个单独的变量)。所有行条目均来自公司报告,指示年份、唯一的文件 ID 以及该报告中每个词的相应绝对频率。现在我想要一些描述性统计数据:根本未使用的词数、词的均值、词的方差、词的前百分位数。我如何在 Stata 中对其进行编程?
警告:您最好使用 R 或其他程序中的文本处理包。但由于没有其他人回答,我会给它一个仅限 Stata 的镜头。可能已经构建了一个更适合的 ado 文件,但我不知道有一个。
我假设
each word is a separate variable
表示有一个变量word_profit
取值k,从0到K其中word_profit[i]
是第i个报表写利润的次数,fileid[i]
.
collapse (mean) word_*
会给出单词被使用的平均次数。添加 by(year)
选项将为您提供按年计算的方法。为了使它比一个非常广泛的观测数据集更易于管理,您需要 运行 在崩溃后执行以下操作:
gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp
词的变化
collapse (std) word_*
会给你标准偏差。要获得方差,只需平方标准差即可。
如果不更清楚一点,我不太清楚你在这里想要什么。你可以计算每个单词的零:
foreach var of varlist word_* {
gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*