Stata 重复项不区分大小写

Stata duplicates drop with case insensitivity

我一直用这个

duplicates drop

处理重复项。

但是,这个命令认为“Apple Computer”和“apple computer”是不同的。但很明显,它们是一样的。如何删除此类重复项?

不是这样。这些字符串对于程序员来说是不同的,因为它们不相等,duplicates 有权,实际上是按照指示,以不同的方式对待它们。

大小写差异无关紧要由您决定。因此,可以通过使用 upper()lower().

比较全部大写或全部小写的字符串来修复此示例

此外,duplicates 的帮助说明:

Duplicates are observations with identical values either on all variables if no varlist is specified or on a specified varlist.

因此 duplicates drop 要删除观测值,所有变量都需要相同。