Stata 重复项不区分大小写

Question

我一直用这个

duplicates drop

处理重复项。

但是，这个命令认为“Apple Computer”和“apple computer”是不同的。但很明显，它们是一样的。如何删除此类重复项？

Answer 1

不是这样。这些字符串对于程序员来说是不同的，因为它们不相等，duplicates 有权，实际上是按照指示，以不同的方式对待它们。

大小写差异无关紧要由您决定。因此，可以通过使用 upper() 或 lower().

比较全部大写或全部小写的字符串来修复此示例

此外，duplicates 的帮助说明：

Duplicates are observations with identical values either on all variables if no varlist is specified or on a specified varlist.

因此 duplicates drop 要删除观测值，所有变量都需要相同。

Stata duplicates drop with case insensitivity