如何在第一个流中识别具有相同字符的两行

Question

我想创建一个指标变量，"same_first_two_nearby"。这表明观测值的前两个字符等于附近的观测值。我尝试使用 "duplication method"，但失败了。因为该方法只能"delete"复制而不能保留

PROC SORT data=temp NODUPKEY;
 BY customer_IN;
RUN;

我的数据示例如下

data temp;
input  customer_IN $ 1-8 ;
cards;
ADJOHN. 
ADMARY.  
ADjerry.  
BWABBY.   
CFLUCY.   
CFLINDA.   
EFLAGNA.  
KTPAKAO.   
KTWANDA.    
;
run;
proc print data=temp;run;

我想生成如下结果。

customer_IN  same_first_two_nearby
    ADJOHN.                      1
    ADMARY.                      1 
    ADjerry.                     1 
    BWABBY.                      0 
    CFLUCY.                      1 
    CFLINDA.                     1 
    EFLAGNA.                     0 
    KTPAKAO.                     1 
    KTWANDA.                     1

提前致谢。

Answer 1

您可以使用包含前两个字符的辅助列来执行此操作，前提是它是按照原始问题排序的：

data temp;
input  customer_IN $ 1-8 initials $ 1-2;
cards;
ADJOHN. 
ADMARY.  
ADjerry.  
BWABBY.   
CFLUCY.   
CFLINDA.   
EFLAGNA.  
KTPAKAO.   
KTWANDA.    
;
run;

data want;
set temp;
by initials;
same_first_two_nearby = not(first.initials and last.initials);
run;

如何在第一个流中识别具有相同字符的两行

How to identify two rows with same characters at first stream

sas

indicator