Pentaho 中的 REGEX 清理我数据中的连接列
REGEX in Pentaho to clean a join column in my data
我一直在努力处理数据中的某个列,其中源数据很脏,因此我找不到连接。
所以我想做的是:
- Select 列 [website_reference_number] 等
- 根据某些规范
审查[website_reference_number]的REGEX
- 然后我需要 trim 那些数据,这样就没有不一致的地方,这样我的连接就会干净
例如
if [website_reference_number] = "CC-DE-109" >>> Leave it like that
if [website_reference_number] = "CC-DE-109-Duplicate" >>> change to CC-DE-109
if [website_reference_number] = "CC-DE-109 Duplicate" >>> change to CC-DE-109
if [website_reference_number] = "CC-DE-109-Duplicate-Duplic" >>> change to CC-DE-109
所以规则是人性化的{Any 2 Letters}-{Any 2 Letters}-{AnyAmountOfNumbers}
使用这个模式:
/([A-Z]{2})-([A-Z]{2})-([0-9]+).*/
Online Demo
我一直在努力处理数据中的某个列,其中源数据很脏,因此我找不到连接。
所以我想做的是:
- Select 列 [website_reference_number] 等
- 根据某些规范 审查[website_reference_number]的REGEX
- 然后我需要 trim 那些数据,这样就没有不一致的地方,这样我的连接就会干净
例如
if [website_reference_number] = "CC-DE-109" >>> Leave it like that
if [website_reference_number] = "CC-DE-109-Duplicate" >>> change to CC-DE-109
if [website_reference_number] = "CC-DE-109 Duplicate" >>> change to CC-DE-109
if [website_reference_number] = "CC-DE-109-Duplicate-Duplic" >>> change to CC-DE-109
所以规则是人性化的{Any 2 Letters}-{Any 2 Letters}-{AnyAmountOfNumbers}
使用这个模式:
/([A-Z]{2})-([A-Z]{2})-([0-9]+).*/