Pentaho 中的 REGEX 清理我数据中的连接列

REGEX in Pentaho to clean a join column in my data

我一直在努力处理数据中的某个列,其中源数据很脏,因此我找不到连接。

所以我想做的是:

  1. Select 列 [website_reference_number] 等
  2. 根据某些规范
  3. 审查[website_reference_number]的REGEX
  4. 然后我需要 trim 那些数据,这样就没有不一致的地方,这样我的连接就会干净

例如

if [website_reference_number] = "CC-DE-109"                >>> Leave it like that

if [website_reference_number] = "CC-DE-109-Duplicate"      >>> change to CC-DE-109

if [website_reference_number] = "CC-DE-109 Duplicate"      >>> change to CC-DE-109

if [website_reference_number] = "CC-DE-109-Duplicate-Duplic" >>> change to CC-DE-109

所以规则是人性化的{Any 2 Letters}-{Any 2 Letters}-{AnyAmountOfNumbers}

使用这个模式:

/([A-Z]{2})-([A-Z]{2})-([0-9]+).*/

Online Demo