Pentaho 中的 REGEX 清理我数据中的连接列

Question

我一直在努力处理数据中的某个列，其中源数据很脏，因此我找不到连接。

所以我想做的是：

Select 列 [website_reference_number] 等
根据某些规范
然后我需要 trim 那些数据，这样就没有不一致的地方，这样我的连接就会干净

例如

if [website_reference_number] = "CC-DE-109"                >>> Leave it like that

if [website_reference_number] = "CC-DE-109-Duplicate"      >>> change to CC-DE-109

if [website_reference_number] = "CC-DE-109 Duplicate"      >>> change to CC-DE-109

if [website_reference_number] = "CC-DE-109-Duplicate-Duplic" >>> change to CC-DE-109

所以规则是人性化的{Any 2 Letters}-{Any 2 Letters}-{AnyAmountOfNumbers}

Answer 1

使用这个模式：

/([A-Z]{2})-([A-Z]{2})-([0-9]+).*/

Pentaho 中的 REGEX 清理我数据中的连接列

REGEX in Pentaho to clean a join column in my data

regex

pentaho

Online Demo