如何编写通用正则表达式来提取 ExtractText 中的数据？

Question

我现在的数据如下，包含100行

1,Ads,,12,CDMA,,12
2,,12,14,CDMA,,12
..
...
100,DVS,13,,CDMA,12,22

我已经使用 GetFile-->SplitText-->ExtractText 为我当前的数据使用 10 个正则表达式属性将数据拆分成行。

For example my one of the input regex is (.+),(.+),,(.+),(.+),(.+) It will split the regex.1,regex.2 upto regex.5

对于 ExtractText 处理器中的此数据，我给出了 10 个正则表达式属性以匹配当前数据中的所有值。

未来还有 100 行将被添加到现在 data.So 我还必须为未来的 100 行编写正则表达式属性。

我还需要为处理器中提取的数据中的所有列添加表达式语言支持。

是否可以为 ExtractText 处理器中的所有数据提供通用正则表达式？

在NIFI中有没有其他方法可以通过逗号、管道符号等分隔符提取数据？

感谢任何帮助。

请任何人帮我解决这个问题

Answer 1

我刚刚找到用于从 csv 文件中提取数据的通用正则表达式。,

([^,]*?),([^,]*),([^,]*),([^,]*),([^,]*),([^,]*),([^,]*)

如果它可能比这个更好，它可能会非常昂贵(.+),(.+),,(.+),(.+),(.+)

这可能对某人有帮助。

How to write generic regex to extract the data in ExtractText?