从 logstash 输入中删除 HTML 标记

Remove HTML markup from logstash input

我正在为 logstash 5.1 版中的数据操作而苦苦挣扎,其中一些数据来自带有 HTML 标记的开放文本字段。大多数时候它只有一个标记,像这样:

<.p>XYZ<./p>

我正在使用 Grok 处理它。

但是当它来的时候是这样的:

<.p><.b><.strong> XYZ <./strong><.<.

简单的 grok 无法过滤掉它。

我的问题是 HTML 标记是否有内置过滤器,或者我是否必须使用正则表达式开发自己的过滤器?或者您知道在 5.1 之前的版本中是否可以吗?

要删除 HTML,您可以使用:

mutate {  
  gsub => [
    "fieldname", "<.*?>", ""
  ]
}