从 logstash 输入中删除 HTML 标记
Remove HTML markup from logstash input
我正在为 logstash 5.1 版中的数据操作而苦苦挣扎,其中一些数据来自带有 HTML 标记的开放文本字段。大多数时候它只有一个标记,像这样:
<.p>XYZ<./p>
我正在使用 Grok 处理它。
但是当它来的时候是这样的:
<.p><.b><.strong> XYZ <./strong><.<.
简单的 grok 无法过滤掉它。
我的问题是 HTML 标记是否有内置过滤器,或者我是否必须使用正则表达式开发自己的过滤器?或者您知道在 5.1 之前的版本中是否可以吗?
要删除 HTML,您可以使用:
mutate {
gsub => [
"fieldname", "<.*?>", ""
]
}
我正在为 logstash 5.1 版中的数据操作而苦苦挣扎,其中一些数据来自带有 HTML 标记的开放文本字段。大多数时候它只有一个标记,像这样:
<.p>XYZ<./p>
我正在使用 Grok 处理它。
但是当它来的时候是这样的:
<.p><.b><.strong> XYZ <./strong><.<.
简单的 grok 无法过滤掉它。
我的问题是 HTML 标记是否有内置过滤器,或者我是否必须使用正则表达式开发自己的过滤器?或者您知道在 5.1 之前的版本中是否可以吗?
要删除 HTML,您可以使用:
mutate {
gsub => [
"fieldname", "<.*?>", ""
]
}