在 Pentaho 中清理字符串中的坏 XML 个字符

Cleaning bad XML characters in a String in Pentaho

问题:通过网络/应用程序/文件交换接收错误XML。

我通过 HTTP GET 收到 XML 响应,有时文本中会包含错误的 XML 字符。

字符 SUB 出现在文本中 'Get data from XML' 步骤将无法读取它,指出 在文档的元素内容中发现了无效的 XML 字符(Unicode:0x1a).

在这个 Post 中找到了解决方案。

我不需要使用答案中包含的整个 JavaScript 函数,只是 XML.

中不允许使用的部分字符

我所做的是 'Modified Java Script Value'

中的一个简单的 Replace() 函数

var str = result.replace(/[^\x09\x0A\x0D\x20-\xFF\x85\xA0-\uD7FF\uE000-\uFDCF\uFDE0-\uFFFD]/gm,'');

这已经清除了整个 XML 个不良字符,并使整个字符可读。