Trim XML 和 php 中的奇怪文字
Trim XML and weird text in php
我正在构建 RSS 提要服务,我正在处理具有类似这种独特格式的文章,我只想获取内容,而不是 xml 和特定样式或设置,我尝试删除图像base64 和 strip 标签和 trim 多个空格,但那里仍然有很多奇怪的内容,我如何清理数据所以我只得到纯文本 这是段落文本长内容,另一个段落文本长内容
<p align="justify"><!--[if gte mso 9]><xml>
<w:WordDocument>
<w:View>Normal</w:View>
<w:Zoom>0</w:Zoom>
<w:TrackMoves></w:TrackMoves>
<w:TrackFormatting></w:TrackFormatting>
...
</xml><![endif]--><!--[if gte mso 9]><xml>
<w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true"
DefSemiHidden="true" DefQFormat="false" DefPriority="99"
LatentStyleCount="267">
<w:LsdException Locked="false" Priority="0" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException>
<w:LsdException Locked="false" Priority="9" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException>
<w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException>
</xml><![endif]--><!--[if gte mso 10]>
<style>
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:"Table Normal";
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-bidi-theme-font:minor-bidi;}
</style>
<![endif]-->
<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br>
<p class="MsoNormal" align="justify">**Another paragraph text long content**</p>
我的部分问题已在 How do you parse and process HTML/XML in PHP
得到解答
提取杂乱和格式不正确的HTML内容可以使用简单HTMLDOM解析器或相关脚本工具。
谢谢
我正在构建 RSS 提要服务,我正在处理具有类似这种独特格式的文章,我只想获取内容,而不是 xml 和特定样式或设置,我尝试删除图像base64 和 strip 标签和 trim 多个空格,但那里仍然有很多奇怪的内容,我如何清理数据所以我只得到纯文本 这是段落文本长内容,另一个段落文本长内容
<p align="justify"><!--[if gte mso 9]><xml>
<w:WordDocument>
<w:View>Normal</w:View>
<w:Zoom>0</w:Zoom>
<w:TrackMoves></w:TrackMoves>
<w:TrackFormatting></w:TrackFormatting>
...
</xml><![endif]--><!--[if gte mso 9]><xml>
<w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true"
DefSemiHidden="true" DefQFormat="false" DefPriority="99"
LatentStyleCount="267">
<w:LsdException Locked="false" Priority="0" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException>
<w:LsdException Locked="false" Priority="9" SemiHidden="false"
UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException>
<w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException>
</xml><![endif]--><!--[if gte mso 10]>
<style>
/* Style Definitions */
table.MsoNormalTable
{mso-style-name:"Table Normal";
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-bidi-theme-font:minor-bidi;}
</style>
<![endif]-->
<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br>
<p class="MsoNormal" align="justify">**Another paragraph text long content**</p>
我的部分问题已在 How do you parse and process HTML/XML in PHP
得到解答提取杂乱和格式不正确的HTML内容可以使用简单HTMLDOM解析器或相关脚本工具。
谢谢