Trim XML 和 php 中的奇怪文字

Trim XML and weird text in php

我正在构建 RSS 提要服务,我正在处理具有类似这种独特格式的文章,我只想获取内容,而不是 xml 和特定样式或设置,我尝试删除图像base64 和 strip 标签和 trim 多个空格,但那里仍然有很多奇怪的内容,我如何清理数据所以我只得到纯文本 这是段落文本长内容,另一个段落文本长内容

<p align="justify"><!--[if gte mso 9]><xml>
 <w:WordDocument>
  <w:View>Normal</w:View>
  <w:Zoom>0</w:Zoom>
  <w:TrackMoves></w:TrackMoves>
  <w:TrackFormatting></w:TrackFormatting>
  ...
  </xml><![endif]--><!--[if gte mso 9]><xml>
 <w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true"
  DefSemiHidden="true" DefQFormat="false" DefPriority="99"
  LatentStyleCount="267">
  <w:LsdException Locked="false" Priority="0" SemiHidden="false"
   UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException>
  <w:LsdException Locked="false" Priority="9" SemiHidden="false"
   UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException>
  <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException>
</xml><![endif]--><!--[if gte mso 10]>
<style>
 /* Style Definitions */
 table.MsoNormalTable
    {mso-style-name:"Table Normal";
    mso-tstyle-rowband-size:0;
    mso-tstyle-colband-size:0;
    mso-style-noshow:yes;
mso-bidi-theme-font:minor-bidi;}
</style>
<![endif]-->

<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br>

<p class="MsoNormal" align="justify">**Another paragraph text long content**</p>

我的部分问题已在 How do you parse and process HTML/XML in PHP

得到解答

提取杂乱和格式不正确的HTML内容可以使用简单HTMLDOM解析器或相关脚本工具。

谢谢