识别从原始文本中跳入的部分

Question

考虑 this page 上的文字。如果您查看源代码，您会发现主要文本的呈现方式与页面中的完全相同——没有 HTML 分区或任何其他明显可以在节中找到 paragraphs/tabbed 的方式。

有没有一种方法可以自动识别和删除原始文本中的标签部分？

我注意到的一件事是，当我将文本编码为 text = unicode(raw_text).encode("utf-8") 时，我可以看到一堆 \n 表示跳行。但是没有\t。（这可能不是一个有用的思考方向，只是一个想法）。

编辑：以下作品

text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if "     " not in x]
final = " ".join(y)

Answer 1

嗯，看了页面后，'tabbed'里面是空格而不是制表符；寻找标签不会有用。看起来该部分是用 5 个空格标记的。

raw_text.replace('     ','')

要替换所有出现的 5 个空格...

from re import sub

...

raw_text = sub(r'     .*\n', '', raw_text)

Identifying sections tabbed in from raw text