识别从原始文本中跳入的部分
Identifying sections tabbed in from raw text
考虑 this page 上的文字。如果您查看源代码,您会发现主要文本的呈现方式与页面中的完全相同——没有 HTML 分区或任何其他明显可以在节中找到 paragraphs/tabbed 的方式。
有没有一种方法可以自动识别和删除原始文本中的标签部分?
我注意到的一件事是,当我将文本编码为 text = unicode(raw_text).encode("utf-8")
时,我可以看到一堆 \n 表示跳行。但是没有\t。 (这可能不是一个有用的思考方向,只是一个想法)。
编辑:以下作品
text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if " " not in x]
final = " ".join(y)
嗯,看了页面后,'tabbed'里面是空格而不是制表符;寻找标签不会有用。看起来该部分是用 5 个空格标记的。
raw_text.replace(' ','')
要替换所有出现的 5 个空格...
from re import sub
...
raw_text = sub(r' .*\n', '', raw_text)
考虑 this page 上的文字。如果您查看源代码,您会发现主要文本的呈现方式与页面中的完全相同——没有 HTML 分区或任何其他明显可以在节中找到 paragraphs/tabbed 的方式。
有没有一种方法可以自动识别和删除原始文本中的标签部分?
我注意到的一件事是,当我将文本编码为 text = unicode(raw_text).encode("utf-8")
时,我可以看到一堆 \n 表示跳行。但是没有\t。 (这可能不是一个有用的思考方向,只是一个想法)。
编辑:以下作品
text = unicode(raw_text).encode("utf-8")
y = [x for x in text.split("\n") if " " not in x]
final = " ".join(y)
嗯,看了页面后,'tabbed'里面是空格而不是制表符;寻找标签不会有用。看起来该部分是用 5 个空格标记的。
raw_text.replace(' ','')
要替换所有出现的 5 个空格...
from re import sub
...
raw_text = sub(r' .*\n', '', raw_text)