HTML 要列出的内容

HTML Content to List

我想从 html 页面读取所有内容并将其存储在列表中。

你能在Python

中提出建议吗

例如:

url: https://en.wikipedia.org/wiki/Chancellor_of_Germany

从该页面获取所有内容并将其存储在列表中

德国总理是德国的政府首脑。德语的官方头衔是 Bundeskanzler(in)(字面意思是联邦总理),有时简称为 Kanzler(in)。该术语可追溯到中世纪早期,源自拉丁语术语 cancellarius。 在德国政治中,总理相当于许多其他国家的总理。德语有总理、Premierminister 和 Ministerpräsident 两个等同的翻译。虽然 Premierminister 通常指外国政府首脑(例如英国),但 Ministerpräsident 也可以指大多数德国州的政府首脑。 现任总理是安吉拉·默克尔 (Angela Merkel),这是她的第三个任期。她是第一位女总理,因此在德语中被称为 Bundeskanzlerin(这个词在默克尔之前从未被正式使用过,但它是表示女总理的名词的语法规则形式,在[的末尾添加“-in” =24=]).

很简单:

import requests
import bs4

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany')
soup = bs4.BeautifulSoup(response.text, "html.parser")
txt = soup.find("div", {"id": "mw-content-text"})
para = txt.findAll('p')

for item in para:
    print item.text

您可以打印它或将其存储在列表或其他任何地方。此外,您可以 tokenizenltk 基于句子。