HTML 要列出的内容

Question

我想从 html 页面读取所有内容并将其存储在列表中。

你能在Python

中提出建议吗

例如：

url: https://en.wikipedia.org/wiki/Chancellor_of_Germany

从该页面获取所有内容并将其存储在列表中

德国总理是德国的政府首脑。德语的官方头衔是 Bundeskanzler(in)（字面意思是联邦总理），有时简称为 Kanzler(in)。该术语可追溯到中世纪早期，源自拉丁语术语 cancellarius。在德国政治中，总理相当于许多其他国家的总理。德语有总理、Premierminister 和 Ministerpräsident 两个等同的翻译。虽然 Premierminister 通常指外国政府首脑（例如英国），但 Ministerpräsident 也可以指大多数德国州的政府首脑。现任总理是安吉拉·默克尔 (Angela Merkel)，这是她的第三个任期。她是第一位女总理，因此在德语中被称为 Bundeskanzlerin（这个词在默克尔之前从未被正式使用过，但它是表示女总理的名词的语法规则形式，在[的末尾添加“-in” =24=]).

Answer 1

很简单：

import requests
import bs4

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany')
soup = bs4.BeautifulSoup(response.text, "html.parser")
txt = soup.find("div", {"id": "mw-content-text"})
para = txt.findAll('p')

for item in para:
    print item.text

您可以打印它或将其存储在列表或其他任何地方。此外，您可以 tokenize 与 nltk 基于句子。

HTML 要列出的内容

HTML Content to List

nltk

python-3.x

data-science