HTML 要列出的内容
HTML Content to List
我想从 html 页面读取所有内容并将其存储在列表中。
你能在Python
中提出建议吗
例如:
url: https://en.wikipedia.org/wiki/Chancellor_of_Germany
从该页面获取所有内容并将其存储在列表中
德国总理是德国的政府首脑。德语的官方头衔是 Bundeskanzler(in)(字面意思是联邦总理),有时简称为 Kanzler(in)。该术语可追溯到中世纪早期,源自拉丁语术语 cancellarius。
在德国政治中,总理相当于许多其他国家的总理。德语有总理、Premierminister 和 Ministerpräsident 两个等同的翻译。虽然 Premierminister 通常指外国政府首脑(例如英国),但 Ministerpräsident 也可以指大多数德国州的政府首脑。
现任总理是安吉拉·默克尔 (Angela Merkel),这是她的第三个任期。她是第一位女总理,因此在德语中被称为 Bundeskanzlerin(这个词在默克尔之前从未被正式使用过,但它是表示女总理的名词的语法规则形式,在[的末尾添加“-in” =24=]).
很简单:
import requests
import bs4
response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany')
soup = bs4.BeautifulSoup(response.text, "html.parser")
txt = soup.find("div", {"id": "mw-content-text"})
para = txt.findAll('p')
for item in para:
print item.text
您可以打印它或将其存储在列表或其他任何地方。此外,您可以 tokenize
与 nltk
基于句子。
我想从 html 页面读取所有内容并将其存储在列表中。
你能在Python
中提出建议吗例如:
url: https://en.wikipedia.org/wiki/Chancellor_of_Germany
从该页面获取所有内容并将其存储在列表中
德国总理是德国的政府首脑。德语的官方头衔是 Bundeskanzler(in)(字面意思是联邦总理),有时简称为 Kanzler(in)。该术语可追溯到中世纪早期,源自拉丁语术语 cancellarius。 在德国政治中,总理相当于许多其他国家的总理。德语有总理、Premierminister 和 Ministerpräsident 两个等同的翻译。虽然 Premierminister 通常指外国政府首脑(例如英国),但 Ministerpräsident 也可以指大多数德国州的政府首脑。 现任总理是安吉拉·默克尔 (Angela Merkel),这是她的第三个任期。她是第一位女总理,因此在德语中被称为 Bundeskanzlerin(这个词在默克尔之前从未被正式使用过,但它是表示女总理的名词的语法规则形式,在[的末尾添加“-in” =24=]).
很简单:
import requests
import bs4
response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany')
soup = bs4.BeautifulSoup(response.text, "html.parser")
txt = soup.find("div", {"id": "mw-content-text"})
para = txt.findAll('p')
for item in para:
print item.text
您可以打印它或将其存储在列表或其他任何地方。此外,您可以 tokenize
与 nltk
基于句子。