无法将 rss 解析为 html

Question

我正在尝试解析此 rss：https://www.mathjobs.org/jobs?joblist-0-----rss

我尝试使用 BeautifulSoup 但我无法理解发生了什么。我得到答案

82
0

当我使用以下脚本时。

import requests
from bs4 import BeautifulSoup

session = requests.session()

response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')

doc = BeautifulSoup(response.content,'html.parser')

titles = doc.find_all('title')

print( len(titles) )

divs = doc.find_all('div')

据我了解，数据以 html 格式给出，只有一个标题标签和几个 div。这里发生了什么？我使用 pyquery 得到了类似的结果。

Answer 1

您在使用 BeautifulSoup 之前忘记制作 soup。
添加这一行 - doc = BeautifulSoup(response.text,'lxml')

这是完整的代码。

import requests
from bs4 import BeautifulSoup

session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')

print(titles)

无法将 rss 解析为 html

Cannot parse rss as html

python

beautifulsoup

html-parsing