无法将 rss 解析为 html
Cannot parse rss as html
我正在尝试解析此 rss:https://www.mathjobs.org/jobs?joblist-0-----rss
我尝试使用 BeautifulSoup 但我无法理解发生了什么。我得到答案
82
0
当我使用以下脚本时。
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.content,'html.parser')
titles = doc.find_all('title')
print( len(titles) )
divs = doc.find_all('div')
据我了解,数据以 html 格式给出,只有一个标题标签和几个 div。这里发生了什么?我使用 pyquery 得到了类似的结果。
您在使用 BeautifulSoup
之前忘记制作 soup
。
添加这一行 - doc = BeautifulSoup(response.text,'lxml')
这是完整的代码。
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')
print(titles)
我正在尝试解析此 rss:https://www.mathjobs.org/jobs?joblist-0-----rss
我尝试使用 BeautifulSoup 但我无法理解发生了什么。我得到答案
82
0
当我使用以下脚本时。
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.content,'html.parser')
titles = doc.find_all('title')
print( len(titles) )
divs = doc.find_all('div')
据我了解,数据以 html 格式给出,只有一个标题标签和几个 div。这里发生了什么?我使用 pyquery 得到了类似的结果。
您在使用 BeautifulSoup
之前忘记制作 soup
。
添加这一行 - doc = BeautifulSoup(response.text,'lxml')
这是完整的代码。
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')
print(titles)