无法使用 beautifulsoup 抓取所有元素
Can't scrape all elements with beautifulsoup
我想抓取此网页中的所有文章,但我只抓取了第一篇文章,谁能告诉我如何解决这个问题?我的代码如下:
from bs4 import BeautifulSoup
import requests
sauce = requests.get('https://www.automobile.tn/fr/neuf/alfa-romeo').text
soup = BeautifulSoup(sauce, 'lxml')
def find_prices(item):
price = item.find('div', class_='price').span.text
return price
def find_names(item):
name = item.find('div', class_='versions-item').h2.text
return name
articles = soup.findAll('div', class_='articles')
Articlelist= list()
for article in articles:
Articledict= dict()
Articledict['name'] = find_names(article)
Articledict['price'] = find_prices(article)
Articlelist.append(Articledict)
print(Articlelist)
这是我的代码的输出:
[{'name': 'Alfa Romeo Giulia', 'price': '198 000 DT'}]
这里的主要问题是你 select 只有一个元素 soup.findAll('div', class_='articles')
,所以你的循环只迭代一次。
注意 在较新的代码中避免使用旧语法 findAll()
而是使用 find_all()
- 更多信息请花一分钟时间 check docs
更具体地修复该行为 select 并使用例如class "version-item":
的容器
soup.find_all('div', class_='versions-item')
例子
from bs4 import BeautifulSoup
import requests
res = requests.get('https://www.automobile.tn/fr/neuf/alfa-romeo').text
soup = BeautifulSoup(res)
data = []
for item in soup.find_all('div', class_='versions-item'):
data.append({
'name':item.h2.text,
'price':item.find('div', class_='price').span.text
})
data
输出
[{'name': 'Alfa Romeo Giulia', 'price': '198 000 DT'},
{'name': 'Alfa Romeo Stelvio', 'price': '265 000 DT'}]
我想抓取此网页中的所有文章,但我只抓取了第一篇文章,谁能告诉我如何解决这个问题?我的代码如下:
from bs4 import BeautifulSoup
import requests
sauce = requests.get('https://www.automobile.tn/fr/neuf/alfa-romeo').text
soup = BeautifulSoup(sauce, 'lxml')
def find_prices(item):
price = item.find('div', class_='price').span.text
return price
def find_names(item):
name = item.find('div', class_='versions-item').h2.text
return name
articles = soup.findAll('div', class_='articles')
Articlelist= list()
for article in articles:
Articledict= dict()
Articledict['name'] = find_names(article)
Articledict['price'] = find_prices(article)
Articlelist.append(Articledict)
print(Articlelist)
这是我的代码的输出:
[{'name': 'Alfa Romeo Giulia', 'price': '198 000 DT'}]
这里的主要问题是你 select 只有一个元素 soup.findAll('div', class_='articles')
,所以你的循环只迭代一次。
注意 在较新的代码中避免使用旧语法 findAll()
而是使用 find_all()
- 更多信息请花一分钟时间 check docs
更具体地修复该行为 select 并使用例如class "version-item":
的容器soup.find_all('div', class_='versions-item')
例子
from bs4 import BeautifulSoup
import requests
res = requests.get('https://www.automobile.tn/fr/neuf/alfa-romeo').text
soup = BeautifulSoup(res)
data = []
for item in soup.find_all('div', class_='versions-item'):
data.append({
'name':item.h2.text,
'price':item.find('div', class_='price').span.text
})
data
输出
[{'name': 'Alfa Romeo Giulia', 'price': '198 000 DT'},
{'name': 'Alfa Romeo Stelvio', 'price': '265 000 DT'}]