如何抓取特定网站的一些评论? (我遇到了挑战。)

How to crawl some comments of a specific web-site? (I met a challenge.)

我是爬虫初学者,在学习的过程中遇到了一道难题

无论如何,我尝试在网络新闻中抓取评论但我失败了。

这是我在 python 中使用 selenium 的代码。


from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By


driver = webdriver.Chrome('./chromedriver')

url = 'https://www.etnews.com/20200228000119?mc=em_101_00001'

driver.get(url)

try:
    element = WebDriverWait(driver, 100).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#list > div:nth-child(3) > div.reply-bottom > div.reply-content-wrapper > div.reply-content > p')))

    comment_list = driver.find_element_by_css_selector('#list > div:nth-child(3) > div.reply-bottom > div.reply-content-wrapper > div.reply-content > p')
except:
    print('Timeout')

print(comment_list.text) 

driver.quit()

我认为 chromedriver 似乎没有检测到 css_selector 因为输出消息总是 'Timeout'.

我不知道为什么普通网站之一的网站(https://www.etnews.com/)中的评论不能被硒浏览。

我想知道原因。请给我一个很大的帮助。

(ps。我知道 HTML, CSS 一点但不太了解 Javascript)

您正在查看的页面有 iframe。评论在里面。

为了收集评论,您需要先切换到 iframe,然后您才能访问 iframe 中的元素,在您的例子中是评论。我修改了你的脚本来做到这一点,试试这个:

driver = webdriver.Chrome('./chromedriver')
url = 'https://www.etnews.com/20200228000119?mc=em_101_00001'

driver.get(url)
driver.implicitly_wait(5)

# Switch to iframe
driver.switch_to.frame(driver.find_element_by_xpath("//iframe[@title='livere']"))
# Search for comment
comment = driver.find_element_by_css_selector('#list > div:nth-child(3) > div.reply-bottom > div.reply-content-wrapper > div.reply-content > p')
print(comment.text)

driver.quit()

希望对你有所帮助,祝你好运!