在 python 中使用 beautifulsoup 和 selenium 抓取 iframe

Crawling iframe using beautifulsoup and selenium in python

我会抓取包含 iframe 的网站。

参见 http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20150515001896。它在 chrome 浏览器中有 2 个选项。("view page source" 和 "view frame source" 都有。)

但是使用 Beautiful Soup、urllib2 或 selenium 访问 url 只给我没有 iframe 的页面源代码

如何访问可以在 chrome 中看到的 iframe 源?

以下代码用于访问该网站的页面源。

from selenium import webdriver
import urllib2
from bs4 import BeautifulSoup

url = "http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20150515001896"
f = urllib2.urlopen(url)

#or

browser = webdriver.Chrome()
browser.get(url)
html_source = browser.page_source

#show only the page sources

访问下面url就简单解决了。

http://dart.fss.or.kr/report/viewer.do?rcpNo=20150515001896&dcmNo=4671059&eleId=17&offset=1015699&length=132786&dtd=dart3.xsd