Selenium get_attribute('src') 图像 returns Base64 而不是 url
Selenium get_attribute('src') of an image returns Base64 instead of an url
我正在使用 selenium 从 google 图片中自动下载多张图片,因为我之前在互联网上找到的所有其他解决方案都太慢或无法正常工作,但现在我需要提取图像的来源,但是当我尝试使用 element.get_attribute('src') 它 returns 图像的 base64 时,即使我在 chrome devtools 上搜索 xpath标签的 src 属性实际上是 url
代码试验:
for i in range(n):
element = self.wait.until(
EC.presence_of_element_located((By.XPATH, '//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div/a/img')))
src = element.get_attribute('src')
print(element)
self.download_file(src,keyword)
编辑:
我实际上尝试了你们中一些人所说的,而不是下载图像,我将 base 64 转换为图像并保存,这比使用请求和 URL 保存快得多,但猜猜Google 脚本的问题比我的代码更严重,因为有时我的代码会崩溃,因为 src 实际上返回了 URL,最后,我不得不创建两个不同的函数,一个是 if src返回一个 url 和其他如果返回 base64
要打印 src 属性的值,您需要引入 for the visibility_of_element_located()
and you can use either of the following :
使用CSS_SELECTOR
:
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.CSS_SELECTOR, "img[alt='Letter A AC - Decortiles'][src]"))).get_attribute("src"))
使用XPATH
:
print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//img[@alt='Letter A AC - Decortiles' and @src]"))).get_attribute("src"))
注意:您必须添加以下导入:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
我可以使用以下代码从另一个搜索引擎 DuckDuckGo 检索实际图像 URL:
search_query = 'what you want to find'
num_images = 1
driver_location = '/put/location/of/your/driver/here'
ser = Service(driver_location)
op = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=ser, options=op)
# searching the query
driver.get(f'https://duckduckgo.com/?q={search_query}&kl=us-en&ia=web')
# going to Images Section
ba = driver.find_element(By.XPATH, "//a[@class='zcm__link js-zci-link js-zci-link--images']")
ba.click()
# getting the images URLs
for result in driver.find_elements(By.CSS_SELECTOR, '.js-images-link')[0:0+num_images]:
imageURL = result.get_attribute('data-id')
print(f'{imageURL}\n')
driver.quit()
我正在使用 selenium 从 google 图片中自动下载多张图片,因为我之前在互联网上找到的所有其他解决方案都太慢或无法正常工作,但现在我需要提取图像的来源,但是当我尝试使用 element.get_attribute('src') 它 returns 图像的 base64 时,即使我在 chrome devtools 上搜索 xpath标签的 src 属性实际上是 url
代码试验:
for i in range(n):
element = self.wait.until(
EC.presence_of_element_located((By.XPATH, '//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div/a/img')))
src = element.get_attribute('src')
print(element)
self.download_file(src,keyword)
编辑:
我实际上尝试了你们中一些人所说的,而不是下载图像,我将 base 64 转换为图像并保存,这比使用请求和 URL 保存快得多,但猜猜Google 脚本的问题比我的代码更严重,因为有时我的代码会崩溃,因为 src 实际上返回了 URL,最后,我不得不创建两个不同的函数,一个是 if src返回一个 url 和其他如果返回 base64
要打印 src 属性的值,您需要引入 visibility_of_element_located()
and you can use either of the following
使用
CSS_SELECTOR
:print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.CSS_SELECTOR, "img[alt='Letter A AC - Decortiles'][src]"))).get_attribute("src"))
使用
XPATH
:print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//img[@alt='Letter A AC - Decortiles' and @src]"))).get_attribute("src"))
注意:您必须添加以下导入:
from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC
我可以使用以下代码从另一个搜索引擎 DuckDuckGo 检索实际图像 URL:
search_query = 'what you want to find'
num_images = 1
driver_location = '/put/location/of/your/driver/here'
ser = Service(driver_location)
op = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=ser, options=op)
# searching the query
driver.get(f'https://duckduckgo.com/?q={search_query}&kl=us-en&ia=web')
# going to Images Section
ba = driver.find_element(By.XPATH, "//a[@class='zcm__link js-zci-link js-zci-link--images']")
ba.click()
# getting the images URLs
for result in driver.find_elements(By.CSS_SELECTOR, '.js-images-link')[0:0+num_images]:
imageURL = result.get_attribute('data-id')
print(f'{imageURL}\n')
driver.quit()