在 C# 中使用 Selenium 下载图像

Download Images Using Selenium in C#

我想从 google 图片的以下代码中指定的 Url 下载前 10 张图片。我尝试了很多方法但无法下载图片,因为我得到了错误的冗长 url,这似乎是垃圾数据。

这是我使用 C# 时的代码,

var driver = new ChromeDriver();

driver.Navigate().GoToUrl("https://www.google.com/search?q=wallpapers+pics&tbm=isch&ved=2ahUKEwizlL6W6sLxAhUE_4UKHS_YBDEQ2-cCegQIABAA&oq=wallpapers+pics&gs_lcp=CgNpbWcQAzICCAAyAggAMgIIADICCAAyAggAMgIIADICCAAyAggAMgIIADICCAA6BwgAELEDEEM6BAgAEENQ3I8FWJ6YBWDsnQVoAHAAeACAAasCiAHYCZIBAzItNZgBAKABAaoBC2d3cy13aXotaW1nwAEB&sclient=img&ei=bjXeYLOlJ4T-lwSvsJOIAw&bih=802&biw=1707");



// These are commented three ways to select the list of images

//IList<IWebElement> Imghref = driver.FindElements(By.XPath("//img[@jsname]"));

//IList<IWebElement> Imghref = driver.FindElements(By.ClassName("rg_i"));

//IList<IWebElement> Imghref = driver.FindElements(By.TagName("img"));

IList<IWebElement> Imghref = driver.FindElements(By.ClassName("rg_i"));

//BcuVif - n3VNCb     --- ClassNames which i have observed

foreach (IWebElement eachLink in Imghref)
{
    eachLink.Click();

    IWebElement Images = driver.FindElement(By.TagName("img"));
    //Console.WriteLine(Images.GetAttribute("class"));
    String ImageUrl = Images.GetAttribute("src");
    string ImageName = Images.GetAttribute("alt");
    Console.WriteLine("Image URL : " + ImageUrl);
    WebClient downloader = new WebClient();
    downloader.DownloadFile(ImageUrl, "D:\VisualStudio Workspace\Download-Images\images\" + ImageName + ".jpg");

}
img标签的

src属性并不总是URL图片,图片内容本身可能放在src属性中。例如,当 jpg 图像直接存储在 src 中时,请考虑以下示例:

<img src="" width="284" height="178">

你应该检查src属性值是否以data:开头(这意味着直接存储图像内容而不是url),然后你可以解析内容。格式如下: src="; , ".在本示例中,jpg 图像存储为 base64 字符串。你可以像这样转换 base64 字符串并将其保存到文件中:

var bytes = Convert.FromBase64String(base64String);
File.WriteAllBytes("image.jpg", bytes);

当然你需要检查图像格式(jpg、png 等),并将解码后的内容保存在相应文件扩展名的文件中。

在您的第一个 post 中,您提到了一个 Google 图像 URL,然后获取了 class 名称“rg_i”的所有元素。 正如 Georgi 所说,至少有一些具有此 class 名称的图像(如果不是全部)将其内容公开为 base-64。 但是格式是gif,不是jpeg或者png,比如<img src=""

因此您需要仔细解析 src 属性的字符串值的开头,然后使用 selenium 下载它,如果它是 URL(并确保文件名是有效)或将其解码为 base 64 数据并将返回的数据保存到具有 WriteAllBytes 或 StreamWriter 的文件中...

U 可以在大多数浏览器中使用 Ctrl+U 检查 HTML 标记。然后你看看img src数据是怎么样的

因此,将此代码放入我的原始代码后,一切正常! 谢谢大家!

字符串转换= base64String.Replace("data:image/jpeg;base64,", string.Empty); byte[] bytes = Convert.FromBase64String(转换); File.WriteAllBytes("D:\VisualStudio Workspace\Download-Images\images\image.jpg", bytes);