为没有任何 "alt" 属性的图像抓取和查找关键字
Crawling and finding keywords for images without any "alt" attribute
我正在编写一个从网页抓取图像的图像爬虫。这是通过在网页上找到 img 标签来完成的。但最近我注意到,有些 img 标签没有 alt 属性。有什么方法可以找到该特定图像的关键字吗?
以及抓取网站图片有什么注意事项吗?
如果标签中没有 alt 属性,或者它是空的,检查属性名称,如果不是名称,检查 id。好吧,id,例如,当 .asp 或 .aspx 时,没有意义。但是,好吧,作为最后的手段,通过只获取没有扩展名的文件名来使用 src 属性。有时属性 class 也可以使用,但是,我不推荐它。连身份证都可以骗人
当然,您会遇到 JS 强加图像的问题,但即便如此,也可以通过大量时间和意志来解决。
关于注意事项,具体指的是什么?检查 src 是否真的是图片还是什么?
我正在编写一个从网页抓取图像的图像爬虫。这是通过在网页上找到 img 标签来完成的。但最近我注意到,有些 img 标签没有 alt 属性。有什么方法可以找到该特定图像的关键字吗?
以及抓取网站图片有什么注意事项吗?
如果标签中没有 alt 属性,或者它是空的,检查属性名称,如果不是名称,检查 id。好吧,id,例如,当 .asp 或 .aspx 时,没有意义。但是,好吧,作为最后的手段,通过只获取没有扩展名的文件名来使用 src 属性。有时属性 class 也可以使用,但是,我不推荐它。连身份证都可以骗人
当然,您会遇到 JS 强加图像的问题,但即便如此,也可以通过大量时间和意志来解决。
关于注意事项,具体指的是什么?检查 src 是否真的是图片还是什么?