检索没有图像的网页
retrieve a web page without images
我正在使用 PHP 为特定站点编写网络抓取工具。
我使用 file_get_contents
函数来检索网页。
一些页面有图像,图像也随页面一起检索。
就我而言,我不希望图像在那里。 (我只想要文字)
我的问题是,是否可以检索没有图像的页面?如果是的话怎么办?
附加信息:我已经检查了页面的来源。 base 标签在 head 标签内定义并指向相同的 url.
编辑:我只注意到图像是 base64 编码的。
无法 "retrieve" 不包含图像的页面。检索后您需要 parse/scrub 内容。
与之前的评论一致,如果您只需要删除图像标签,那么其中一种方法就是这种方法:
$data=file_get_contents();
preg_replace("/<img[^>]+>/i", "(image) ", $content);
echo $content;
我正在使用 PHP 为特定站点编写网络抓取工具。
我使用 file_get_contents
函数来检索网页。
一些页面有图像,图像也随页面一起检索。
就我而言,我不希望图像在那里。 (我只想要文字)
我的问题是,是否可以检索没有图像的页面?如果是的话怎么办?
附加信息:我已经检查了页面的来源。 base 标签在 head 标签内定义并指向相同的 url.
编辑:我只注意到图像是 base64 编码的。
无法 "retrieve" 不包含图像的页面。检索后您需要 parse/scrub 内容。
与之前的评论一致,如果您只需要删除图像标签,那么其中一种方法就是这种方法:
$data=file_get_contents();
preg_replace("/<img[^>]+>/i", "(image) ", $content);
echo $content;