为什么我的代码会跳出循环 In php

Why is my code jumping out of a loop In php

我正在使用简单的 HTML DOM 解析器编写一个关于网络抓取的项目。我从我的数据库中抓取网页,提取内容然后存储在数据库中。该代码在第一个 URL 上运行良好,但在剩余的 URL 上它只是跳出了循环。下面是我的代码。

include_once('Connections/elecom_connect.php');
include_once('dom/simple_html_dom.php');

mysqli_select_db($elecom_connect,$database_elecom_connect);
$sql = "SELECT * FROM link_data";
$result_links = array();
$result_cates = '';
$result_subs = '';
$result_names = '';
$num = -1;
$count = 0;

$img = '.image-wrapper img';
$brand = 'h2.title span.brand';
$name = 'h2.title span.name';
$price = 'span.price-box';
$link = 'section.products a.link';

$site = new simple_html_dom();

$query = mysqli_query($elecom_connect,$sql);

if (!$query){
    echo 'Database error: ' .    mysqli_error($elecom_connect);
}

while ($row = mysqli_fetch_array($query)) {
    $result_links[] =  $row;
}

foreach($result_links as $link){
    $var = $link['link'];
    if (!empty($var)) {
        var_dump($var);

        $site->load_file($var);
        if (!empty($site)) {
            $currentImg = $site->find($img);
            $currentBrand = $site->find($brand);
            $currentName = $site->find($name);
            $currentPrice = $site->find($price);
            $currentLink = $site->find($link);

            $rid = $link['id'];
            $rcates = $link['link_category'];
            $rsubs = $link['link_subcategory'];
            $rnames = $link['link_name'];
            if (!empty($currentImg)) {
                foreach($currentImg as $im){
                    $count++;

                    if($count % 2 == 0 && $count < 40){
                        $num++;

                        $cImg = $im->src;
                        $cBrand = "<p>".$currentBrand[$num]->plaintext."</p>";
                        $cName = "<p>".$currentName[$num]->plaintext."</p>";
                        $cPrice = "<p>".$currentPrice[$num]->plaintext."</p>";
                        //$cLink = $currentLink[$num]->href;

                        $content = file_get_contents($cImg);
                        //Store in the filesystem.
                        $save_path = "cachedPages/$rid.$num.jpg";
                        file_put_contents($save_path,$content);

                        $insertSQL = "INSERT INTO item_detail (item_name, item_brand, item_price, item_img, item_cate, item_sub_cate,filter_by) VALUES ('$cName', '$cBrand', '$cPrice','$save_path','$rcates','$rsubs','$rnames')";

                        mysqli_select_db($elecom_connect,$database_elecom_connect);
                        $Result1 = mysqli_query($elecom_connect,$insertSQL) or die(mysqli_error(          $elecom_connect));

                        echo 'Success';


                    }
                }
            }

        }
    }
    $site->clear();
}

这是我得到的错误代码。

Fatal error: Uncaught Error: Call to a member function find() on null in dom/simple_html_dom.php:1113 Stack trace: #0

我该怎么办?

您为每一行替换了整个数组,因此只有最后一个 URL 会被删除。

$result_links = array();
while ($row = mysqli_fetch_array($query))
{ 
    array_push($result_links, $row);
} 

这行代码不正确:

$site = new simple_html_dom();

根据 GitHub https://github.com/samacs/simple_html_dom/tree/master/example

中的示例目录,您显然不需要执行此操作

你想做的是使用两种方法中的一种

file_get_htmlstr_get_html 包含 include_once('dom/simple_html_dom.php');.

时加载

所以你其实很想看

$site = file_get_html($url); //URL to a site you are parsing ie 'http://www.google.com/'
//OR 
$site = str_get_html($str); // String file to some html file

如果您阅读代码,实际上会创建一个 $dom_node,其中包含 find 方法。

你所拥有的之所以奇怪是因为你正在创建和对象,当你检查 if(!empty($site)) 它 returns 是因为有一个对象。但是,内部 dom_node 设置不正确。

当你到达这个不是你的 libs 文件的第 1113 行时,你有一个空 dom_nodenull->find() 将抛出你得到的错误。