解析具有大量节点的 XML 个文件

Question

我有一个 XML 供稿，其中 URL 包含要检索的行程 ID。

http://www.expeditiontrips.com/xml/triplist.xml

基于每个行程的信息可以从下面URL中检索，其中ID变成XML名字

http://www.expeditiontrips.com/xml/trips/3481.xml

现在，如果您查看 http://www.expeditiontrips.com/xml/trips/3481.xml link，您会看到添加节点下有一个添加项，其标签名为 "JRO Teaser"。我需要做的是解析这两个文件并显示具有此 "JRO Teaser" 标签的旅行列表。包含此附加项的行程为折扣行程。我写了一个代码，它可以检索列表，但问题是因为第一个 XML 文件中有 518 个节点，加载页面需要 5 分钟。换句话说，由于编号很大，它花费太多时间来显示结果。的旅行。有人可以为我提供一种无需太多加载时间即可正确显示的方法吗？以下是我到目前为止的代码。

    <?php 
        $ch = curl_init('http://www.expeditiontrips.com/xml/triplist.xml');
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        $xml_raw = curl_exec($ch);
        curl_close($ch);

        $trips = simplexml_load_string($xml_raw);

        $total = count($trips);

        for($a=0; $a<=$total; ++$a) { 

            $ch = curl_init('http://www.expeditiontrips.com/xml/trips/' . $trips->trip[$a] . '.xml');
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
            $xml_raw = curl_exec($ch);
            curl_close($ch);

            $info = simplexml_load_string($xml_raw);

            //print_r($info);

            $name = 'JRO Teaser';

            $tripss = $info->xpath("/trip/additions/addition/label");

            if($tripss[1] == 'JRO Teaser') {

                echo $info->code; 

            } 

        }       
    ?>

Answer 1

您正在尝试处理 500 多个 xml 个平均大小为 18-25KB 的文档。
对我来说，每个文档需要 0.5-1 秒。

如果您的业务逻辑允许，我建议您在页面加载之外执行此操作，例如在 cron 作业中，每 30 分钟或 1 小时一次，并将结果保存在数据库中，甚至保存在服务器上的文本文件中.

你可以用更高的频率来做，这取决于你追求的是什么，例如。跳过已处理的 ID 或类似注释的内容。

在实际页面加载时，只需查询您的存储、平面文件或数据库。

稍微更改了您的代码：

$trips = simplexml_load_file('http://www.expeditiontrips.com/xml/triplist.xml');

foreach ($trips as $tripId) {

    $info = simplexml_load_file('http://www.expeditiontrips.com/xml/trips/' . $tripId .'.xml');

    $name = 'JRO Teaser';

    foreach ($info->additions->addition as $add)
        if ($add->label==$name) $codes[] = (string)$info->code;

}

// process the $codes array, save to text file or database
// saveCodes($codes);
print_r($codes);

Answer 2

你当然可以通过将机器的力量投入其中来解决这个问题——或者只是要求正确的文档来解析。

JRO 很可能代表刚刚发布的优惠。您可以通过将 HTML 文档加载到 DOMDocument 并使用一些 xpath:

来获得这些列表

$doc = new DOMDocument();
$saved = libxml_use_internal_errors(true);
$doc->loadHTML($buffer);
libxml_use_internal_errors($saved);
$doc->formatOutput = true;
$doc->preserveWhiteSpace = false;

$xpath = new DOMXPath($doc);
$ids = $xpath->query('//section/article[@class="sr search_result"]//input[@class="tc"]/@value');
foreach ($ids as $id) {
    echo $id->nodeValue, "\n";
}

因此，与其查询您自己的所有文档，不如查询一个已经为您查询的网站。

这里仍然适用缓存规则。这已经有助于像您一样开发此类抓取工具。

$url = 'http://www.expeditiontrips.com/jro-list/?region=all&pricerange=special';
$key = 'scratch_3_' . md5($url);
if (file_exists($key)) {
    $buffer = file_get_contents($key);
} else {
    $buffer = file_get_contents($url);
    file_put_contents($key, $buffer);
}

输出：

解析具有大量节点的 XML 个文件

Parse XML files that has large number of nodes

php

xml

xpath

xml-parsing