如何使用 scrapy 从 html 标签中提取数据

Question

我需要从此 HTML 代码中提取地址信息。

     <span>
        <span class="icon"> <i class="fas fa-building"></i> </span> 8  Phạm Hùng
         Cau Giay
         Ha Noi
     </span>

我怎样才能得到这些信息。如果我做类似

response.css('div.company-info__location').get()

我回来了

<div class="company-info__location">      <span>\n        <span class="icon"> <i class="fas fa-building"></i> </span> 8  Phạm Hùng\nCau Giay\nHa Noi\n 
     </span>\n    </div>

或

response.css('div.company-info__location::text').get()

只有returnspace。不完全是我想要的

Answer 1

您可以尝试string() XPath 表达式：

response.xpath('string(//div[@class="info__location"])').get()

如何使用 scrapy 从 html 标签中提取数据

How to extract data from html tag with scrapy

python

web-crawler

scrapy