提取文本直到 Scrapy 上的某些模式

Question

我正在尝试使用 Scrapy 从网页中抓取某些内容。

html 元素如下所示。

'<p>\n                                    阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n                                                                            （<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&amp;to=ａｓｓｏ ３０２ ワンルーム&amp;to_near_station1=25824&amp;to_near_time1=1&amp;to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>）\n
                                                </p>'

我的目标是只提取这部分“杏急宝冢线\xa0/\xa0石桥站\xa0拖曳1分\n”。我尝试将 .re() 用于响应，我认为 ^(.+?<a) 会起作用，因为它在 https://regex101.com/ 上成功解析。但是在 scrapy shell 上，它不解析任何东西（给我 []）。

有人可以帮我解决这个问题吗？我使用 Python3/scrapy1.3.0。

谢谢！

Answer 1

import re

text =  '''<p>\n                                    阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n                                                                            （<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&amp;to=ａｓｓｏ ３０２ ワンルーム&amp;to_near_station1=25824&amp;to_near_time1=1&amp;to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>）\n
                                                </p>'''

re.search(r'\n.+?\n', text).group()

输出：

'\n                                    阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n'

提取文本直到 Scrapy 上的某些模式

Extract texts until certain patterns on Scrapy

regex

scrapy

web-scraping

scrapy-spider