提取文本直到 Scrapy 上的某些模式
Extract texts until certain patterns on Scrapy
我正在尝试使用 Scrapy 从网页中抓取某些内容。
html 元素如下所示。
'<p>\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n (<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&to=asso 302 ワンルーム&to_near_station1=25824&to_near_time1=1&to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>)\n
</p>'
我的目标是只提取这部分“杏急宝冢线\xa0/\xa0石桥站\xa0拖曳1分\n”。
我尝试将 .re()
用于响应,我认为 ^(.+?<a)
会起作用,因为它在 https://regex101.com/ 上成功解析。但是在 scrapy shell 上,它不解析任何东西(给我 [])。
有人可以帮我解决这个问题吗?
我使用 Python3/scrapy1.3.0。
谢谢!
import re
text = '''<p>\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n (<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&to=asso 302 ワンルーム&to_near_station1=25824&to_near_time1=1&to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>)\n
</p>'''
re.search(r'\n.+?\n', text).group()
输出:
'\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n'
我正在尝试使用 Scrapy 从网页中抓取某些内容。
html 元素如下所示。
'<p>\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n (<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&to=asso 302 ワンルーム&to_near_station1=25824&to_near_time1=1&to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>)\n
</p>'
我的目标是只提取这部分“杏急宝冢线\xa0/\xa0石桥站\xa0拖曳1分\n”。
我尝试将 .re()
用于响应,我认为 ^(.+?<a)
会起作用,因为它在 https://regex101.com/ 上成功解析。但是在 scrapy shell 上,它不解析任何东西(给我 [])。
有人可以帮我解决这个问题吗? 我使用 Python3/scrapy1.3.0。
谢谢!
import re
text = '''<p>\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n (<a href="javascript:void(0);" style="cursor:pointer;" onclic
k=\'window.open("http://athome.ekiworld.net/?id=athome&to=asso 302 ワンルーム&to_near_station1=25824&to_near_time1=1&to_near_traffic1=徒歩 1 分");return false;\'>電車ルート案内</a>)\n
</p>'''
re.search(r'\n.+?\n', text).group()
输出:
'\n 阪急宝塚線\xa0/\xa0石橋駅\xa0徒歩1分\n'