如何通过网络抓取数据并将其发送到 google 个工作表
How to web-scrape data and send them to google sheets
我有一列网址:
- naj.sk/obchodne-podmienky/
- https://eshop.sdetmi.com/obchodne-podmienky/
- https://www.bioliek.sk/obchodne-podmienky/
- https://www.lunzo.sk/obchodne-podmienky/
并且我想将特定数字拼凑到另一列中。
具体来说:找到单词 IČO 并刮下后面的 8 个数字(即公司 ID 号)。
HOW IT LOOKS
编辑:好的,我发现了这个:
B2: =JOIN("|",IMPORTXML(A2,"//a/@href"))
C2: =REGEXEXTRACT(B2,"[0-9]{3}[-][0-9]{3}[-][0-9]{4}")
EDIT2:好的@href 当然不会工作:-/
非常感谢您的帮助
帕特里克
下面是实现相同逻辑的逻辑:
您可以 select 使用 getElementById
或 getElementByClassName
要删除数据的元素,然后提取该数据
有关更多信息,请参阅这篇文章:https://realpython.com/beautiful-soup-web-scraper-python/
每个url都不一样,比如E2
=REGEXEXTRACT(index(importxml(D2,"//div[contains(.,'IČO')]"),1,6),"\d{2} \d{3} \d{3}")
我有一列网址:
- naj.sk/obchodne-podmienky/
- https://eshop.sdetmi.com/obchodne-podmienky/
- https://www.bioliek.sk/obchodne-podmienky/
- https://www.lunzo.sk/obchodne-podmienky/
并且我想将特定数字拼凑到另一列中。 具体来说:找到单词 IČO 并刮下后面的 8 个数字(即公司 ID 号)。
HOW IT LOOKS
编辑:好的,我发现了这个: B2: =JOIN("|",IMPORTXML(A2,"//a/@href")) C2: =REGEXEXTRACT(B2,"[0-9]{3}[-][0-9]{3}[-][0-9]{4}")
EDIT2:好的@href 当然不会工作:-/
非常感谢您的帮助
帕特里克
下面是实现相同逻辑的逻辑:
您可以 select 使用 getElementById
或 getElementByClassName
要删除数据的元素,然后提取该数据
有关更多信息,请参阅这篇文章:https://realpython.com/beautiful-soup-web-scraper-python/
每个url都不一样,比如E2
=REGEXEXTRACT(index(importxml(D2,"//div[contains(.,'IČO')]"),1,6),"\d{2} \d{3} \d{3}")