抓取网站和动态网址

Crawling websites and dynamic urls

搜索引擎机器人会抓取我动态生成的 URL 吗?我的意思是 html 由 php 基于 url 中的 GET 变量生成的页面。链接将如下所示:

http://www.mywebsite.com/view.php?name=something
http://www.mywebsite.com/view.php?name=somethingelse
http://www.mywebsite.com/view.php?name=something

我尝试使用此处的测试爬虫来爬取我的网站:http://robhammond.co/tools/seo-crawler 但它只访问我的视图页面一次,并且 header 中只有一个变量。

我网站上的大部分内容都是由数据库中的这些 GET 变量生成的,因此我非常希望搜索引擎能够抓取这些页面。

有些搜索引擎会,有些则不会。 Google 其中一个包含动态生成的页面:https://support.google.com/webmasters/answer/35769?hl=en

请务必检查您的 robots.txt 文件以确保您 不希望爬虫看到的文件被阻止,并且您想要建立索引的文件没有被阻止。

此外,请确保您希望编入索引的所有页面都通过其他页面链接,您有站点地图,或者将单独的 URL 提交给您希望将您的网站编入索引的搜索引擎。

是的,搜索引擎会抓取这些网页,前提是它们可以找到它们。最好的办法是简单地创建指向您网站上那些页面的链接,特别是可访问的,或者至少可以从主页遍历。