根据 HTML 来源检测 CMS(Wordpress 等)

Detect CMS (Wordpress, etc.) based on HTML source

是否有一些方法可以识别用于根据 HTML 源代码创建网页的 CMS(内容管理系统)?

有时我看到网页后立即想知道它们是用什么工具开发的。对于工具,我指的是像 Wordpress、Drupal、Typo3 等 CMS。我可以想到一些可以做到这一点的指纹识别技术。

很难准确定位后端 CMS。几乎所有的 CMS 系统都支持具有完全不同 HTML 代码的自定义主题。

您最有根据的猜测是尝试通过以下方式识别 CMS:

  1. 根目录下的robots.txt文件。

  2. 存在 CMS 管理面板登录页面。

  3. 用于提供图片等页面资源的文件夹结构 和 css 个文件。

  4. 特定 CMS 后端文件的存在。

  5. RSS等默认服务的URL结构。

例如,如果您要猜测某个网站是否使用 WordPress,您可以执行以下操作:

1- 检查 robots.txt 是否存在,如果它包含 "Disallow: /wp-admin/" 那么很有可能这是一个 WordPress 网站。

2- 如果您在 http://domain_name/wp-admin 访问默认的 WordPress 管理面板得到响应,那么这很有可能是一个 WordPress 网站。

3- 如果此文件存在 http://domain_name/wp-mail.php 那么很有可能这是一个 WordPress 网站。

4- 如果我们在此 URL http://domain_name/?feed=rss2 获得有效的 RSS 提要,那么这很有可能是 WordPress 网站。

现在,如果一个网站满足上面列出的 4 条检测规则中的 3 条,您就可以确定它是 WordPress 网站。

您需要执行相同的操作来为要检测的每个 CMS 识别唯一的检测规则。

请注意,http://whatcms.org/ and http://guess.scritch.org/ 等现有服务可以执行我在此答案中描述的内容。

祝你好运!