如何确定网站的语言

How to determine the language of a website

我有一个 url 的网站,需要找出该网站使用的语言(西班牙语、法语、意大利语等)。

网站的顶级域是 .com,这根本没有帮助。我不能简单地检查字符串是否包含“.de”、“.fr”或任何其他国家/地区代码。

我试图获取 html 标签的 lang 属性,但是有很多网站没有它。我还发现 here 我可以检查元标记,它看起来像这样:

<meta name="language" content="english">

但同样,并非所有网站都使用此标签。

您知道确定网站语言的其他方法吗?

谢谢。

遗憾的是,许多开发人员并不认为将语言元信息添加到他们的网页是有用的。也可能是页面上有多种语言——据我所知——强制使用 <div> 参数 lang 或其他类似的东西。以下是一些可能对您有所帮助的建议:

  1. 检查 <meta name="language" content="..."> 标签
  2. 检查 <div>s 内部是否包含 lang 参数
  3. 检查菜单(如果有)- 这些菜单通常包含比页面主体少得多的文本
  4. 寻找更小的 HTML 数据块,您可以轻松解析这些数据块,这些数据块可以为您提供有关页面使用的语言的更多信息
  5. 终于开始启发式分析大文本块

实际上,目前的情况真的很令人难过,因为提供此类信息并不困难,也不需要投入太多额外时间,但专业人士肯定在那里,尤其是在搜索引擎方面,最重要的是 -改善各种残障人士的无障碍环境。

您可以使用 google translate、microsoft translate 或 languagelayer 等服务进行语言文本检测。

我仔细阅读了这些 api 文档以及限制和价格并选择了 languagelayer personnaly,因为它最便宜而且看起来更容易使用。