如何为网页正确使用 cjk 字符的详细信息?

How detail with cjk character correctly for webpage?

我无法正确看到中日韩字符。好像是误认为是ISO-8859编码。我认为 UTF-8 编码是合适的。有谁知道如何解决这个问题。

$ wget http://yjs.cd120.com/daoshi.html 
$ grep 'selectid="99"' daoshi.html 
Binary file daoshi.html matches
$ file daoshi.html 
daoshi.html: HTML document text, ISO-8859 text, with very long lines, with CRLF line terminators

https://www.w3.org/International/questions/qa-changing-encoding

总结:

第 1 步:将数据保存为 UTF-8

第 2 步:在页面中声明编码

<meta charset="utf-8"/>

第 3 步:确保您的服务器执行正确的操作

首先,您必须确定通过 wget(或 curl 获得的文件的实际编码是什么)。

发出命令:

grep 'Content-Type' daoshi.html

将显示:

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

其中charset=gb2312表示html文件编码为简体中文(GB 2312).

然后,您可以使用iconv命令将文件转换为新的UTF-8版本:

iconv -f gb2312 -t utf-8 daoshi.html >daoshi-utf8.html

最后,根据您的需要,您可能需要调整文件开头的meta标签内容以匹配新编码,例如使用sed

sed s/charset=gb2312/charset=utf-8/ daoshi-utf8.html >daoshi-utf8-final.html