VC++ 编译器 /source-charset:utf-8 不工作
VC++ compiler /source-charset:utf-8 doesn't work
当我在Visual Studio中试验utf-8下的代码单元时,我遇到了很多陷阱:
VS默认保存的源文件是系统区域相关的编码,我是GB2312(codepage 936,中文编码)
解决方法:我用另存为,用UTF-8保存文件,没有签名。
然后我发现默认情况下编译器也会用系统区域相关编码解释源文件,它仍然是GB2312,所以我得到了莫名其妙的警告和语法错误。
解决:我用/source-charset:utf-8
编译,没有警告和错误。但是大小结果是2(GB2312中的'知'是用2个编码单元编码的)。但是utf-8下应该是3.
'知' Unicode 参考
https://unicode-table.com/en/77E5/
(我认为可以使用当前系统编码和utf-8中都存在但代码单元大小不同的任何字符来进行类似的测试。)
代码:
#include <iostream>
#include <string>
using namespace std;
int main(){
string s = "知";
cout << s.size() <<endl;
cout << s << endl;
}
此外,Windows cmd 和 powershell 也使用系统区域相关编码(在 cmd 中输入 chcp
)。所以我不能打印像 ə
.
这样的字符
所以我需要注意三件事:
- 源文件编码
- 编译器是否按预期解释源文件
- 即使满足1.和2.,cmd也可能无法显示字符。
除此之外,我还有一些困惑来自于这个经历:
为什么Windows会这样?它可以用 utf-8 设置所有内容吗?我将相同的文件复制到 Mac 并且一切正常。而且设置Mac的终端编码非常容易。
我发现一些帖子说原因是一些编码标准(比如这个GB2312)是在utf-8出来之前创建的。而且其中许多与 utf-8 不兼容。所以为了兼容性继续使用。
但是我想知道不兼容是怎么发生的?例如我下载 NotePad++ 并安装所有语言包。我的系统编码是GB2312,但我还是可以把NotePad++的显示语言改成日文,显示效果不错。不是像 ????
.
这样的东西
"source charset" 一词在这里并非巧合。 C++ 标准明确区分(基本)源字符集(96 个常用字符,全部以纯 ASCII 形式找到)和执行字符集。
由于您使用 UTF-8 作为源字符集,知
被映射到 \u77E5
。
但是,在运行时,您使用的是执行字符集。 VC++ /source-charset
选项不影响VC++的执行字符集;因为有一个 /execution-charset
但是正如@Matteo Italia 已经指出的那样,众所周知,VC++ 运行时在涉及 UTF-8 I/O 时有点不稳定。 std::string.size
应该有效,但 std::cout
可能无效。
当我在Visual Studio中试验utf-8下的代码单元时,我遇到了很多陷阱:
VS默认保存的源文件是系统区域相关的编码,我是GB2312(codepage 936,中文编码)
解决方法:我用另存为,用UTF-8保存文件,没有签名。
然后我发现默认情况下编译器也会用系统区域相关编码解释源文件,它仍然是GB2312,所以我得到了莫名其妙的警告和语法错误。
解决:我用
/source-charset:utf-8
编译,没有警告和错误。但是大小结果是2(GB2312中的'知'是用2个编码单元编码的)。但是utf-8下应该是3.
'知' Unicode 参考 https://unicode-table.com/en/77E5/
(我认为可以使用当前系统编码和utf-8中都存在但代码单元大小不同的任何字符来进行类似的测试。)
代码:
#include <iostream>
#include <string>
using namespace std;
int main(){
string s = "知";
cout << s.size() <<endl;
cout << s << endl;
}
此外,Windows cmd 和 powershell 也使用系统区域相关编码(在 cmd 中输入 chcp
)。所以我不能打印像 ə
.
所以我需要注意三件事:
- 源文件编码
- 编译器是否按预期解释源文件
- 即使满足1.和2.,cmd也可能无法显示字符。
除此之外,我还有一些困惑来自于这个经历:
为什么Windows会这样?它可以用 utf-8 设置所有内容吗?我将相同的文件复制到 Mac 并且一切正常。而且设置Mac的终端编码非常容易。
我发现一些帖子说原因是一些编码标准(比如这个GB2312)是在utf-8出来之前创建的。而且其中许多与 utf-8 不兼容。所以为了兼容性继续使用。
但是我想知道不兼容是怎么发生的?例如我下载 NotePad++ 并安装所有语言包。我的系统编码是GB2312,但我还是可以把NotePad++的显示语言改成日文,显示效果不错。不是像
这样的东西????
.
"source charset" 一词在这里并非巧合。 C++ 标准明确区分(基本)源字符集(96 个常用字符,全部以纯 ASCII 形式找到)和执行字符集。
由于您使用 UTF-8 作为源字符集,知
被映射到 \u77E5
。
但是,在运行时,您使用的是执行字符集。 VC++ /source-charset
选项不影响VC++的执行字符集;因为有一个 /execution-charset
但是正如@Matteo Italia 已经指出的那样,众所周知,VC++ 运行时在涉及 UTF-8 I/O 时有点不稳定。 std::string.size
应该有效,但 std::cout
可能无效。