使用中文字符时文件名错误

Wrong filename when using chinese characters

我正在尝试使用中文字符在 Windows 上创建一个文件。整个路径都在变量 "std::string originalPath" 内,但是,我有一个字符集问题,我根本无法理解如何克服。

我写了下面的代码:

#include <iostream>
#include <boost/locale.hpp>
#include <boost/filesystem/fstream.hpp>
#include <windows.h>

int main( int argc, char *argv[] )
{

    // Start the rand
    srand( time( NULL ) );

    // Create and install global locale
    std::locale::global( boost::locale::generator().generate( "" ) );
    // Make boost.filesystem use it
    boost::filesystem::path::imbue( std::locale() );

    // Check if set to utf-8
    if( std::use_facet<boost::locale::info>( std::locale() ).encoding() != "utf-8" ){
        std::cerr << "Wrong encoding" << std::endl;
        return -1;
    }

    std::string originalPath = "C:/test/s/一.png";

    // Convert to wstring (**WRONG!**)
    std::wstring newPath( originalPath.begin(), originalPath.end() );

    LPWSTR lp=(LPWSTR )newPath.c_str();
    CreateFileW(lp,GENERIC_READ | GENERIC_WRITE, FILE_SHARE_READ |
            FILE_SHARE_WRITE,     NULL,CREATE_ALWAYS,FILE_ATTRIBUTE_NORMAL,NULL );

    return 0;

}

运行 但是,我在文件夹 "C:\test\s" 中得到了一个名为“¦ᄌタ.png”的文件,而不是我想要的“一.png”。我发现克服这个问题的唯一方法是交换线路

std::string originalPath = "C:/test/s/一.png";

// Convert to wstring (**WRONG!**)
std::wstring newPath( originalPath.begin(), originalPath.end() );

简单

std::wstring newPath = L"C:/test/s/一.png";

在这种情况下,文件“一.png”完美地出现在文件夹"C:\test\s"中。尽管如此,我还是不能这样做,因为该软件从 std::string 变量获取路径。我认为从 std::string 到 std::wstring 的转换是以错误的方式执行的,但是,正如可以看到的那样,我在试图理解这个逻辑时遇到了很深的问题。我详尽地阅读和研究 Google,阅读了许多定性文本,但我所有的尝试似乎都没有用。我尝试了 MultiByteToWideChar 函数和 boost::filesystem,但都没有帮助,我在写入文件夹时根本无法获得正确的文件名。

我还在学习,所以如果我犯了一个愚蠢的错误,我很抱歉。我的 IDE 是 Eclipse,它设置为 UTF-8。

您需要实际将 UTF-8 字符串转换为 UTF-16。为此,您必须查找如何使用 boost::locale::conv 或(仅在 Windows 上)MultiByteToWideChar 函数。

std::wstring newPath( originalPath.begin(), originalPath.end() ); 不会起作用,它会简单地一个一个地复制所有字节并将它们转换为 wchar_t.

谢谢你的帮助,roeland。最后我设法找到了解决方案,我只是使用了以下库:“http://utfcpp.sourceforge.net/”。我使用函数 "utf8::utf8to16" 将我原来的 UTF-8 字符串转换为 UTF-16,这样 Windows 可以正确显示汉字。