1. ホーム
  2. c#

[解決済み] Unicode文字列をエスケープされたASCII文字列に変換する

2023-07-23 19:44:49

質問

この文字列はどのように変換すればよいのでしょうか。

This string contains the Unicode character Pi(π)

をエスケープされたASCII文字列に変換します。

This string contains the Unicode character Pi(\u03a0)

逆もまた然り ?

C# で利用可能な現在のエンコードでは、π 文字が "?" に変換されます。この文字を保持する必要があります。

どのように解決するのですか?

これは、⾵字と⾵字を往復しています。

class Program {
    static void Main( string[] args ) {
        string unicodeString = "This function contains a unicode character pi (\u03a0)";

        Console.WriteLine( unicodeString );

        string encoded = EncodeNonAsciiCharacters(unicodeString);
        Console.WriteLine( encoded );

        string decoded = DecodeEncodedNonAsciiCharacters( encoded );
        Console.WriteLine( decoded );
    }

    static string EncodeNonAsciiCharacters( string value ) {
        StringBuilder sb = new StringBuilder();
        foreach( char c in value ) {
            if( c > 127 ) {
                // This character is too big for ASCII
                string encodedValue = "\\u" + ((int) c).ToString( "x4" );
                sb.Append( encodedValue );
            }
            else {
                sb.Append( c );
            }
        }
        return sb.ToString();
    }

    static string DecodeEncodedNonAsciiCharacters( string value ) {
        return Regex.Replace(
            value,
            @"\\u(?<Value>[a-zA-Z0-9]{4})",
            m => {
                return ((char) int.Parse( m.Groups["Value"].Value, NumberStyles.HexNumber )).ToString();
            } );
    }
}

出力します。

この関数は、ユニコード文字pi (π)を含む

この関数にはユニコード文字π(˶‾᷄ -̫ ‾᷅˵)が含まれています。

この関数には、ユニコード文字πが含まれています。