[解決済み] Python 2.6でunicode_literalsを使用する際の注意点は?
質問
私たちはすでにPython 2.6でコードベースを動作させています。 Python 3.0の準備のために、私たちは追加を開始しました。
from __future__ import unicode_literals
を私たちの
.py
ファイルに追加しています。 他の誰かがこれをやっていて、(おそらく多くの時間をかけてデバッグした後に)明白でないゴチャに遭遇したことがあるのかどうか気になります。
どのように解決するのですか?
ユニコード文字列を扱う際に発生する問題の主な原因は、utf-8でエンコードされた文字列とユニコード文字列を混在させたときです。
たとえば、次のようなスクリプトを考えてみましょう。
two.py
# encoding: utf-8
name = 'helló wörld from two'
one.py
# encoding: utf-8
from __future__ import unicode_literals
import two
name = 'helló wörld from one'
print name + two.name
を実行したときの出力
python one.py
です。
Traceback (most recent call last):
File "one.py", line 5, in <module>
print name + two.name
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)
この例では
two.name
をインポートしていないので、(ユニコードではなく)utf-8でエンコードされた文字列になっています。
unicode_literals
をインポートしていないため、unodeではありません。
one.name
はユニコード文字列です。両方を混ぜると、pythonはエンコードされた文字列をデコードして(asciiと仮定して)unicodeに変換しようとし、失敗します。もし
print name + two.name.decode('utf-8')
.
文字列をエンコードしておいて、後でそれらを混在させようとすると、同じことが起こります。 例えば、このように動作します。
# encoding: utf-8
html = '<html><body>helló wörld</body></html>'
if isinstance(html, unicode):
html = html.encode('utf-8')
print 'DEBUG: %s' % html
出力します。
DEBUG: <html><body>helló wörld</body></html>
しかし
import unicode_literals
を追加すると、そうではなくなります。
# encoding: utf-8
from __future__ import unicode_literals
html = '<html><body>helló wörld</body></html>'
if isinstance(html, unicode):
html = html.encode('utf-8')
print 'DEBUG: %s' % html
出力します。
Traceback (most recent call last):
File "test.py", line 6, in <module>
print 'DEBUG: %s' % html
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 16: ordinal not in range(128)
失敗するのは
'DEBUG: %s'
はユニコード文字列であるため、python は
html
. このプリントを修正する方法はいくつかあります。
print str('DEBUG: %s') % html
または
print 'DEBUG: %s' % html.decode('utf-8')
.
ユニコード文字列を使用する際の潜在的なゴチャゴチャを理解する助けになれば幸いです。
関連
-
[解決済み] 関数内でグローバル変数を使用する
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] Pythonで現在時刻を取得する方法
-
[解決済み] Pythonで2つのリストを連結する方法は?
-
[解決済み] ファイルのコピー方法について教えてください。
-
[解決済み] Pythonで例外を手動で発生(スロー)させる
-
[解決済み】ネストされたディレクトリを安全に作成するには?
-
[解決済み】forループを使った辞書の反復処理
-
[解決済み】Pythonに三項条件演算子はありますか?
-
[解決済み] Python 3でバイナリデータを標準出力に書き込むには?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] Pandasのデータフレームでタプルの列を分割するにはどうしたらいいですか?
-
[解決済み] 2つの線分が交差しているかどうかを確認するにはどうすればよいですか?
-
[解決済み] なぜ(0-6)は-6=偽なのか?重複
-
[解決済み] Pandasの'Freq'タグにはどのような値が有効ですか?
-
[解決済み] Django Rest Framework ファイルアップロード
-
[解決済み] サブフォルダからのインポートモジュール
-
[解決済み] 異なる順序で同じ要素を持つ2つのJSONオブジェクトを等しく比較するには?
-
[解決済み] Flaskで非同期タスクを作る
-
[解決済み] Pythonの辞書にあるスレッドセーフについて
-
[解決済み] 認証プラグイン 'caching_sha2_password' はサポートされていません。