UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)

2023-09-19 17:16:42

質問

私は私のXMLドキュメントをパースしたい。そこで、私は以下のように私のXMLドキュメントを保存しています。

class XMLdocs(db.Expando):  
   id = db.IntegerProperty()    
   name=db.StringProperty()  
   content=db.BlobProperty()

さて、以下は私のコードです。

parser = make_parser()     
curHandler = BasketBallHandler()  
parser.setContentHandler(curHandler)  
for q in XMLdocs.all():  
        parser.parse(StringIO.StringIO(q.content))

以下のエラーが発生します。

'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)
Traceback (most recent call last):  
  File "/base/python_runtime/python_lib/versions/1/google/appengine/ext/webapp/__init__.py", line 517, in __call__
    handler.post(*groups)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/base_handler.py", line 59, in post
    self.handle()   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 168, in handle
    scan_aborted = not self.process_entity(entity, ctx)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/mapreduce/handlers.py", line 233, in process_entity
    handler(entity)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 71, in process
    parser.parse(StringIO.StringIO(q.content))   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 107, in parse
    xmlreader.IncrementalParser.parse(self, source)   
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/xmlreader.py", line 123, in parse
    self.feed(buffer)  
  File "/base/python_runtime/python_dist/lib/python2.5/xml/sax/expatreader.py", line 207, in feed
    self._parser.Parse(data, isFinal)   
  File "/base/data/home/apps/parsepython/1.348669006354245654/parseXML.py", line 136, in characters   
    print ch   
UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)

どのように解決するのですか？

UTF-8のバイトオーダーマーク(BOM)に当たっているようです。BOMを取り除いたunicode文字列を使用してみてください。

import codecs

content = unicode(q.content.strip(codecs.BOM_UTF8), 'utf-8')
parser.parse(StringIO.StringIO(content))

私は strip の代わりに lstrip というのは、あなたのケースでは、おそらくファイルの内容が連結されているために、BOMが複数回発生したからです。

UnicodeEncodeError: 'ascii' codec can't encode character u'\xef' in position 0: ordinal not in range(128)

質問

どのように解決するのですか？

関連

[解決済み】UnicodeEncodeError：'charmap'コーデックは、文字をエンコードできない

[解決済み] UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)

[解決済み] Pandasのデータフレームでタプルの列を分割するにはどうしたらいいですか？

[解決済み] 値で列挙名を取得する [重複]。

[解決済み] SQLAlchemy - テーブルのリストを取得する

[解決済み] Flaskで非同期タスクを作る

[解決済み] if 節の終了方法

[解決済み] Pythonでファイルの読み込みと上書きをする

[解決済み] Python の sorted() はどのようなアルゴリズムを使っているのですか？重複

[解決済み] Pythonでリストが空かどうかをチェックする方法は？重複

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] Pythonです。未束縛のメソッドを束縛する？

[解決済み] Pythonでコード行間にかかる時間を測定するには？

[解決済み] googletransがエラー 'NoneType' オブジェクトに 'group' 属性がない、と言って動かなくなった。

[解決済み] django.db.migrations.exceptions.InconsistentMigrationHistory

[解決済み] Pythonのargparseを使った隠し引数の作成

[解決済み] データフレームをソートした後にインデックスを更新する

[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。

[解決済み] Pandasを使って、既存のExcelファイルに新しいシートを保存する方法は？

[解決済み] virtualenv の `--no-site-packages` オプションを元に戻す。

[解決済み] virtualenvsはどこに作成するのですか？