1. ホーム
  2. python

[解決済み] Pythonです。トレースバック codecs.charmap_decode(input,self.errors,decoding_table)[0].

2022-02-17 18:33:53

質問

また、空白行がマージ&アンプされるのを防ぐためにコードを強化する必要があります;マージされた/マスターファイルに行を表示しません。おそらく、ファイルをマージする前に、いくつかのクリーンアップを実行するか、または単にマージ処理中に空白行を無視するのが良いアイデアだと思います。

フォルダ内のテキストファイルは1000行以下ですが、マスターファイルは簡単に10000行を超えます。

import os
root = 'C:\\Dropbox\\ans7i\\'
files = [(path,f) for path,_,file_list in os.walk(root) for f in file_list]
out_file = open('C:\\Dropbox\\Python\\master.txt','w')
for path,f_name in files:
    in_file = open('%s/%s'%(path,f_name), 'r')

    # write out root/path/to/file (space) file_contents
    for line in in_file:
        out_file.write('%s/%s %s'%(path,f_name,line))
    in_file.close()

    # enter new line after each file
    out_file.write('\n')

with open('master.txt', 'r') as f:
  lines = f.readlines()
with open('master.txt', 'w') as f:
  f.write("".join(L for L in lines if L.strip())) 



Traceback (most recent call last):
  File "C:\Dropbox\Python\master.py", line 9, in <module> for line in in_file:
  File "C:\PYTHON32\LIB\encodings\cp1252.py", line  23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0]  
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 972: character maps to <undefined>  

解決方法は?

Python 3 がコンテンツと一致しないデフォルトエンコーディングでファイルを開くため、このエラーが発生します。

ファイルの中身をコピーするだけなら shutil.copyfileobj() 機能 とともに、バイナリモードでファイルを開きます。そうすれば、エンコーディングの問題を完全に回避することができます(すべてのソースファイルが 同じエンコーディング もちろん、エンコーディングが混在したターゲットファイルを作成しないようにするためです)。

import shutil
import os.path

with open('C:\\Dropbox\\Python\\master.txt','wb') as output:
    for path, f_name in files:
        with open(os.path.join(path, f_name), 'rb') as input:
            shutil.copyfileobj(input, output)
        output.write(b'\n') # insert extra newline between files

コードを少しきれいにして、コンテキスト・マネージャーを使い(終了時に自動的にファイルが閉じられるように)、さらに os.path を使用して、ファイルのフルパスを作成します。

もし入力を一行ずつ処理する必要があるなら、Pythonにどのようなエンコーディングを期待するかを伝える必要があります。そうすれば、ファイルの内容をPythonの文字列オブジェクトにデコードできます。

open(path, mode, encoding='UTF8')

なお、これには アップフロント がどのようなエンコーディングを使用しているかを確認します。

を読んでみてください。 Python Unicode HOWTO Python 3、ファイル、エンコーディングについてさらに質問がある場合。