[解決済み] Pythonで2つのファイルが同じ内容かどうかを確認する [重複].
2023-06-24 15:48:05
質問
重複の可能性があります。
重複するファイルを見つけ、削除します。
Pythonでは、2つのテキストファイルの内容が同じであるかどうかを比較する簡潔な方法はありますか?
Pythonで2つのファイルがコンテンツ的に同じであるかどうかを確認する最も簡単な方法は何ですか。
私ができることの1つは、各ファイルをmd5して比較することです。 より良い方法はありますか?
どのように解決するのですか?
複数のファイルを比較し、後で比較するためにハッシュを保存する必要がある場合、ファイルをハッシュ化するのが最適な方法だと考えています。ハッシュは衝突する可能性があるので、ユースケースによってはバイト単位で比較することもあります。
一般的にはバイト単位の比較で十分かつ効率的であり、filecmpモジュールがすでに行っていることであり、他のことも行っています。
参照 http://docs.python.org/library/filecmp.html 例
>>> import filecmp
>>> filecmp.cmp('file1.txt', 'file1.txt')
True
>>> filecmp.cmp('file1.txt', 'file2.txt')
False
速度を考慮する。 通常、2つのファイルを比較する必要がある場合、それらをハッシュ化して比較すると、単純なバイト単位の比較よりも効率的に行われた場合、遅くなります。
免責事項: これは2つのアルゴリズムを比較する最良の方法ではなく、改善の必要がありますが、大まかなアイデアを与えるものです。もし、改善すべきと思われる点があれば教えてください。
import random
import string
import hashlib
import time
def getRandText(N):
return "".join([random.choice(string.printable) for i in xrange(N)])
N=1000000
randText1 = getRandText(N)
randText2 = getRandText(N)
def cmpHash(text1, text2):
hash1 = hashlib.md5()
hash1.update(text1)
hash1 = hash1.hexdigest()
hash2 = hashlib.md5()
hash2.update(text2)
hash2 = hash2.hexdigest()
return hash1 == hash2
def cmpByteByByte(text1, text2):
return text1 == text2
for cmpFunc in (cmpHash, cmpByteByByte):
st = time.time()
for i in range(10):
cmpFunc(randText1, randText2)
print cmpFunc.func_name,time.time()-st
であり、出力は
cmpHash 0.234999895096
cmpByteByByte 0.0
関連
-
[解決済み] Pythonのeasy_installでインストールしたパッケージはどのように削除すればよいですか?
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] Pythonで現在時刻を取得する方法
-
[解決済み] Pythonで2つのリストを連結する方法は?
-
[解決済み] Pythonでシングルトンを作成する
-
[解決済み] リストの順番を維持したまま、重複を削除するにはどうしたらいいですか?
-
[解決済み] 「is" 演算子が整数に対して予期せぬ振る舞いをする。
-
[解決済み] Visual Studioで2つのファイルを比較する
-
[解決済み】Pythonに三項条件演算子はありますか?
-
[解決済み] Django で全てのリクエストヘッダを取得するにはどうすれば良いですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] 前月の日時オブジェクトを返す
-
[解決済み] googletransがエラー 'NoneType' オブジェクトに 'group' 属性がない、と言って動かなくなった。
-
[解決済み] Django のテストデータベースをメモリ上だけで動作させるには?
-
[解決済み] SQLAlchemy: 日付フィールドをフィルタリングする方法は?
-
[解決済み] 文字列から先頭と末尾のスペースを削除するには?
-
[解決済み] 文字列のリストを内容に基づいてフィルタリングする
-
[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。
-
[解決済み] 古いバージョンのPythonにおける辞書のキーの並び順
-
[解決済み] tensorflowのCPUのみのインストールでダイナミックライブラリ 'cudart64_101.dll' を読み込めなかった
-
[解決済み] Pandasを使って、既存のExcelファイルに新しいシートを保存する方法は?