1. ホーム
  2. git

[解決済み] gitの履歴から大きなコミットを見つけるには?

2022-03-20 05:16:05

質問

300MBのgit repoを持っています。現在チェックアウトしたファイルの合計サイズは2 MBで、git リポジトリの残りの部分の合計サイズは298 MBです。これは基本的にコードのみのレポで、数MB以上にはならないはずです。

誰かが誤って大きなファイル(ビデオ、画像など)をコミットし、その後削除したのではないかと思います...しかし、gitから削除したわけではないので、履歴にはまだ役に立たない大きなファイルが含まれています。どうすればgitの履歴から大きなファイルを見つけることができるのでしょうか?400以上のコミットがあるので、ひとつひとつ見ていくのは現実的ではありません。

注意事項 : 私の質問 についてではありません。 ファイルの削除方法 が、どのように 見つける ということです。

解決方法は?

私は過去にこのスクリプトが、git リポジトリ内の大きな(そして明白でない)オブジェクトを見つけるのに非常に便利であることを発見しました。


#!/bin/bash
#set -x 
 
# Shows you the largest objects in your repo's pack file.
# Written for osx.
#
# @see https://stubbisms.wordpress.com/2009/07/10/git-script-to-show-largest-pack-objects-and-trim-your-waist-line/
# @author Antony Stubbs
 
# set the internal field separator to line break, so that we can iterate easily over the verify-pack output
IFS=$'\n';
 
# list all objects including their size, sort by size, take top 10
objects=`git verify-pack -v .git/objects/pack/pack-*.idx | grep -v chain | sort -k3nr | head`
 
echo "All sizes are in kB's. The pack column is the size of the object, compressed, inside the pack file."
 
output="size,pack,SHA,location"
allObjects=`git rev-list --all --objects`
for y in $objects
do
    # extract the size in bytes
    size=$((`echo $y | cut -f 5 -d ' '`/1024))
    # extract the compressed size in bytes
    compressedSize=$((`echo $y | cut -f 6 -d ' '`/1024))
    # extract the SHA
    sha=`echo $y | cut -f 1 -d ' '`
    # find the objects location in the repository tree
    other=`echo "${allObjects}" | grep $sha`
    #lineBreak=`echo -e "\n"`
    output="${output}\n${size},${compressedSize},${other}"
done
 
echo -e $output | column -t -s ', '


これでblobのオブジェクト名(SHA1sum)がわかるので、あとはこのようなスクリプトを使えばいい。

... それらの Blob のそれぞれを指すコミットを検索します。