313 git
我有一个300 MB的git repo.我目前检出的文件重2 MB,git repo重298 MB.这基本上是一个仅限代码的回购,重量不应超过几MB.
最有可能的是,有人在某个时候偶然犯了一些重文件(视频,巨大的图像等),然后将它们删除......但不是从git中删除,所以我们有无用大文件的历史.如何在git历史记录中追踪大文件?有400多个提交,所以一个接一个将是耗时的.
注意:我的问题不是关于如何删除文件,而是如何在第一时间找到它.
rap*_*sse 551
此shell脚本显示存储库中的所有blob对象,从最小到最大排序.
对于我的样本回购,它的运行速度比其他版本快100倍.
在我信赖的Athlon II X4系统上,它只需一分钟即可处理带有560万个对象的Linux内核存储库.
git rev-list --objects --all \
| git cat-file --batch-check='%(objecttype) %(objectname) %(objectsize) %(rest)' \
| sed -n 's/^blob //p' \
| sort --numeric-sort --key=2 \
| cut -c 1-12,41- \
| $(command -v gnumfmt || echo numfmt) --field=2 --to=iec-i --suffix=B --padding=7 --round=nearest
Run Code Online (Sandbox Code Playgroud)
当你运行上面的代码时,你会得到很好的人类可读输出,如下所示:
...
0d99bb931299 530KiB path/to/some-image.jpg
2ba44098e28f 12MiB path/to/hires-image.png
bd1741ddce0d 63MiB path/to/some-video-1080p.mp4
Run Code Online (Sandbox Code Playgroud)
macOS用户:由于numfmt
在macOS上不可用,您可以省略最后一行并处理原始字节大小或brew install coreutils
.
要实现进一步过滤,请在行之前sort
插入以下任何行.
要排除存在的文件HEAD
,请插入以下行:
| grep -vF --file=<(git ls-tree -r HEAD | awk '{print $3}') \
Run Code Online (Sandbox Code Playgroud)
要仅显示超过给定大小的文件(例如1 MiB = 2 20 B),请插入以下行:
| awk '$2 >= 2^20' \
Run Code Online (Sandbox Code Playgroud)
要生成更适合计算机进一步处理的输出,请省略基本脚本的最后两行.他们做所有格式化.这会让你有这样的事情:
...
0d99bb93129939b72069df14af0d0dbda7eb6dba 542455 path/to/some-image.jpg
2ba44098e28f8f66bac5e21210c2774085d2319b 12446815 path/to/hires-image.png
bd1741ddce0d07b72ccf69ed281e09bf8a2d0b2f 65183843 path/to/some-video-1080p.mp4
Run Code Online (Sandbox Code Playgroud)
要删除实际文件,请查看有关该主题的SO问题.
sko*_*ima 156
我在苏黎世联邦理工学院维基页面(靠近该页末尾)找到了一个单线解决方案.只需做一个git gc
删除陈旧的垃圾,然后
git rev-list --objects --all \
| grep "$(git verify-pack -v .git/objects/pack/*.idx \
| sort -k 3 -n \
| tail -10 \
| awk '{print$1}')"
Run Code Online (Sandbox Code Playgroud)
将为您提供存储库中的10个最大的文件.
现在还有一个更加懒惰的解决方案,GitExtensions现在有一个插件可以在UI中执行此操作(并处理历史记录重写).
Mar*_*air 126
我发现这个脚本在过去非常有用,用于在git存储库中查找大型(和非显而易见的)对象:
#!/bin/bash
#set -x
# Shows you the largest objects in your repo's pack file.
# Written for osx.
#
# @see https://stubbisms.wordpress.com/2009/07/10/git-script-to-show-largest-pack-objects-and-trim-your-waist-line/
# @author Antony Stubbs
# set the internal field separator to line break, so that we can iterate easily over the verify-pack output
IFS=$'\n';
# list all objects including their size, sort by size, take top 10
objects=`git verify-pack -v .git/objects/pack/pack-*.idx | grep -v chain | sort -k3nr | head`
echo "All sizes are in kB's. The pack column is the size of the object, compressed, inside the pack file."
output="size,pack,SHA,location"
allObjects=`git rev-list --all --objects`
for y in $objects
do
# extract the size in bytes
size=$((`echo $y | cut -f 5 -d ' '`/1024))
# extract the compressed size in bytes
compressedSize=$((`echo $y | cut -f 6 -d ' '`/1024))
# extract the SHA
sha=`echo $y | cut -f 1 -d ' '`
# find the objects location in the repository tree
other=`echo "${allObjects}" | grep $sha`
#lineBreak=`echo -e "\n"`
output="${output}\n${size},${compressedSize},${other}"
done
echo -e $output | column -t -s ', '
Run Code Online (Sandbox Code Playgroud)
这将为您提供blob的对象名称(SHA1sum),然后您可以使用如下脚本:
...找到指向每个blob的提交.
fri*_*mle 27
步骤1将所有文件SHA1写入文本文件:
git rev-list --objects --all | sort -k 2 > allfileshas.txt
Run Code Online (Sandbox Code Playgroud)
步骤2将blob从最大到最小排序,并将结果写入文本文件:
git gc && git verify-pack -v .git/objects/pack/pack-*.idx | egrep "^\w+ blob\W+[0-9]+ [0-9]+ [0-9]+$" | sort -k 3 -n -r > bigobjects.txt
Run Code Online (Sandbox Code Playgroud)
步骤3a合并两个文本文件以获取文件名/ sha1/size信息:
for SHA in `cut -f 1 -d\ < bigobjects.txt`; do
echo $(grep $SHA bigobjects.txt) $(grep $SHA allfileshas.txt) | awk '{print $1,$3,$7}' >> bigtosmall.txt
done;
Run Code Online (Sandbox Code Playgroud)
步骤3b如果您有包含空格的文件名或路径名,请尝试步骤3a的此变体.它使用cut
而不是awk
获得所需的列包括.从第7列到第1行的空格:
for SHA in `cut -f 1 -d\ < bigobjects.txt`; do
echo $(grep $SHA bigobjects.txt) $(grep $SHA allfileshas.txt) | cut -d ' ' -f'1,3,7-' >> bigtosmall.txt
done;
Run Code Online (Sandbox Code Playgroud)
现在,您可以查看文件bigtosmall.txt,以确定要从Git历史记录中删除哪些文件.
步骤4执行删除(请注意,此部分很慢,因为它将检查历史记录中有关您标识的文件的数据的每个提交):
git filter-branch --tree-filter 'rm -f myLargeFile.log' HEAD
Run Code Online (Sandbox Code Playgroud)
资源
步骤1-3a是从Git History中查找和清除大文件中复制的
编辑
该文章于2017年下半年被删除,但仍可使用Wayback Machine访问其存档副本.
War*_*ine 20
你应该使用BFG Repo-Cleaner.
根据网站:
BFG是git-filter-branch的一种更简单,更快速的替代方法,用于清除Git存储库历史记录中的错误数据:
- 删除疯狂的大文件
- 删除密码,凭据和其他私人数据
减小存储库大小的经典过程是:
git clone --mirror git://example.com/some-big-repo.git
java -jar bfg.jar --strip-biggest-blobs 500 some-big-repo.git
cd some-big-repo.git
git reflog expire --expire=now --all
git gc --prune=now --aggressive
git push
Run Code Online (Sandbox Code Playgroud)
如果你只想要一个大文件列表,那么我想为你提供以下单行(来源于renuo):
join -o "1.1 1.2 2.3" <(git rev-list --objects --all | sort) <(git verify-pack -v objects/pack/*.idx | sort -k3 -n | tail -5 | sort) | sort -k3 -n
Run Code Online (Sandbox Code Playgroud)
谁的输出将是:
commit file name size in bytes
72e1e6d20... db/players.sql 818314
ea20b964a... app/assets/images/background_final2.png 6739212
f8344b9b5... data_test/pg_xlog/000000010000000000000001 1625545
1ecc2395c... data_development/pg_xlog/000000010000000000000001 16777216
bc83d216d... app/assets/images/background_1forfinal.psd 95533848
Run Code Online (Sandbox Code Playgroud)
列表中的最后一个条目指向git历史记录中的最大文件.
您可以使用此输出来确保您不会删除历史记录中您需要的BFG内容.
如果您使用的是 Windows,这里有一个 PowerShell 脚本,它将打印存储库中的 10 个最大文件:
$revision_objects = git rev-list --objects --all;
$files = $revision_objects.Split() | Where-Object {$_.Length -gt 0 -and $(Test-Path -Path $_ -PathType Leaf) };
$files | Get-Item -Force | select fullname, length | sort -Descending -Property Length | select -First 10
Run Code Online (Sandbox Code Playgroud)
对于 Windows,我写了这个答案的 Powershell 版本:
function Get-BiggestBlobs {
param ([Parameter(Mandatory)][String]$RepoFolder, [int]$Count = 10)
Write-Host ("{0} biggest files:" -f $Count)
git -C $RepoFolder rev-list --objects --all | git -C $RepoFolder cat-file --batch-check='%(objecttype) %(objectname) %(objectsize) %(rest)' | ForEach-Object {
$Element = $_.Trim() -Split '\s+'
$ItemType = $Element[0]
if ($ItemType -eq 'blob') {
New-Object -TypeName PSCustomObject -Property @{
ObjectName = $Element[1]
Size = [int]([int]$Element[2] / 1kB)
Path = $Element[3]
}
}
} | Sort-Object Size | Select-Object -last $Count | Format-Table ObjectName, @{L='Size [kB]';E={$_.Size}}, Path -AutoSize
}
Run Code Online (Sandbox Code Playgroud)
您可能需要根据自己的情况微调是显示 kB 还是 MB 还是仅显示字节。
可能有性能优化的潜力,所以如果您担心的话,请随意尝试。
要获取所有更改,只需省略| Select-Object -last $Count
。
要获得机器可读的版本,只需省略| Format-Table @{L='Size [kB]';E={$_.Size}}, Path -AutoSize
.
尝试git ls-files | xargs du -hs --threshold=1M
。
我们在 CI 管道中使用以下命令,如果在 git 存储库中发现任何大文件,它就会停止:
test $(git ls-files | xargs du -hs --threshold=1M 2>/dev/null | tee /dev/stderr | wc -l) -gt 0 && { echo; echo "Aborting due to big files in the git repository."; exit 1; } || true
Run Code Online (Sandbox Code Playgroud)
Windows git的Powershell解决方案,找到最大的文件:
git ls-tree -r -t -l --full-name HEAD | Where-Object {
$_ -match '(.+)\s+(.+)\s+(.+)\s+(\d+)\s+(.*)'
} | ForEach-Object {
New-Object -Type PSObject -Property @{
'col1' = $matches[1]
'col2' = $matches[2]
'col3' = $matches[3]
'Size' = [int]$matches[4]
'path' = $matches[5]
}
} | sort -Property Size -Top 10 -Descending
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
87729 次 |
最近记录: |