如何克隆仅Git存储库的子目录?

Nic*_*ant 1298 git repository git-clone subdirectory sparse-checkout

我有我的Git存储库,它在根目录下有两个子目录:

/finisht
/static
Run Code Online (Sandbox Code Playgroud)

当这是在SVN,/finisht在一个地方签出,而/static在其他地方查出来,像这样:

svn co svn+ssh://admin@domain.com/home/admin/repos/finisht/static static
Run Code Online (Sandbox Code Playgroud)

有没有办法用Git做到这一点?

Chr*_*ial 1482

您要做的事情称为稀疏结账,该功能已添加到git 1.7.0(2012年2月).执行稀疏克隆的步骤如下:

mkdir <repo>
cd <repo>
git init
git remote add -f origin <url>
Run Code Online (Sandbox Code Playgroud)

这将使用您的遥控器创建一个空的存储库,并获取所有对象但不检查它们.然后做:

git config core.sparseCheckout true
Run Code Online (Sandbox Code Playgroud)

现在,您需要定义要实际检出的文件/文件夹.这是通过列出它们来完成的.git/info/sparse-checkout,例如:

echo "some/dir/" >> .git/info/sparse-checkout
echo "another/sub/tree" >> .git/info/sparse-checkout
Run Code Online (Sandbox Code Playgroud)

最后但并非最不重要的是,使用远程状态更新您的空仓库:

git pull origin master
Run Code Online (Sandbox Code Playgroud)

现在,您将拥有的文件"签出"的some/diranother/sub/tree你的文件系统(与路径仍然)目前,并没有其他的路径上.

您可能希望查看扩展教程,您应该阅读稀疏结帐的官方文档.

作为一个功能:

function git_sparse_clone() (
  rurl="$1" localdir="$2" && shift 2

  mkdir -p "$localdir"
  cd "$localdir"

  git init
  git remote add -f origin "$rurl"

  git config core.sparseCheckout true

  # Loops over remaining args
  for i; do
    echo "$i" >> .git/info/sparse-checkout
  done

  git pull origin master
)
Run Code Online (Sandbox Code Playgroud)

用法:

git_sparse_clone "http://github.com/tj/n" "./local/location" "/bin"
Run Code Online (Sandbox Code Playgroud)

请注意,这仍将从服务器下载整个存储库 - 只有结帐大小减少.目前,无法仅克隆单个目录.但是,如果您不需要存储库的历史记录,则可以通过创建浅层克隆来至少节省带宽.有关如何组合浅克隆和稀疏结账的信息,请参阅下面的udondan答案.

  • 这是一项改进,但仍需要在源代码中下载并存储远程存储库的完整副本,如果他只对代码库的某些部分感兴趣(或者在我的情况下是否存在文档子文件夹,则可能完全避免) ) (130认同)
  • 有没有办法将所需的目录内容(不是目录本身)克隆到我的存储库中?例如,我希望将`https:// github.com/Umkus/nginx-boilerplate/tree/master/src`的克隆内容放入`/ etc/nginx` (55认同)
  • @Chronial,@ ErikE:你是对还是错:P`git remote add`命令确实*不*意味着获取,但是这里使用的`git remote add -f`确实如此!这就是`-f`的含义. (25认同)
  • 使用这个和`--depth = 1`我克隆了Chromium Devtools 338 MB而不是4.9 GB的完整Blink源+历史.优秀. (19认同)
  • 在Apple上'-f'外围不起作用.只需要执行git remote add origin <url>而不使用-f (13认同)
  • 这不是"仅子目录",因为当我这样做时,我最终得到一堆目录,用于通向我想要的子目录的完整路径.似乎没有办法将它放到我想要使用它的现有源代码树中,并且仍然处于我可以执行提交的状态.伙计,每次我碰git我都讨厌它! (5认同)
  • 有没有人在执行`git pull origin master`时收到错误"错误:Sparse checkout在工作目录上没有任何条目"?在该错误消息之前,这也打印出来:`*branch master - > FETCH_HEAD`.看了很多类似的问题/帖子后似乎无法找到解决方案. (4认同)
  • 请注意,这仍然会在本地复制所有代码,因为添加远程是一个隐含的`fetch`. (3认同)
  • 如果像我一样,你第一次从`.git/info/sparse-checkout`中留下了一些东西,将它们添加到该文件然后执行`git reset --hard`.不需要额外的"拉"! (3认同)
  • @Gnuey见上面@metator评论!请改用`git checkout master`. (2认同)
  • @ntc2:你可以在没有 -f 的情况下很好地完成它,但是当你运行 git pull origin master 时你必须将其全部拉出来......无论稀疏的签出目录内容如何。 (2认同)
  • @ iforce2d请注意,这些稀疏检出只是一个黑客攻击,并且不会以任何方式使用git.如果您需要它们,您的项目结构不适合git.Git不是颠覆. (2认同)
  • 在windows`不要'用dir名字引用引号:`dir`not`"dir"` (2认同)
  • 修复了教程链接:https://jasonkarns.wordpress.com/2011/11/15/subdirectory-checkouts-with-git-sparse-checkout/ (2认同)

Jör*_*tag 561

编辑:从Git 2.19开始,这最终是可能的,这可以在这个答案中看到:https://stackoverflow.com/a/52269934/2988.

考虑提出这个答案.

注意:在Git 2.19中,仅实现了客户端支持,仍然缺少服务器端支持,因此它仅在克隆本地存储库时有效.另请注意,大型Git托管服务商(例如GitHub)实际上并不使用Git服务器,他们使用自己的实现,因此即使支持显示在Git服务器中,也不会自动意味着它可以在Git托管服务器上运行.(OTOH,因为他们不使用Git服务器,他们可以在它们自己的实现中更快地实现它,然后才能在Git服务器中显示它.)


不,这在Git中是不可能的.

在Git中实现类似的功能将是一项重大工作,这意味着无法再保证客户端存储库的完整性.如果您有兴趣,请在git mailinglist上搜索关于"sparse clone"和"sparse fetch"的讨论.

一般来说,Git社区的共识是,如果你有几个总是独立检出的目录,那么这些实际上是两个不同的项目,应该存在于两个不同的存储库中.您可以使用Git子模块将它们粘合在一起.

  • @StijndeWitt:在`git-read-tree`期间发生稀疏检查,这在`get-fetch`之后很久.问题不在于只检查一个子目录,而是关于*cloning*只是一个子目录.我没有看到稀疏检查有多可能做到这一点,因为`git-read-tree`在克隆已经完成后运行. (9认同)
  • 你想让我删除这个答案,而不是这个"存根",所以Chronial可以浮到顶端吗?您无法自行删除它,因为它已被接受,但主持人可以.你会保留你从中获得的声誉,因为它太老了.(我发现这是因为有人将其标记为"仅链接".:-) (9认同)
  • 根据具体情况,您可能希望使用git子树而不是git子模块.见http://alumnit.ca/~apenwarr/log/?m=200904#30 (6认同)
  • @JörgWMittag:[Ciro Santili 的回答](/sf/answers/3658895411/) 似乎与你相矛盾。 (2认同)

udo*_*dan 390

您可以组合稀疏结帐浅克隆功能.在浅克隆切断历史和稀疏结帐只翻出符合模式的文件.

git init <repo>
cd <repo>
git remote add origin <url>
git config core.sparsecheckout true
echo "finisht/*" >> .git/info/sparse-checkout
git pull --depth=1 origin master
Run Code Online (Sandbox Code Playgroud)

你需要最低限度的git 1.9来实现这个目的.仅使用2.2.0和2.2.2对自己进行了测试.

这样你仍然可以推动,这是不可能的git archive.

  • 这是正确的答案.所有其他答案都拉得太多了. (27认同)
  • 这很有用,可能是最好的答案,但它仍然*克隆*你不关心的内容(如果它在你拉的分支上),即使它没有显示在结帐中. (19认同)
  • 在Windows上,倒数第二行需要省略引号,否则拉动失败. (5认同)
  • 这仍然会下载所有数据!使用svn找到此解决方案:http://stackoverflow.com/a/18324458/2302437 (4认同)
  • 当最后一个命令不是`git pull --depth = 1 origin master`但是`git pull --depth = 1 origin <any-other-branch>`时,对我不起作用.这很奇怪,请看我的问题:http://stackoverflow.com/questions/35820630/how-do-i-checkout-a-sub-direcotry-in-a-huge-git-repo-with-specified-分支和-W (2认同)

Cir*_*四事件 311

git clone --filter 来自Git 2.19

该选项实际上将跳过从服务器获取不需要的对象:

git clone \
  --depth 1 \
  --filter=blob:none \
  --filter=tree:0 \
  --no-checkout \
  "file://$(pwd)/server_repo" \
  local_repo \
;
cd local_repo
git checkout master -- mydir/
Run Code Online (Sandbox Code Playgroud)

服务器应配置为:

git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1
Run Code Online (Sandbox Code Playgroud)

扩展了Git远程协议以支持v2.19.0中的此功能,但当时没有服务器支持.但它已经可以在本地测试了.

TODO:--filter=tree:0跳过所有blob,但仍然获取所有树对象.但是在正常的回购中,与文件本身相比,这应该很小,所以这已经足够了.询问:https: //www.spinics.net/lists/git/msg342006.html Devs回复了一个v2.19.0正在开展的工作.

请记住,--filter=blob:none已经暗示--filter=tree:0,另请参阅:如何在Git中克隆单个分支?

--depth 1需要克服--single-branch协议恶作剧:如何使用相对路径浅层克隆本地git存储库?

格式file://$(path)记录在上面git clone.

Git树上的文档:

测试一下

#!/usr/bin/env bash
set -eu

list-objects() (
  git rev-list --all --objects
  echo "master commit SHA: $(git log -1 --format="%H")"
  echo "mybranch commit SHA: $(git log -1 --format="%H")"
  git ls-tree master
  git ls-tree mybranch | grep mybranch
  git ls-tree master~ | grep root
)

# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'

rm -rf server_repo local_repo
mkdir server_repo
cd server_repo

# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet

# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet

# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet

echo "# List and identify all objects"
list-objects
echo

# Restore master.
git checkout --quiet master
cd ..

# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo

# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo

echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo

echo "# Git checkout fetches the missing directory from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/
echo

echo "# Missing objects after checking out d1"
git rev-list --all --quiet --objects --missing=print
Run Code Online (Sandbox Code Playgroud)

GitHub上游.

Git v2.19.0中的输出:

# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root

# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63

# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.

Please make sure you have the correct access rights
and the repository exists.

# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.

# Missing objects after checking out d1
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
Run Code Online (Sandbox Code Playgroud)

结论:所有来自外部的斑点--filter都缺失了.例如man git-rev-list,d1/退房后不存在0975df9b39e23c15f63db194df7f45c76528bccb.

需要注意的是d2/bd1/a也丢失,但root/root隐藏了从丢失文件的列表.如果删除mybranch/mybranch,则它们会显示在丢失文件列表中.

我有一个梦想

这个功能可以彻底改变Git.

想象一下,没有丑陋的第三方工具的--depth 1情况下,将企业的所有代码库都放在一个仓库中.

想象一下,在没有任何丑陋的第三方扩展的情况下,直接在回购中存储巨大的blob.

想象一下,如果GitHub允许每个文件/目录元数据(如星标和权限),那么您可以将所有个人资料存储在一个回购中.

想象一下,如果子模块的处理方式与常规目录完全相同:只需要一个树SHA,并且类似DNS的机制可以解析您的请求,首先查看您的本地--depth 1,然后是第一个更近的服务器(您企业的镜像/缓存),最后是GitHub.

  • 遗憾的是,macOS git 版本并不顺利。`致命:无效的过滤器规范'combine:blob:none + tree:0'`无论如何谢谢!也许它适用于较新的版本。 (2认同)
  • 使用 GIT 2.24.1 在 Windows 10 上尝试时会失败(抛出大量“无法读取 .. 的 sha1 文件”+“取消文件 xxx 链接失败。”)。在 Linux 上与相同版本的魅力一样。 (2认同)
  • @Ciro Santilli 这仍然失败,并在 git 版本 2.26.1.windows.1 中显示“无法读取...的 sha1 文件”。我打开了一个错误报告:https://github.com/git-for-windows/git/issues/2590 (2认同)
  • @CiroSantilli郝海东冠状病六四事件法轮功 `some/path` 是一个目录,而 `git checkout master -- some/path` 正确地仅克隆该目录及其子目录中的文件 - 但它会一一执行,并显示类似消息:`远程:枚举对象:1,完成。远程:计数对象:100% (1/1),完成。远程:总计 1(增量 0)、重用 1(增量 0)、包重用 0 接收对象:100% (1/1)、51 字节 | 51.00 KiB/s,完成。`这 4 行对目录及其子目录中的 90 个文件中的每一个重复(这是在 `git version 2.24.3 (Apple Git-128)` 上) (2认同)
  • @CiroSantilli新疆棉花TRUMPBANBAD - 你已经找到了解决方案!只需删除 --cone 行即可正常工作。在您的测试存储库中尝试在顶层创建一个附加文件。如果您按照说明进行操作,那么您还将获得该文件以及所需目录的副本。删除“git稀疏checkout init --cone”,但按照所有其他说明进行操作,您将获得所需的目录树。我不太确定在什么情况下你想使用 --cone! (2认同)
  • 至少对于 git 2.33 和 github.com `filter=tree:0` 也会阻止 blob 被下载(HEAD 顶级目录中的文件除外)。所以你不需要将它与 `blob:none` 结合起来。 (2认同)

Ano*_*112 138

对于只想从github 下载文件/文件夹的其他用户,只需使用:

svn export <repo>/trunk/<folder>
Run Code Online (Sandbox Code Playgroud)

例如

svn export https://github.com/lodash/lodash.com/trunk/docs
Run Code Online (Sandbox Code Playgroud)

(是的,这是svn在这里.显然在2016年你仍然需要svn来简单地下载一些github文件)

礼貌:从GitHub仓库下载单个文件夹或目录

重要 - 确保更新github URL并替换/tree/master/为'/ trunk /'.

作为bash脚本:

git-download(){
    folder=${@/tree\/master/trunk}
    folder=${folder/blob\/master/trunk}
    svn export $folder
}
Run Code Online (Sandbox Code Playgroud)

注意 此方法下载文件夹,不克隆/签出它.您无法将更改推送回存储库.另一方面 - 与稀疏结账或浅结账相比,这导致更小的下载.

  • 只有用github为我工作的版本.git命令检出> 10k文件,svn导出只有我想要的700.谢谢! (9认同)
  • @ zthomas.nc您需要删除udacity之前的'trunk',并将/ tree/master /替换为/ trunk /. (8认同)
  • 尝试使用`https:// github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/trunk/udacity`执行此操作但得到`svn:E170000:URL'https://github.com/tensorflow/tensorflow/ tree/master/tensorflow/examples/trunk/udacity'不存在'错误:( (4认同)
  • 它有效,但似乎很慢.需要一点开始,然后文件滚动相对缓慢 (3认同)
  • 这个命令对我有用!我只是想从存储库中获取文件的副本,以便可以在本地进行修改。好老的SVN来抢救! (2认同)
  • 我确认到2020年它仍然有效。这正是我所需要的,所以我只需在虚拟机中克隆我的项目目录,其余部分在我的 GIT 中保持私有。非常感谢您的解决方案。 (2认同)

Eva*_* MJ 133

2022答案

我不知道为什么这个问题有这么多复杂的答案。通过将存储库稀疏克隆到您想要的文件夹,可以轻松完成此操作。

  1. 导航到您想要克隆子目录的文件夹。
  2. 打开cmd并运行以下命令。
  3. git clone --filter=blob:none --sparse %your-git-repo-url%
  4. cd %the repository directory%
  5. git sparse-checkout add %subdirectory-to-be-cloned%
  6. cd %your-subdirectory%

瞧!现在您仅克隆了所需的子目录!

解释 - 这些命令到底在做什么?

git clone --filter=blob:none --sparse %your-git-repo-url%

在上面的命令中,

  • --filter=blob:none=> 你告诉 git 你只想克隆元数据文件。通过这种方式,git 可以从远程收集基本分支详细信息和其他元数据,这将确保您将来从原点签出的过程顺利进行。
  • --sparse=> 告诉 git 这是一个稀疏克隆。在这种情况下,Git 将仅检出根目录。

现在 git 已获知元数据,并准备好签出您想要使用的任何子目录/文件。

git sparse-checkout add gui-workspace ==> Checkout folder

git sparse-checkout add gui-workspace/assets/logo.png ==> Checkout a file
Run Code Online (Sandbox Code Playgroud)

当有一个包含多个子目录的大型存储库并且您并不总是处理所有子目录时,稀疏克隆特别有用。当您在大型存储库上进行稀疏克隆时,可以节省大量时间和带宽。

此外, 现在在这个部分克隆的存储库中,您可以像平常一样继续结账和工作。所有这些命令都可以完美运行。

git switch -c  %new-branch-name% origin/%parent-branch-name% (or) git checkout -b %new-branch-name% origin/%parent-branch-name% 
git commit -m "Initial changes in sparse clone branch"
git push origin %new-branch-name%
Run Code Online (Sandbox Code Playgroud)

  • 如果我从 $CLONEDIR 克隆,克隆会创建另一个目录,其中包含 .git 目录。我们将其命名为 REPO_DIRNAME。我必须先执行“cd $CLONEDIR/$REPO_DIRNAME”,然后才能执行“git稀疏结帐...”位。可以修改一下吗?塔:-) (7认同)
  • 很好的更新。您可以替换[旧的、令人困惑的和过时的](/sf/answers/3994634171/)命令[`git checkout`](https://git-scm.com/docs/git-checkout)使用更现代的 [`git switch`](https://git-scm.com/docs/git-switch)?`git switch -c %new-branch-name% origin/%parent-branch-name%` (6认同)
  • 这是迄今为止最好的答案。对我来说,它按预期完美运行。谢谢。 (2认同)

hil*_*llu 73

如果您从未计划与克隆的存储库进行交互,则可以使用git filter-branch --subdirectory-filter执行完整的git克隆并重写您的存储库.这样,至少会保留历史记录.

  • 对于不知道命令的人来说,它是`git filter-branch --subdirectory-filter <子目录>` (11认同)
  • 这种方法的优点是您选择的子目录成为新存储库的根目录,这恰好正是我想要的. (9认同)
  • 如果您的仓库有数十 GB 大,这不会有太大帮助。 (3认同)

Chr*_*sen 63

Git 1.7.0有"稀疏结账".请参阅git config联机帮助页中的"core.sparseCheckout",git read-tree联机帮助页中的"Sparse checkout" 和git update-index联机帮助页中的"Skip-worktree bit" .

接口不如SVN那么方便(例如,在初始克隆时无法进行稀疏检出),但现在可以使用可以构建更简单接口的基本功能.


Eri*_*ulz 63

看起来简单得多:

git archive --remote=<repo_url> <branch> <path> | tar xvf -
Run Code Online (Sandbox Code Playgroud)

  • 当我在github上执行此操作时,我会致命:协议不支持操作.意外的命令流结束 (17认同)
  • 这不适用于GitHub:"我们不支持使用git-archive直接从GitHub中提取存档.您可以在本地克隆存储并运行git-archive,或者单击Download ZIP按钮回购页面." https://github.com/xuwupeng2000/capistrano-scm-gitcopy/issues/16 (3认同)
  • 如果你正在使用github,你可以使用`svn export`代替 (2认同)
  • 用Github无效 - >无效命令:'git-upload-archive'xxx/yyy.git''您似乎正在使用ssh来克隆git:// URL.确保未设置core.gitProxy配置选项和GIT_PROXY_COMMAND环境变量.致命:远程端意外挂断 (2认同)

ken*_*orb 35

仅使用Git克隆子目录是不可能的,但下面是几个解决方法.

过滤分支

您可能希望重写存储库以使其看起来像是trunk/public_html/项目的根目录,并丢弃所有其他历史记录(使用filter-branch),尝试已经结帐的分支:

git filter-branch --subdirectory-filter trunk/public_html -- --all
Run Code Online (Sandbox Code Playgroud)

注意:--将过滤器分支选项与修订选项分开,并--all重写所有分支和标记.将保留包括原始提交时间或合并信息在内的所有信息.此命令.git/info/grafts用于表示refs/replace/命名空间中的文件和引用,因此如果您refs定义了任何移植或替换,则运行此命令将使它们成为永久性的.

警告!重写的历史将具有所有对象的不同对象名称,并且不会与原始分支会聚.您将无法在原始分支的顶部轻松推送和分发重写的分支.如果您不知道完整的含义,请不要使用此命令,并且无论如何都要避免使用它,如果简单的单个提交就足以解决您的问题.


稀疏结账

以下是使用稀疏检出方法的简单步骤,它将稀疏地填充工作目录,因此您可以告诉Git工作目录中的哪个文件夹或文件值得检出.

  1. 像往常一样克隆存储库(--no-checkout是可选的):

    git clone --no-checkout git@foo/bar.git
    cd bar
    
    Run Code Online (Sandbox Code Playgroud)

    如果已经克隆了存储库,则可以跳过此步骤.

    提示:对于大型回购,请考虑浅层克隆(--depth 1)仅签出最新修订版或/和--single-branch仅.

  2. 启用sparseCheckout选项:

    git config core.sparseCheckout true
    
    Run Code Online (Sandbox Code Playgroud)
  3. 指定稀疏结帐的文件夹(末尾没有空格):

    echo "trunk/public_html/*"> .git/info/sparse-checkout
    
    Run Code Online (Sandbox Code Playgroud)

    或编辑.git/info/sparse-checkout.

  4. 签出分支(例如master):

    git checkout master
    
    Run Code Online (Sandbox Code Playgroud)

现在您应该在当前目录中选择了文件夹.

如果您有太多级别的目录或过滤分支,您可以考虑使用符号链接.


  • @sam:没有.`filter-branch`会重写父提交,因此它们具有不同的SHA1 ID,因此过滤后的树将没有与远程树共同的提交.`git pull`不知道从哪里尝试合并. (2认同)

Car*_*ard 10

这就是我所做的

\n
git init\ngit sparse-checkout init\ngit sparse-checkout set "YOUR_DIR_PATH"\ngit remote add origin https://github.com/AUTH/REPO.git\ngit pull --depth 1 origin <SHA1_or_BRANCH_NAME>\n
Run Code Online (Sandbox Code Playgroud)\n

简单说明

\n
    \n
  • 稀疏结账

    \n
  • \n
  • git sparse-checkout init很多文章会告诉你设置git sparse-checkout init --cone如果我添加--cone会得到一些我不想要的文件。

    \n
  • \n
  • git sparse-checkout set "...".git\\info\\sparse-checkout文件内容设置为...

    \n

    假设您不想使用此命令。相反,您可以打开git\\info\\sparse-checkout然后进行编辑。

    \n
  • \n
\n
\n

例子

\n

假设我想获得2个文件夹完整存储库大小>10GB\xe2\x86\x91(包括git),如下总大小<2MB

\n
    \n
  1. 铬/通用/扩展/api
  2. \n
  3. 铬/通用/扩展/权限
  4. \n
\n
git init\ngit sparse-checkout init\n// git sparse-checkout set "chrome/common/extensions/api/"\nstart .git\\info\\sparse-checkout    open the "sparse-checkut" file\n\n/* .git\\info\\sparse-checkout  for example you can input the contents as below \nchrome/common/extensions/api/\n!chrome/common/extensions/api/commands/      ! unwanted : https://www.git-scm.com/docs/git-sparse-checkout#_full_pattern_set\n!chrome/common/extensions/api/devtools/\nchrome/common/extensions/permissions/\n*/\n\ngit remote add origin https://github.com/chromium/chromium.git\nstart .git\\config\n\n/* .git\\config\n[core]\n    repositoryformatversion = 1\n    filemode = false\n    bare = false\n    logallrefupdates = true\n    symlinks = false\n    ignorecase = true\n[extensions]\n    worktreeConfig = true\n[remote "origin"]\n    url = https://github.com/chromium/chromium.git\n    fetch = +refs/heads/*:refs/remotes/Github/*\n    partialclonefilter = blob:none  //  Add this line, This is important. Otherwise, your ".git" folder is still large (about 1GB)\n*/\ngit pull --depth 1 origin 2d4a97f1ed2dd875557849b4281c599a7ffaba03\n// or\n// git pull --depth 1 origin master\n
Run Code Online (Sandbox Code Playgroud)\n
\n
    \n
  • partialclonefilter = blob:none

    \n

    我知道要添加这一行,因为我知道:git clone --filter=blob:none它会写这一行。所以我模仿它。

    \n
  • \n
\n

git版本:git version 2.29.2.windows.3

\n


小智 10

它对我有用-(git版本2.35.1)

git init
git remote add origin <YourRepoUrl>
git config core.sparseCheckout true
git sparse-checkout set <YourSubfolderName>
git pull origin <YourBranchName>
Run Code Online (Sandbox Code Playgroud)


dav*_*ler 9

我刚为GitHub 写了一个脚本.

用法:

python get_git_sub_dir.py path/to/sub/dir <RECURSIVE>
Run Code Online (Sandbox Code Playgroud)

  • 仅供参考,仅适用于_GitHub_. (11认同)
  • 显然这是**下载**目录,而不是**克隆**一个包含所有元数据的回购......对吗? (9认同)
  • 你应该在这里包括代码而不是其他地方. (4认同)

BAR*_*ARJ 8

这将克隆一个特定的文件夹,并删除所有与此文件夹不相关的历史记录。

git clone --single-branch -b {branch} git@github.com:{user}/{repo}.git
git filter-branch --subdirectory-filter {path/to/folder} HEAD
git remote remove origin
git remote add origin git@github.com:{user}/{new-repo}.git
git push -u origin master
Run Code Online (Sandbox Code Playgroud)

  • 这里有龙。您会收到_警告:git-filter-branch 有大量陷阱,会生成损坏的历史重写.._。然后是 [git-filter-branch 文档](https://htmlpreview.github.io/?https://raw.githubusercontent.com/newren/git-filter-repo/docs/html/git-filter-branch. html#SAFETY)有一个相当长的警告列表。 (2认同)

Eve*_*ett 7

只是为了澄清这里的一些很好的答案,许多答案中概述的步骤假设您已经在某处有一个远程存储库。

给定:一个现有的 git 存储库,例如git@github.com:some-user/full-repo.git,具有一个或多个您希望独立于存储库其余部分提取的目录,例如名为app1app2

假设您有一个 git 存储库,如上所述...

然后:您可以运行以下步骤以仅从该较大的存储库中提取特定目录:

mkdir app1
cd app1
git init
git remote add origin git@github.com:some-user/full-repo.git
git config core.sparsecheckout true
echo "app1/" >> .git/info/sparse-checkout
git pull origin master
Run Code Online (Sandbox Code Playgroud)

我错误地认为 sparse-checkout 选项必须在原始存储库上设置,但事实并非如此:在从远程拉取之前,您可以在本地定义所需的目录。远程存储库不知道或不关心您只想跟踪存储库的一部分。

希望此澄清对其他人有所帮助。


jxr*_*mos 5

这是我为单个子目录稀疏结账的用例编写的shell脚本

coSubDir.sh

localRepo=$1
remoteRepo=$2
subDir=$3


# Create local repository for subdirectory checkout, make it hidden to avoid having to drill down to the subfolder
mkdir ./.$localRepo
cd ./.$localRepo
git init
git remote add -f origin $remoteRepo
git config core.sparseCheckout true

# Add the subdirectory of interest to the sparse checkout.
echo $subDir >> .git/info/sparse-checkout

git pull origin master

# Create convenience symlink to the subdirectory of interest
cd ..
ln -s ./.$localRepo/$subDir $localRepo
Run Code Online (Sandbox Code Playgroud)

  • 不错的脚本,唯一应该修复的是符号链接,应该是 `ln -s ./.$localRepo/$subDir $localRepo` 而不是 `ln -s ./.$localRepo$subDir $localRepo` (2认同)

Nas*_*bal 5

使用 Linux?并且只想要易于访问和清理工作树?无需打扰机器上的其余代码。尝试符号链接

git clone https://github.com:{user}/{repo}.git ~/my-project
ln -s ~/my-project/my-subfolder ~/Desktop/my-subfolder
Run Code Online (Sandbox Code Playgroud)

测试

cd ~/Desktop/my-subfolder
git status
Run Code Online (Sandbox Code Playgroud)


wad*_*ali 5

git init <repo>
cd <repo>
git remote add origin <url>
git config core.sparsecheckout true
echo "<path you want to clone>/*" >> .git/info/sparse-checkout
git pull --depth=1 origin <branch you want to fetch>
Run Code Online (Sandbox Code Playgroud)

从此存储库仅克隆Jetsurvey文件夹的示例

git init MyFolder
cd MyFolder 
git remote add origin git@github.com:android/compose-samples.git
git config core.sparsecheckout true
echo "Jetsurvey/*" >> .git/info/sparse-checkout
git pull --depth=1 origin main
Run Code Online (Sandbox Code Playgroud)


归档时间:

查看次数:

725408 次

最近记录:

6 年 前