「git 系列」git 如何存储代码的？

这里写自定义目录标题

git 文件存储位置
git 数据模型
示例分析
不同版本的提交，git 做了什么工作？
snapshot vs delta-based vs backup
参考资料

git 文件存储位置

想要了解如何存储，首先需要知道存储位置。
当我们通过 git init 创建 git 仓库时，会创建.git 目录，.git 的目录结构如下：

├─hooks
├─info
├─logs
│  └─refs
│      ├─heads
│      └─remotes
│          └─origin
├─objects 
│  ├─07 
│  ├─13 
│  ├─2b 
│  ├─2d 
│  ├─3b 
│  ├─5a 
│  ├─5e 
│  ├─7e 
│  ├─94 
│  ├─fa 
└─refs
    ├─heads
    ├─remotes
    │  └─origin
    └─tags

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

其中 objects 目录中存储了所有的 git 对象，也是直接涉及数据文件存储的目录，其他目录在此不做讨论。

那么，想要了解 objects 目录中如何存储文件，就需要首先了解 git 的数据模型。

git 数据模型

git 数据模型分为三种：

blob 对象：存储文件数据，一个 blob 对象代表一个文件数据
tree 对象：存储文件和子目录的目录对象
commit 对象：也即快照，包含两个指针，分别指向 parent 以及 tree，此外还有作者以及提交信息

通过伪代码来认识这三个对象

type blob = array

type tree = map

type commit = struct {
	parent: array
	author: string
	message: string
	snapshot: tree
}
1
2
3
4
5
6
7
8
9
10

示例分析

使用我本地的一次提交为例，分析一下这三种对象的效果。

分析前准备

命令

分析过程主要使用到两条命令。

git 中提供了 git cat-file 用来查看 git 对象，分析时主要使用的参数有：
- -t 查看对象的类型
- -p 查看对象的具体内容
git 还有 git log 可以查看提交记录，快速找到 commit 对象。

哈希值

git 在存储文件/目录之前，会首先根据文件/目录计算 40 位哈希值。其中：

前两位为子目录
后三十八位为文件名称

git 存储信息时以该哈希值做索引，而不是文件名。

哈希值通过 SHA-1 计算得出。

具体示例

首先通过 git log 获取提交历史

可以看到最初的一次提交对应的 commit 对象为 7ea1f87e133d400610a887ad9d9542cb03dc98ad。
查看 commit 对象

可以看到 commit 对象中包含了 tree 指针、作者、提交者、提交信息等内容，由于第一次提交，所以并没有 parent 指针。
查看 tree 对象

可以看到，该 tree 对象下还有一个 tree 对象以及三个文件 blob 对象。
查看 blob 对象

可以看到是一个非常简单的 go 文件。
查看第二次提交对象

此处已经有 parent 对象，指向了第一次提交 commit 对象。