OceanBase 系统架构初探

如图，Oceanbase数据库的存储引擎基于LSM Tree（结构日志合并）架构。

从名字上来看，说明它是基于日志，有序存放的。

动态增量数据（放在MemTable中），还有个名词时memstore，在租户中，包括memstore和KVcache。

memtable可以理解为存放的时候是基于表的存放，是一种增量的数据

如：DML操作，在OB中update 有自己的特点与PG有相同点。

在PG中做update操作会先删除再插入，但数据不会真正删除，会标记为delete状态。

OB中做update操作与PG类似，直接插入一条新的数据，然后带上一条时间戳。不会像oracle一样直接在原来的行进行修改。

如上图，数据不会一直放在内存中，会放在静态基线数据，放在SSTable（Sorted String）中，看名字就知道它在底层是以排序好的字符串的形式。

为了持久化考虑，OB的默认事务级别和oracle一样，也是RC，提交后会把日志写到redo log中，在ob中也叫clog（commit log）。

日志如何同步？

1.如果本机是leader，它会把日志落到本地，同时把日志同步到另外两个副本。

2.如果本机不是leader，会接受leader产生的redo，然后落盘。

OB是一个准内存数据库，内存会很大，要操作这么大的内存，如何快速找到我们想要的数据？

OB中有两种方式：

1.hash 2.B树

如果DML语句是一个范围操作，就会使用B树，如果是一个单行查询，就会使用hash。

select操作会怎么读取？

1.由于写内存区域（memtable）的数据是最新的，所以会先读memtable

2.如果memtable里面没有，就需要去读转储SSTable，再把数据写到Block Cache。

3.如果转储SSTable也没有，就会去找基线SSTable

Block Cache和Row Cache有什么区别？

在OB中磁盘中存放的单位是宏块——2M，类似于oracle中的extent。

在宏块底层是微块——16k。

需要做全表扫描的时候，读Block Cache即可，Block Cache适合OLAP。

ROW 我理解为像一个缓冲池，适合OLTP系统，把热点行数据缓存在ROW Cache，下次select直接访问row cache即可。

在OB中只有一个基线文件，随着合并，这个基线文件会很大。

如果SSTable所在的磁盘有2T，那么会默认分配2T*90=1.8T给到这个文件。

所以要做RAID 5不做RAID 0 并且使用lvm逻辑卷管理。

相关阅读:
15. 三数之和
JSONP的安全性较差，那么在跨域情况下，有没有其他更安全的替代方案呢？
Maven
C++ 常用数学函数详解汇总#include＜cmath＞
python flask 前奏
表达式求值过程中会发生哪些隐藏的变化？求值顺序又由什么决定？——详解C表达式求值中的隐式类型转换，算术转换问题，以及操作符的属性
Java面试题：并发编程高频面试题，请你说一下你对Happens-Before的理解
【UE C++】打印输出的两种方式
C++——STL容器【map和set】
Selenium —— Web自动化多浏览器处理！

原文地址：https://blog.csdn.net/dnuiking/article/details/139306455