数据库迭代模型扩展

火山模型（Volcano Model）也称为迭代模型（Iterator Model），是最著名的查询执行模型，早在 1990 年就在论文 “Volcano, an Extensible and Parallel Query Evaluation System” 中被提出。主流的 OLTP 数据库 Oracle、MySQL 都采用了这种模型。引用地址

但是，在使用过程中感觉到该模型存在一些工程上的缺陷，需要扩展。

存在问题

火山模型定义的接口清晰、简单，使得各个算子只需要关注算子本身的算法，无需关心上游是谁产出的数据。例如，Sort 算子做排序，下游数据可能来自 TableScan，可能来自 GroupBy，也可能来自 Limit。

但是，在特定场景下，下游算子如果能知道上游算子的一些额外信息，有利于执行优化。例如：

WINDOW
  SORT
    TBALE SCAN
1
2
3

在火山模型里，WINDOW 算子并不知道它的 CHILD 算子是 SORT，即便知道也没有一个规范的办法从 SORT 里取得任何信息。WINDOW 算子如果能知道输入的数据总行数，可以做很多动态优化。而 SORT 是阻塞算子，它正好有条件计算出总行数。这两个算子相互配合，就能让 WINDOW 算子更好地优化。

解决方案

在火山模型里，算子只有一种输出：

行数据

而在工程实现里，算子可以有两种产物输出：

行数据
其它统计信息、执行辅助信息

借助通信领域的概念，我将其抽象为：

带内数据
带外数据

关于带外数据的应用场景，可以参考这篇文章，写得很好。

有了带外数据的概念，上下层算子之间就有可能实现信息的共享与传输了。

接口定义

为了描述方便，还是使用上面的计划作为例子。

WINDOW
  SORT
    TBALE SCAN
1
2
3

首先，在计划优化阶段，优化器可以明确告诉 WINDOW 算子，它的下面是 SORT。
然后，在计划生成阶段，Code Generator 模块告知 WINDOW 算子它可以调用 child.get_stat() 接口
最后，在计划执行阶段，WINDOW 算子在 get_next_row 之前调用 child.get_stat() 传入回调对象以获取统计信息。SORT 算子检测到回调对象存在时，就会在返回任何行之前向回调对象里传入统计信息。

从上面的描述可知，每个阻塞算子都可以和一个特定类型的回调对象绑定，通过改对象对外暴露自身状态。

存在问题

如果 WINDOW 想要获得 TABLE SCAN 的统计信息呢？应该如何处理？OceanBase 里的 Datahub 组件是一种方法，但这个方法依赖了网络。我们需要一个 Local Datahub 组件，用于 DFO/fragment 内部的快算子带外数据传输。

本文重点是引入“带外数据” 的概念，其具体实现细节不做过多讨论，故而本文打住至此。

相关阅读:
算法旋转数组最小数字-(二分查找+反向双指针)
linux 模型属性attribute
嵌入式中I2C 相关的硬件问题汇总及死锁解决办法
使用 Docker 部署 TailChat 开源即时通讯平台
mybatis03与spring的集成
微信小程序常用标签及其用法
怎么用手机压缩图片？教给大家三种手机压缩图片方法
SSM 线上知识竞赛系统-计算机毕设附源码 27170
2023版IDEA的下载、安装、配置、快捷键、模板、插件与使用
Fiddler抓包工具详解

原文地址：https://blog.csdn.net/maray/article/details/126778948