数据是抽象的,数据处理的工艺也是抽象的,我觉得需要有一些可见的模型进行类比才好记忆和思考。我一直把数据处理和实体制造进行类比,也可能是我过去做过一些制造业的管理咨询有关系,我觉得很自然。
本篇就着一个小bug来探讨一个更具体的思维模型(不是数学模型或计算机模型)。
在过去,我一直把数据处理想象成一条流水线。工艺的变化也就是一个产品的制造过程变化,有时候是小改动,有时候是大改动。与实体制造不同,现在数据的制造可以无损的重复千万次,很多时候计算机也就在千万次的计算、比较然后迭代找到可行解。
整体上,目前已经构造了分布式网络,来进行大量的存储和计算。当然离完成还有很多工作,但是从数据库上、优化算法上都已经ready,目前只是随着时间去逼近。
制程在整体的抽象模型上是偏上层的,现在碰到很多问题还是底层的居多。
某个制程是由若干个过程组合在一起形成
这次的主题其实是关于过程的,如何将一个过程变得更加可靠和简单。
虽然数据的结构可以有很多种,实际上在接口间传递数据时也是采用字典的方式。但是我们可以认为传过来的原始数据是一个“包”,过程的第一步是将这个包打开,然后取出对应的要处理的材料。处理之后也无非再打一个包。打包和解包的规范是一个标准,例如这些包可以都是一个扁平字典: