前言:text-image配对数据集并不是珍贵的,OpenAI为了训练GLIDE等大模型,曾经使用十亿量级的text-image数据集,而这些数据集主要是从互联网上爬取过滤的。image-to-text作为image-to-text的镜像问题,相关的研究少了很多。我们可以用CNN+LSTM搭建一个成功的模型用于完成这一任务。
目录
方法详解
整体流程
编码器:CNN
解码器:LSTM
京公网安备 11010502049817号