用CNN+RNN实现image-to-text任务：原理讲解和代码实现 - 码农知识堂

用CNN+RNN实现image-to-text任务：原理讲解和代码实现

前言：text-image配对数据集并不是珍贵的，OpenAI为了训练GLIDE等大模型，曾经使用十亿量级的text-image数据集，而这些数据集主要是从互联网上爬取过滤的。image-to-text作为image-to-text的镜像问题，相关的研究少了很多。我们可以用CNN+LSTM搭建一个成功的模型用于完成这一任务。

目录

方法详解

整体流程

编码器：CNN

解码器：LSTM
相关阅读:
博客系统中的加盐算法
 细聊工作中常见的分支开发模式
 Vscode爆红Delete `␍`eslintprettier/prettier
【flink-sql实战】flink 主键声明与upsert功能实战
 ANR问题分析手记
 Ajax异步
 C++ 语法基础课习题1 —— 变量、输入输出、顺序语句
 数组的API
深度解读《深度探索C++对象模型》之C++虚函数实现分析（一）
面试官都震惊，你这网络基础可以啊！
原文地址：https://blog.csdn.net/qq_41895747/article/details/126293757