码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Kernel Memory 入门系列: RAG 简介


    合集 - Kernel Memory(10)
    1.Kernel Memory 入门系列: RAG 简介2023-12-18
    2.Kernel Memory 入门系列: Embedding 简介2023-12-193.Kernel Memory 入门系列:文档预处理2023-12-204.Kernel Memory 入门系列:快速开始2023-12-215.Kernel Memory 入门系列:Kernel Memory Service2023-12-226.Kernel Memory 入门系列:生成并获取文档摘要2023-12-257.Kernel Memory 入门系列:文档的管理2023-12-268.Kernel Memory 入门系列:自定义处理流程2023-12-279.Kernel Memory 入门系列:Semantic Kernel 插件2023-12-3010.Kernel Memory 入门系列:异步管道01-03
    收起

    Kernel Memory 入门系列: RAG 简介

    开一个新坑,Semantic Kernel系列会在 Release 1.0 之后陆续更新。

    当我们有了一定的产品资料或者知识内容之后,自然想着提供一个更加方便的方式让用户能够快速地找到自己想要的信息,或者得到一个更加智能的答案。
    以往的时候可能需要通过一些搜索引擎或者问答系统来实现,但是这些系统往往需要极高的维护成本,而且对于用户来说也不是很友好。很多时候仍然需要用户自己去思考问题的表达方式,然后再去搜索或者提问,可以说是费事费力。
    如今有了大语言模型,我们就可以考虑通过它来实现一个更加智能的问答系统,为用户提供一个更加友好的交互方式。

    从对话开始

    当我们直接接入大语言的模型的时候,往往会遇到一个很常见的问题,就是它对于我们私有的数据,小众领域的信息或者较新的知识并不知道。

    Alt text

    这源自于大语言模型的训练数据集的限制,它的数据往往来自于大众的语料库,所以对于公开的信息了解的就比较多,但是对于私有的数据,小众领域的信息都不在它的知识范围内,而且由于训练成本和时间的限制,它也不可能实时地去更新模型本身的知识。

    这个时候得到“不知道”的答案反而是一个好事儿,起码看得出来这个模型是有一定的智能的,它知道自己不知道,而不是随便瞎猜。毕竟处理大模型的幻觉也是很大的一个问题。

    补充上下文

    那么这个时候如果想要让模型能够为我们所用的,就需要上一点技术手段了。
    最简单的方法就是在与大模型沟通的时候,增加一些上下文的信息。

    Alt text

    那这里的上下文就是我们所能够提供给模型的,用于回答用户问题的信息了。

    那么接下来的问题就是,这个上下文信息是怎么来的?

    RAG

    我们需要从整个流程来回溯一下:

    1. 首先用户提出问题,这个问题从始至终不会发生变化
    2. 然后我们需要理解用户的问题,知道用户提问的意图和方向
    3. 接下来就是我们需要根据用户的问题,去检索我们的知识库,找到与用户问题相关的信息,查找出与之相关的的文档或者文本内容
    4. 最后我们需要将这些文档或者文本内容进行整合,组成一个完整的提示词,提供给大语言模型用于生成
    5. 最后通过大语言模型生成相对精确的答案,返回给用户

    Alt text

    这个过程就被称为 RAG(Retrieval Augmented Generation),也就是检索增强生成。

    参考资料

    1. 检索增强生成 (RAG)
  • 相关阅读:
    ArrayList集合&学生管理系统
    强的离谱!阿里人用五个模块讲明白了SpringCloud,已开源!
    InnoDB底层存储结构探秘
    基于单片机的智能交通控制系统研究
    golang opt-in transparent telemetry
    【期末大作业】基于HTML+CSS+JavaScript网上订餐系统(23个页面)
    五分钟了解制造业核心系统的双向集成
    国产FPGA高云GW1NSR-4C,集成ARM Cortex-M3硬核
    美食杰项目(六)发布菜谱
    搞个微信小程序002:个人信息
  • 原文地址:https://www.cnblogs.com/xbotter/p/kernel_memory_rag.html
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号