• M3E&ChatGLM向量化构建本地知识库


    整体步骤

    • 向量化:首先,你需要将语言模型的数据转化为向量。这通常通过嵌入模型(embedding models)完成,比如word2vec,GloVe,或者BERT等,这些模型可以将文本数据转化为向量形式。
    • 存储:向量化后的数据可以存储在向量数据库中。向量数据库提供了一种高效的方式来存储和索引大量的向量数据。
    • 查询:存储在向量数据库中的向量可以通过向量空间中的搜索和比较操作来查询。例如,你可以通过查找与给定向量最相近的向量来找到与给定文本最相关的文本。

    向量数据库

    向量数据库简介

    向量数据库是一种特殊类型的数据库,它用于存储和处理向量数据。向量数据库的主要特点是能够高效地执行向量空间中的搜索和比较操作,比如最近邻搜索(nearest neighbor search)。向量数据库在许多领域都有应用,包括机器学习、人工智能、计算机视觉和自然语言处理等。

    主流数据库

    1. Faiss:Faiss是Facebook AI研究所开发的一种用于高效相似度搜索和聚类的库。它可以处理大量数据,并且支持在GPU上运行。
    2. Annoy (Approximate Nearest Neighbors Oh Yeah):Annoy是Spotify开发的一种用于大规模近似最近邻搜索的C++库。Annoy的优点是它支持动态添加向量,这对于需要不断更新数据的应用来说非常有用。
    3. Milvus:Milvus是一款开源的向量数据库,支持在线向量相似度搜索和向量聚类。它提供了丰富的API接口,可以方便地与其他系统进行集成。
    4. Pinecone:Pinecone是一款托管型向量搜索服务,提供全托管的向量搜索引擎,用于构建和部署大规模向量搜索应用。

    这里我们选择Milvus。

    Milvus部署

    Milvus是基于Docker部署的,你的Docker需要符合以下条件:

    • Docker 版本 > 19.03 部署docker
    • Docker Compose 版本 > 1.25.1 安装Compose

    1、下载保存docker-compose.standalone.yml并保存为docker-compose.yml:

    wget https://github.com/milvus-io/milvus/releases/download/v2.2.12/milvus-standalone-docker-compose.yml -O docker-compose.yml
    
    • 1

    2、启动单节点

    docker-compose up -d
    
    • 1

    3、通过命令确定单节点安装完成

    [root@slave2 docker]# sudo docker-compose psName                     Command                  State             Ports       
    --------------------------------------------------------------------------------------
    milvus-etcd         etcd -listen-peer-urls=htt ...   Up (healthy)   2379/tcp, 2380/tcp
    milvus-minio        /usr/bin/docker-entrypoint ...   Up (healthy)   9000/tcp          
    milvus-standalone   /tini -- milvus run standalone   Exit 132
    
    • 1
    • 2
    • 3
    • 4
    • 5

    4、关闭Milvus

    docker-compose down
    
    • 1

    5、启动Milvus

    
                    
  • 相关阅读:
    SpringSecurity Oauth2实战 - 10 自定义SpEL权限表达式配置白名单url不需要token认证和鉴权
    FL Studio21中文完整版升级下载
    配置Path环境变量
    C++入门(以c为基础)——学习笔记2
    兼容vue2和vue3版本的插件实现过程
    如何将文字转换成语音?分享两款实用软件
    【毕业设计】前后端分离——解决cookies跨域
    mysql的增删改查
    LeetCode 87 双周赛
    基础算法之背包
  • 原文地址:https://blog.csdn.net/weixin_44455388/article/details/132738672