• 利用docker一键部署LLaMa到自己的Linux服务器,有无GPU都行、可以指定GPU数量、支持界面对话和API调用,离线本地化部署包含模型权重合并


    利用docker一键部署LLaMa到自己的Linux服务器,有无GPU都行、可以指定GPU数量、支持界面对话和API调用,离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用,一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式,使用 quantize 量化模型,使用 llama.cpp 运行 GGUF 模型。

    在这里插入图片描述

    斯坦福大学的Alpaca-lora模型的本地化部署,并验证了实际的推理效果,总体感觉并不是特别理想,原始Alpaca-lora模型对中文支持并不好,用52k的中文指令集对模型进行fine-tuning之后,效果依然达不到网上说的媲美GPT-3.5的推理效果,验证了那句话:“事不目见耳闻,而臆断其有无,可乎?”。在具有3块Tesla P40显卡的服务器上,利用3块GPU显卡加载模型参数和计算,进行一次简单的推理(非数学运算和逻辑运算)也需要大概30s-1min的时间,效率简直慢的惊人,虽然用中文数据集对模型进行了fine-tuning,然而对中文的支持也并不是很好,经常会出现乱码、重复问题、词不达意等情况。

    当时大模型也同雨后春笋般的层出不穷,各个大厂和科研机构都推出了自己的大模型,其中基于LLaMA(开源且好用)的最多,所以决定再看看其他模型,有没有推理效果好,中文支持好,同时推理效率高的模型。经过筛选,Vicuna-13B的推理效果据说达到了ChatGPT的90%以上的能力࿰

  • 相关阅读:
    Linux之find命令的参数
    ERP和APS系统的联系和区别是什么?
    都2023年金九银十了,这三个项目你还没有?你简历上项目经验写啥
    jsp70077网络办公OA系统
    【JavaSE】继承
    如何在指定文件夹下安装python的虚拟环境
    Python爬虫
    基于MMDetection训练VOC格式数据集
    学习-Java输入输出之对象IO流之序列化一个对象
    【大数据】基于 Flink CDC 高效构建入湖通道
  • 原文地址:https://blog.csdn.net/u014374009/article/details/136190542