利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并 - 码农知识堂

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并

利用docker一键部署LLaMa到自己的Linux服务器，有无GPU都行、可以指定GPU数量、支持界面对话和API调用，离线本地化部署包含模型权重合并。两种方式实现支持界面对话和API调用，一是通过搭建text-generation-webui。二是通过llamma.cpp转换模型为转换为 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 运行 GGUF 模型。

斯坦福大学的Alpaca-lora模型的本地化部署，并验证了实际的推理效果，总体感觉并不是特别理想，原始Alpaca-lora模型对中文支持并不好，用52k的中文指令集对模型进行fine-tuning之后，效果依然达不到网上说的媲美GPT-3.5的推理效果，验证了那句话：“事不目见耳闻，而臆断其有无，可乎？”。在具有3块Tesla P40显卡的服务器上，利用3块GPU显卡加载模型参数和计算，进行一次简单的推理（非数学运算和逻辑运算）也需要大概30s-1min的时间，效率简直慢的惊人，虽然用中文数据集对模型进行了fine-tuning，然而对中文的支持也并不是很好，经常会出现乱码、重复问题、词不达意等情况。

当时大模型也同雨后春笋般的层出不穷，各个大厂和科研机构都推出了自己的大模型，其中基于LLaMA（开源且好用）的最多，所以决定再看看其他模型，有没有推理效果好，中文支持好，同时推理效率高的模型。经过筛选，Vicuna-13B的推理效果据说达到了ChatGPT的90%以上的能力࿰
相关阅读:
Linux之find命令的参数
 ERP和APS系统的联系和区别是什么？
都2023年金九银十了，这三个项目你还没有？你简历上项目经验写啥
 jsp70077网络办公OA系统
 【JavaSE】继承
 如何在指定文件夹下安装python的虚拟环境
 Python爬虫
 基于MMDetection训练VOC格式数据集
 学习-Java输入输出之对象IO流之序列化一个对象
 【大数据】基于 Flink CDC 高效构建入湖通道
原文地址：https://blog.csdn.net/u014374009/article/details/136190542