码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级


    690d4f4e8d71b7741d617f783c1da423.jpeg

    近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。

    在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以在对话中按要求扮演不同角色。

    此外,深度求索团队对DeepSeek-V2-Chat的“system”区域指令跟随能力进行了优化,显著增强了沉浸式翻译、RAG 等任务的用户体验。

    610af98d68a57d256ab71cf6d49939d5.png

    短短半年,深度求索团队的进步堪称神速。

    今年1月,他们开源了国内首个MoE模型,随后在5月初发布了最强开源MoE模型DeepSeek-V2,6月中旬,他们发布了代码生成能力超越GPT4-Turbo的DeepSeek Coder V2。

    这一次,DeepSeek-V2-Chat在各方面或比肩GPT4,至少是国产大模型的新标杆。

    据官方此前介绍,DeepSeek-V2系列模型采用了全新的模型结构。DeepSeek V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Multi-head Latent Attention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模型性能跨级别的提升。

    408127427dee77f7b85ea9b36f1184ec.jpeg
    (DeepSeek-V2与其他大模型的效果对比)

    一如既往,大模型API平台SiliconCloud第一时间上线了推理加速版DeepSeek-V2-Chat。

    新用户送2000万Token,快试试吧:

    https://cloud.siliconflow.cn/models/text/chat/17885302520icon-default.png?t=N7T8https://cloud.siliconflow.cn/models/text/chat/17885302520

    在SiliconCloud上,DeepSeek-V2-Chat的输出在50tokens/s左右,速度飞快。

    写一道简单的代码题,感受一下DeepSeek-V2-Chat的输出:

    2549bda28c84c2ec286b1a1f5831dc55.gif

    再问一道数学题:

    7b8394bafa9360ce46ee40107e1cac0c.gif

    除了DeepSeek-V2-Chat,SiliconCloud已上架包括DeepSeek-Coder-V2、Stable Diffusion 3 Medium、Qwen2、GLM-4-9B-Chat、SDXL、InstantID在内的多种开源大语言模型、图片生成模型与代码生成模型。

    其中,Qwen(7B)、GLM4(9B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

    6e7b6bf17d1ee4a67626e8c4f09ed74d.png829d490c258069a9baba9e3ca42800e5.png

    作为集合顶尖大模型的一站式云服务平台,SiliconCloud为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

    SiliconCloud支持用户自由切换符合不同应用场景的模型,同时提供开箱即用的大模型推理加速服务,为生成式AI应用带来更高效的用户体验。

    欢迎来玩儿:

    cloud.siliconflow.cn/s/deepseek_v2_newicon-default.png?t=N7T8http://cloud.siliconflow.cn/s/deepseek_v2_new
     

    其他人都在看

    • 800+页免费“大模型”电子书

    • LLM Serving有效吞吐量的最大化实现

    • 文生图王者登场:SD3 Medium正式开源

    • 大模型产品化第一年:战术、运营与战略

    • 最强开源代码模型DeepSeek-Coder-V2问世

    • 20+公司AI产品分析;工程师的LLM使用痛点

    • 国产大模型免费用!开发者Token自由实现了
       

    3268573c38302bff90823cebb0fc025c.png


    开发AI超级应用,减少响应时间,就用SiliconCloud
     

    更快、更便宜、更全面、体验更丝滑的大模型API

  • 相关阅读:
    专业,城市,院校,高考填报志愿的三要素怎么排序?
    [字符串和内存函数]strcpy和strncpy的区别
    ChatGPT在虚拟旅游和文化体验中的潜在作用如何?
    基于CNN-RNN的医疗文本生成
    leetcode 55. 跳跃游戏
    觉非科技发布【轻地图高速NOA智驾方案】|地平线,觉非科技,MobileDrive超捷生态协作实现技术落地
    【MySQL】一文带你了解MySQL的基础知识
    (算法设计与分析)第三章动态规划-第一节1:动态规划基本思想、框架
    基于智能优化算法的交通流模拟器(Matlab代码实现)
    《安全物联网系统设计》:我强烈建议你给你的物联网系统加一把安全锁
  • 原文地址:https://blog.csdn.net/OneFlow_Official/article/details/140139772
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号