全面超越Deepseek,阿里大年初一放大招
作者:小编日期:2025-02-05浏览:4420分类:其他分享
请先记住这个词:Moe模型。因为这个词未来会改变AI圈、改变金融圈、改变英伟达、甚至改变中美AI走向。
故事起因是这样的:
10天前,大家都准备回家过年了,结果来自浙江的一家小公司DeepSeek(深度求索)火了,它发布的V3模型,震惊了美国AI圈和金融圈,还上了新闻联播,一夜之间和华为、阿里比肩齐名了,搞的扎克伯格一度呼吁美国加紧封锁中国AI技术。
这么大事,你让别的AI公司怎么办?火车票都买好了,结果又来加班,好在阿里云是反应最快的那个,他们的算法专家立刻找到问题关键点:
DeepSeek用的是Moe模型,阿里的Qwen用的还是Moe模型。
在Moe架构领域,Qwen是规模最大的那一个,又有20万亿Tokens(相当于1.5亿本小说)。为什么DeepSeek能火爆全网、气死扎克伯格,而Qwen不能?于是阿里的工程师加班加点,甚至把车票都退了,终于在大年初一,发布了新的模型Qwen2.5-Max。注意是:Max版,就和手机一样,就是顶配版的意思。
Qwen2.5-Max一发布,高级算法专家林俊旸就发了个圈:
Qwen2.5-Max这个版本最牛逼的2点是:
(1)超大规模的MoE模型,预训练数据超20万亿Tokens。
(2)全面超越DeepSeek V3
简单的说,就是性能更牛了,但更节约算力了。
如上图所示,Qwen2.5-Max的各项指标都略高于DeepSeek和LLaMA模型。
在告诉大家一个冷知识:阿里的千问、DeepSeek(深度求索)、Meta的LLaMA的底座都是MoE模型。
说了半天,估计好多人不知道什么是Moe模型吧?
简单点说:Moe模型(混合专家模型)是AI圈热门的大模型架构,它只需要激活必要的参数来处理输入的数据,减少主动计算需求的同时,使得计算成本得以大幅降低,推理性能也有所改善。不会相应增加训练和运行模型所需的计算负担,所以能同步降低训练成本。
这个架构最牛逼之处,就是主动减少计算需求,主动计算需求减少,自然节约算力,算力节约了就能节约芯片数量。这就是为什么DeepSeek能用Meta公司1/10的价格,训练出跟LLaMA模型差不多的大模型的原因。
这也是为什么扎克伯格气的牙痒痒的原因:我花了1000亿美刀做出的开源LLaMA模型,你小子花550万就做出来了。你说能不急吗?预计用不了多久,扎克伯格也会学习Deepseek的方法。等Meta 公司的 LLaMA 模型学习差不多了,估计就没Deepseek什么事了。
所以阿里的Qwen赶在Meta之前,发布全新Qwen2.5-Max版本,性能超越了Deepseek,更牛了,也更节约算力了。这样一来,以后大家对算力的要求降低了太多了,以后也不需要那么多芯片了,更没人大量屯芯片了。那以后谁还买英伟达的芯片啊?
以前所有的公司都认为AI大模型需要大力出奇迹,需要对算力进行大量的投资,要购买大量芯片,可现在一切即将改变,这是今年AI一个重要转折点,阿里起了个头,预计会有更多公司都会朝这个方向努力:节约算力,提升性能。但这样,英伟达的黄仁勋就要哭啦。
写在最后:
今年的阿里云要起飞了,先是登陆了央视春晚,大年初一又发了新的模型。阿里新发布的Qwen2.5-Max这个版本的起了个头,目测这一模型会引领新的AI方式。
如果说DeepSeek的低成本戳破美国AI的资本泡沫游戏,那么阿里云的Qwen则让AI回归科研本身,打破美国的模型壁垒,让全世界都可以参与AI研发中来了。
相关文章
- 02-24 DeepSeek+一键成片,生成哪吒流量视频,轻松弄个副业
- 02-23 揭秘让文章内容曝光量提升至少10倍的方法
- 02-23 抖音小店无货源选品之路
- 02-21 FLUX 小红书网红1girl_极致逼真人像模型
- 02-19 主播桌宠直播间动态宠物
- 02-16 怎样通过知识付费赚钱?搞明白这几点你也能月入过万
- 02-14 UptimeRobot - 领先的免费网站监控平台,保障网站时刻在线
- 02-12 抖音快速起流涨粉流量密码!
- 02-11 deepseek教程+AI指令合集
- 02-09 旧衣服回收市场的暴富行业,不起眼却又赚钱的项目
- 02-05 全面超越Deepseek,阿里大年初一放大招
- 01-24 从0到1搭建私域流量池的方法论,详细步骤,建议收藏
取消回复欢迎你发表评论:
- 协助本站优化一下
- 最近发表
- 1移动AI闹元宵抽2~10亓话费券
- 2霸王茶姬抽3千份中杯免单券
- 3饿了么医药领3亓券0亓撸实物
- 4DeepSeek+一键成片,生成哪吒流量视频,轻松弄个副业
- 5剪视频的搞笑转场经典素材合集
- 6onenav导航源码一为主题wordpress主题源码手机平板自适应 学习版
- 7宫崎骏风治愈系动画制作,AI软件一键生成原创视频流量爆炸,单日变现多张,详细实操流
- 8AI占卜算卦项目源码分享
- 9芳芳不太闲内部直播深度学习抖音精品课,涵盖了从账号运营,视频制作到直播技巧等多个
- 10检摄-检测针孔红外各类摄像头
- 11dy抖音直播间采集软件 多线程多直播间采集(重构版)
- 12deepseek开发安卓APP教程 以zipsaver(百度网盘不限速)为例
- 13单页图床+最新完整版图床系统修复版
- 14NT的4K美女视频素材,起好专用存不完的。
- 15高情商公式完结版:从自我认知到行动,教你如何实现“自爽”和高效成事
Copyright© XGW9.COM版权所有〖小庚资源网〗
〖恒创科技〗为本站提供专业云计算服务
本站发布的内容来源于互联网,如果有侵权内容,请联系我们删除!E-mail:xgzyw6@outlook.com
关于我们|我要投稿|免责声明|XML地图
暂无评论,来添加一个吧。