21世纪经济报道记者 邓浩 陈归辞 李览青 上海报道
2025年过年期间,DeepSeek-R1一夕爆火,以极致性价比与媲美OpenAI-o1的性能强势出圈,却令包括“AI六小虎”在内模型创业公司的境地颇为尴尬。
除了打破以往主要依靠算力堆砌实现“大力出奇迹”的训练路线,更重要的是,DeepSeek用开源模式冲击了许多大模型厂商依赖高昂的投流费用与闭源模式来获取商业利益的方式。
“AI六小虎”等大模型公司将何去何从?DeepSeek-R1的商业模式是什么?作为产业链来说,哪个环节会率先受益?
基座大模型搅风云
在DeepSeek的冲击波下,模型大厂与头部创业公司或将开始步入小径分岔的花园。
“大厂更有选择一点,除了字节的豆包,基本上大厂都接入了DeepSeek。因为他们更加看重的是生态,自己家的产品不行没关系,先用DeepSeek,有一天自己的技术赶上来再替换不迟。”无界AI联合创始人兼CTO张飞彪向21世纪经济报道记者指出。
“六小虎更没有选择一些,要么做应用,要么做模型硬刚。如果接入DeepSeek,那么他们会很难以底层模型的概念去融资、后续人才也会更容易流失。”他说。
事实上,在DeepSeek发起巨大挑战之前,大模型行业分化的苗头早已经在酝酿。从去年下半年开始,以“AI六小虎”为代表的大模型公司出现了不少人事和业务上的变动。
比如零一万物算法副总裁、模型预训练负责人黄文灏去年8月离职加入字节跳动,联合创始人李先刚离职回到曾就职的贝壳;MiniMax“星野”产品负责人张千川去年9月确认离职;月之暗面几位出海产品负责人去年11月前后离职创业;百川智能联创、商业化负责人洪涛去年12月确认离职。
更令业内注目的是,今年1月初,前微软全球副总裁和谷歌全球副总裁李开复创立的零一万物宣布与阿里云达成合作,成立“产业大模型联合实验室”。零一万物的大部分预训练算法团队及Infra团队转入阿里云,公司将停止训练超大模型。
其他大模型公司如百川智能的选择与零一万物类似,据悉在去年就已经停止预训练新的超大规模通用大模型,更聚焦应用;而月之暗面则在去年收缩了海外业务,更聚焦Kimi的研发。
更重要的问题是,如果不卷大模型,要怎么做出差异化?
一个选择是深耕垂类。例如百川智能就选择专注于做医疗垂类大模型。今年3月初,百川智能裁撤了主要负责金融行业To B业务的B端组,并对旗下商用业务部门进行了大调整,将资源集中至医疗这一核心业务上。
“零一万物把自己的基础模型板块与阿里整合,当时大家觉得不争气,但是现在觉得很合理。做上层应用、做入口还有很大的机会。”张飞彪表示。
但也有公司选择在基座大模型上“死磕”,认为仍有机会,同时发力多模态大模型及智能体等C端产品。
今年3月底,智谱发布了其最新智能体产品AutoGLM沉思,智谱称其背后是智谱GLM全栈自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,前者不仅性能比肩DeepSeek-R1,在速度提升最高8倍的同时,价格仅需DeepSeek-R1的1/30。上述模型将于4月14日开源。
智谱CEO张鹏在今年的中关村论坛上表示,智谱是一家技术和商业化“两条腿走路”的公司,对于AGI这类前沿探索,智谱需要花大钱试错,风险较高,并表示融了多少钱都是AGI道路上的盘缠;等到了推广阶段,重点就变成怎么把技术用好、怎么跟市场结合了。他认为目前智谱来到了一个必须要深入到产业和应用当中去吸取营养回馈技术研发的阶段。
一个有意思的问题是,在基座大模型领域,未来DeepSeek是否将一家独大?
张飞彪认为,DeepSeek对基础模型领域有很良性的影响,虽然暂时是一家独大,但是未来不一定。“首先,DeepSeek是非常良心的,它的开源策略整体上提高了国内的模型水平,大家也有了更清晰的训练路线。其次,国内的其他模型也在赶上来,比如智谱等也很强,也在走开源路线,大家资质差不多,人才、算力、数据等差得不远,多给点时间总会有跑出来的。”
应用爆发下如何商业化?
简单来说,DeepSeek是通过App、API(应用编程接口)的方式提供服务,其将高性能的模型开源、大幅降低API调用价格,这对下游应用厂商而言,大大降低了部署成本。
张飞彪告诉记者,下游厂商运用DeepSeek模型进行商业化,最简单的是直接用DeepSeek的API,当然要付费,但是省时省事,也不贵。
目前,在标准时段,DeepSeek-V3和R1的百万tokens输入(缓存命中)价格分别为0.5元和1元,百万tokens输出分别为8元和16元。而在优惠时段,V3和R1的百万tokens输入(缓存命中)则均降为0.25元,百万tokens输出均降为4元。这低于OpenAI-o1一个多数量级。
而直接部署DeepSeek开源模型的企业则无需向DeepSeek付费。一家服务于金融机构的投研平台创始人告诉记者,在DeepSeek开源底层代码前,该平台在调用官方API接口时,需要根据API服务的调用量计费,但在开源后可以自己直接部署相关模型,无需向DeepSeek付费。
他透露,目前其使用满血版R1模型的成本主要是租用云服务器的算力成本。“满血版R1模型跑起来的话,目前我们使用一台服务器的成本在3万元/月,但因为我们主要是对内部员工投研场景使用,不需要满足C端用户的实时交互,所以我们对算力的消耗并不高。”他指出,对于合规要求较高的金融机构而言,在不能租用云端服务器只能本地化部署的情况下,算力成本将大幅提高,在数百万元级别。
此外,DeepSeek带动的推理技术发展,在实际应用中有望降低复杂应用对计算资源的要求,算力更密集的应用赛道如人形机器人、自动驾驶、AI玩具等有望加速演绎。
随着大模型部署成本及难度的显著下降,业内普遍预期将有更多人加入进大AI应用开发的队伍,各行各业将迎来AI应用大爆发。
但需要注意的是,在DeepSeek出圈之前,业内就已经形成广泛共识,将2025年视为智能体和AI应用的爆发元年。
今年1月初,OpenAI CEO山姆·奥尔特曼曾发文称相信2025年人们将会看到第一批AI智能体“加入劳动力大军”,从根本上改变各公司产出的东西。许多国内外知名科技界人士也都曾表示看好2025年智能体和AI应用的发展。
而从AI产业实际发展趋势中也可以看到,目前产业正在向应用端迁移。许多科技巨头和头部模型厂商已经在智能体或其他AI应用领域有积极的布局,也有许多行业已经在打造AI应用或正在密切关注AI应用的可能。
因此,DeepSeek出圈更多是加速了大模型厂商转向应用以及各行各业AI应用爆发的进程。
“AI应用已经爆发,还有各类智能体Agent,不要光看语言模型,多模态模型、大世界模型也在飞速的进步,我们迎来了一个大跃迁的时代。”张飞彪表示,“DeepSeek对于AI商业场景来说一是教育意义非凡,让大家都知道了、都要用。另一个是切实的降低了成本,让大家都用得上、用得起。”
目前,AI智能体是AI行业最关注的下一个里程碑。业内普遍认为,AI智能体是大模型落地的关键场景和重要突破点,同时也有不少人将其视作通向AGI的重要途径。与此同时,在医疗、金融、教育、视频生成、内容创作、新零售、数字人等诸多领域,均涌现出AI应用的开发实例。
尽管AI技术显示出广泛的应用前景,商业化落地却仍面临诸多难题。李开复今年年初曾表示,“2025年是大模型考验年,是应用爆发年,更是商业化淘汰年”。行业正在等待杀手级应用。
今年3月6日,中国AI初创公司蝴蝶效应发布的智能体产品Manus一炮走红,引来资本市场狂欢,或可视为一个先声。
Munus具有一定的独立思考能力,能思考、规划和执行复杂任务,直接交付完整成果。例如,它可以帮助用户筛选简历、研究房产、分析股票数据等。
这种“运用大脑”和“使用工具”的能力,很大程度得益于AI基础模型之上的多模态功能。据透露,Manus使用了Claude和不同的基于阿里千问大模型(Qwen)的微调模型。
3月11日,早期预览版产品发布一周时间不到,Manus宣布与阿里通义千问团队达成战略合作,双方将在国产模型和算力平台上实现Manus的功能。
目前,还处于非公开测试阶段的Manus已经开始向用户收费。据悉,付费版本分为Manus Starter和Manus Pro,前者每月收费39美元,后者每月收费199美元。
大模型“卖水人”或是首批受益者
在Deepseek横空出世下,如果资本市场对上游算力卡的需求大规模扩张尚存疑虑,下游也或面临终端用户付费意愿强弱等问题,那么中游的云计算和一体机厂商,却无疑正在迎来业务爆发。
从公开信息来看,国内阿里云、百度智能云、华为云、腾讯云、火山引擎、京东云等都已接入了DeepSeek。海外的亚马逊AWS、微软Azure等云巨头同样官宣支持。
以华为云为例,2月1日,其在官方公众号透露,硅基流动和华为云联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。
华为云称,得益于自研推理加速引擎加持,该模型可获得持平全球高端GPU部署模型的效果,而且可提供稳定的、生产级服务能力,让模型能够在⼤规模生产环境中稳定运行,并满足业务商⽤部署需求。
从2月以来,据21世纪经济报道记者不完全统计,已经有希维科技、云锐数科、汉斯夫、宜兴市大数据发展有限公司等多家单位选择华为云昇腾AI云服务,基于DeepSeek展开业务创新。
事实上,产业界一直存在“杰文斯悖论”的说法,即模型成本下降会带来AI场景扩展,算力总需求反而会提升。
CIC灼识咨询总监林莉就曾对记者表示,互联网大厂、云厂商等头部企业为了满足自身AI业务的发展,不断扩充算力中心,对服务器的采购量持续增加,“与之相对应的是第三方算力中心服务商,承接80%以上的智算算力,例如刚刚发布四季度财报的世纪互联,基准抓取了AI增长引擎,进行前瞻布局,基地业务同比增长125%以上。”
不过,由于企业数据隐私和知识产权的需要,也衍生出本地化部署的市场机会,DeepSeek一体机成为刚需产品。
雪浪云高级副总裁、雪浪工业软件研究院副院长郭翘就对记者表示,“我们面向制造业都是私有化部署的,因为很多企业内部知识有产权保护等问题,我们通过服务器加软件的方式,帮助企业在内部搭建大模型系统。”
值得一提的是,由于算力一体机技术难度并不算高,性能指标也差异巨大,市场上从几万元到几百万元的产品都存在,颇为鱼龙混杂。
郭翘认为,与性能有关的核心有三点,首先,精度要原生支持FP8,现在国产GPU里,可能只有摩尔线程才能支持,而如果无法原生支持的话,意味着需要更多的卡来搭建满血版;其次,有了满血版DeepSeek一体机,也要看可以支持多少个用户同时使用,也就是并发数;最后,是每秒的token数,就是回答的效率。
郭翘直言,“目前至少要200万元以上的一体机,才能满足制造业场景的实际需要。”
财信证券研报认为,大模型一体机有望解决私有化部署中硬件选型难、软件适配慢、调优成本高等痛点难点,构建从硬件到软件、从开发到运维的全生命周期技术闭环,让政企无需组建专业团队即可实现敏捷部署。
据财信证券初步测算,现阶段央国企、 政务机构、学校、医院私有化部署 AI 大模型所需的服务器(一体机)开支空间约在 1000 亿元左右,且随着AI 应用场景逐渐拓宽,服务器(一体机)需求仍有较大提升空间。
郭翘也透露,从春节以来,其公司来自客户的需求项目数至少有100%的同环比提升,“制造业的数据质量很差,所以数据与语料的预处理是大模型落地的前提,我们有成熟的产品方法论与工程化实践能力。此外,我们的一体机使用的是摩尔线程的GPU,性价比比较高。与目前业内其他厂商不能原生支持FP8精度的GPU相比,可以节省约1/3的成本。”
技术极客的开源理想
DeepSeek为什么要开源?对未来大模型的发展怎么看?
最直接的,可以看看DeepSeek自己怎么说。在去年12月其官方发布的《DeepSeek-V3 Technical Report》论文中,DeepSeek这样描述自己的技术愿景,“始终坚持长期主义的开源模型路线,旨在稳步迈向通用人工智能(AGI)这一最终目标。”
为此,DeepSeek将持续研究和优化模型架构,致力于进一步提高训练和推理效率,努力实现对无限上下文长度的高效支持。
此外,其将尝试突破Transformer的架构限制,从而拓展其建模能力的边界;不断迭代训练数据的数量和质量,并探索纳入更多的训练信号源;持续探索和迭代模型的深度思考能力,旨在通过扩展推理长度和深度,提升其智能水平和问题解决能力。
实际上,开源并不是DeepSeek首创,而是软件行业一直以来的传统理想。
“自由软件之父”Richard Stallman曾说过,“长远来看,让软件自由是通往富足世界的一小步;在富足世界里,人们不必辛苦工作来谋生······我们必须做这件事,为了使技术进步带来的生产力提高能够转化为人们工作的减少。”
梁文锋在接受《暗涌》采访时明确表示,“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
不少AI产业链人士在接受记者采访时,都表达了对DeepSeek的尊敬,并认为其当下的首要目标并非商业化,而是某种技术极客的理想主义,而以DeepSeek为代表的开源模型推进下,下游应用市场正在加速爆发。
“市场在等待一个杀手级爆款时刻。”有产业人士如是说。
荒野乱斗18❌漫画 | 8天前 |
猛男GayGay✅免费网站漫画 |
雏田女被❌c🐻黄 | 4天前 |
动漫做受❌❌❌高潮 |
榴莲网站❌18禁网站在线看 | 9天前 |
动漫美女裸体❌❌免费看 |
白丝jk美女打开双腿❌ | 9天前 |
雷电将军裸体㊙️无遮挡 |
女朋友被戒尺打屁股🔞🔞🔞 | 9天前 |
高清码🔞❌♋裸体网站魅影 |
禁🔞免费网软件视频 | 2天前 |
裸体㊙️人妖自慰 |
正在播放fc2ppv❤️完全 | 7天前 |
胸都曝光❌❌大片🍆👙💦 |
动漫裸体❌羞羞网站软件 | 5天前 |
美女全身裸体秘密㊙️免费视频网站 |
动漫男女无遮挡❌大尺度 | 4天前 |
在线看黄🈲片🔞🔞🈲 |
女性脱👙给我揉🐻的91 | 0天前 |
国产精品xvideos㊙️88 |