整个行业从“大参数竞赛”开始转向“低成本、高效率、全生态”的平权时代!
农历新年假期前后短短十来天,大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent形态百花齐放,云平台和终端算力竞相拥抱开源模型。
一起来看看过去这半个月到底发生了什么。
春节假期前,2025年1月20日,DeepSeek团队率先发布了全新的DeepSeek-R1模型。
其在后训练阶段大规模运用强化学习(RL)技术,显著降低了对人工标注数据的依赖,从而有效减少训练和推理成本。
与此同时,这款模型还通过完全开源策略以及极 具竞争力的API定价(输入tokens每百万0.55美元,输出tokens每百万2.19美元)吸引了大量开发者。
彼时,在数学、代码、自然语言推理等多项测试中,DeepSeek-R1的表现逼近甚至超越OpenAI o1,打响中国团队在大模型创新道路上的“第 一枪”。
同日,豆包团队也推出了实时语音大模型,并在豆包App中全量开放。
它既可实现语音理解与生成的一体化,还具备低时延和随时打断的灵活特性。
相比OpenAI的GPT-4o,这款模型在语音自然度和情绪承接上拥有更出色的表现,更展示了专注语音交互的深厚潜力。
随后在1月21日,阶跃星辰发布了Step-1oVision多模态理解大模型,覆盖文本、视觉、语音三模态的生成与理解,尤其在视觉感知和空间推理方面大幅升级,标志着多模态融合进入“端到端”的时代。
1月22日,豆包再次亮相,带来了豆包1.5Pro大模型,凭借在知识、代码、推理、中文等多个权威基准上全面超越业界一流模型而备受瞩目。
值得一提的是,豆包1.5Pro并未使用其他模型生成的数据,独立性与可靠性更胜一筹。
到了1月23日,智谱团队对外宣布了GLM-PC的开放体验,成为全球首 个面向公众、回车即用的电脑智能体,能够“观察”并“操作”计算机,为用户带来全新的电脑交互方式。
同一天,OpenAI也在直播中发布了其首 款AI Agent——Operator,可以在网页环境下代理用户进行自动化操作,代表AI进入了“代理式”应用的新阶段。
随后1月25日,科大讯飞年会上,董事长刘庆峰表示,2025年,科大讯飞将重点围绕自主可控的底座能力和关键应用领域,打造全栈自主可控的“大模型国家队”。
这些重磅产品、战略方向的接连亮相之下,外界对大模型市场的关注度和热情逐步攀升,也迎来了中国的假期。
可就在大家准备休憩回家过春节时,大模型行业又爆发了更多*冲击力的创新与动作,进一步掀起了2025年开年AI波澜。
1. 春节彩蛋正式爆发:新多模态强势登场
1月28日(农历除夕)凌晨,DeepSeek再次引爆行业——推出全新多模态大模型Janus-Pro,并在图像生成基准中超越OpenAI DALL-E3,引发全球瞩目。依旧秉持完全开源,提供MIT许可证,商业使用几乎无门槛。
同时,Janus-Pro7B、1.5B等轻量级版本可在消费级电脑上本地运行,功能包括图像生成、图像描述、地标识别与内容解读等。
在全球科技股不稳定的背景下,DeepSeek在除夕日逆势带来“惊喜”,同时官方称其遭遇大规模恶意攻击,被迫限制非大陆地区注册。尽管如此,Janus-Pro的发布也让市场开始重新审视多模态大模型的潜力。
同日,阿里云通义团队开源全新视觉理解模型Qwen2.5-vl,包含3B、7B、72B 三个版本,旗舰版在13项权威评测中夺得视觉理解冠军。
1月29日,阿里云通义再发布旗舰版Qwen2.5-max,以MOE(混合专家)模型为核心,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练,在多项主流测评中展现了“越大越强”的态势,一度推动阿里巴巴股价涨超 7%。
阿里延续其大规模多专家(MOE)技术探索,展示强悍训练能力与超大参数规模,也引发业界对“超大模型是否就是终 极路径”的再次讨论。
2. 春节期间的激烈竞争:1月31日至今
国内的多重彩蛋重击了美国科技界。
OpenAI也在当地时间1月31日起打出双连击:o3-mini(1月31日)&“Deep Research”(2月3日)。
o3-mini定位主打“成本效益高”,是推理模型中更灵活的选择,允许开发者在“低/中/高”三档思考深度间切换,以在速度与准确率之间取得平衡。
在AIME2024等数学测试中,最高可达87.3%准确率,与o1级别持平,且在通用知识和编程竞赛上也有明显提升。
令人惊讶的是,ChatGPT首次向免费用户开放推理模型,也标志着OpenAI在商业与市场策略上更加积极的决心。
Deep Research主要基于o3模型做专项优化,利用联网搜索+大模型推理,其声称可在5-30分钟内完成相当于人类专家数小时的复杂研究任务。
也是一款真正将“大模型思维”与“互联网信息获取”结合的AI Agent,也算是朝“AI自主研究助手”迈出实质一步。
Deep Research发布同日,奥特曼的帮手软银集团宣布与OpenAI联合成立一家名为“SB OpenAI Japan”的合资公司,双方各持有50%股份。公司将致力于开发和推广高级企业人工智能“Cristal intelligence”。
此外,软银集团还计划每年投入30亿美元,将Cristal整合到旗下各业务板块,给足了“OpenAI的商业化之路”面子。
此外,欧洲也不甘示弱,1月31日,欧洲AI巨头Mistral AI发布全新“Mistral Small3”模型。
该模型拥有240亿参数,在多语言处理、数学和编程等领域表现出色:在Humaneval测试中准确率达到84.8%,在MMLU测试中突破81%。
Mistral Small3的硬件适配与推理速度优势同样可圈可点——不仅支持Apache2.0许可证开源,还能在普通RTX 4090 GPU或配备32GB RAM的笔记本电脑上以量化方式流畅运行。
凭借“小而精”的特色,Mistral Small3可以与meta、阿里等大型模型同台竞争,也为欧洲AI市场注入了新的增长动力,进一步丰富了全球大模型生态格局。
而就在今天,流量王OpenAI宣布完成一次全面的品牌重塑。
外观上,新旧标志区别并不明显,微调后,“花朵”标志中心留出的空间略有增大,线条更简洁流畅。还推出全新字体—OpenAI Sans,特点在于将几何精确性与功能性,融入圆润、亲和的设计风格之中。
对于2025年的大模型之战,这位只想当第 一的AI巨头,始终保持着蓄势待发的状态……
3. 平台与生态齐发力
除了大模型企业本身,整个AI生态链也为大模型产业发展加了一把火。
从1月底到2月初,整个春节期间,大模型之间的竞争逐渐蔓延云平台、算力供应及企业级部署层面,形成多方“生态竞合”局面。
最 具有标志性的便是DeepSeek模型的多云上架。得益于DeepSeek的开源与低成本特色,各大云厂商竞相利用更低门槛、更便捷的体验来吸引开发者与企业客户。
2月初,多家云厂商与DeepSeek达成深度合作,纷纷“上架” DeepSeek系列模型,提供更加便捷的部署与试用服务。
2月1日至2月3日期间,百度智能云、阿里云、腾讯云、360 数字安全、云轴科技ZStack,以及海外的亚马逊AWS、微软Azure、英伟达等平台,相继宣布接入DeepSeek-R1、DeepSeek-V3、Janus-Pro等热门模型,并推出“一键部署”等能力。
当然,无论是商业还是技术,各方都在使劲。
中国时间2月4日,华为云与潞晨科技联合宣布,基于国产昇腾 910B 算力完成了 DeepSeek-R1系列模型的推理适配,与高端GPU相比,性能表现不相上下。
这次合作也为国产软硬件结合提供了成熟的落地方案,为中国企业在算力自主化、降低AI成本方面带来了新的思路。
2月4号同日,腾讯云也在TI平台上架了DeepSeek系列模型。通过“一键在线部署+免费体验”的方式,让开发者能够快速测试从671B“满血”大模型到1.5B蒸馏小模型,充分适配不同业务需求。
当然,对于云平台而言,这不仅是丰富自身大模型生态的举措,也是为其在AI产业链中赢得更深层的价值在打地基。
4. 看未来:开源与性价比的“模型平权”逐步蔓延
随着DeepSeek、Mistral、豆包等厂商以开源和低成本的方式快速推广,大模型技术正逐渐摆脱过去高昂资源门槛的桎梏,使得中小团队乃至个人开发者也能掌握一流的 AI能力,也在无形中削弱了传统AI巨头在算力与数据层面的垄断地位。
与此同时,各大云服务商纷纷集成开源大模型,将竞争焦点从“模型训练”转向“推理应用”,在更广泛的场景(包括端侧设备)加速落地,这也意味着小模型在消费级设备上跑通的前景越发可期。
除此之外,大模型多模态与Agent竞赛纷拥而至
多模态正在成为新一轮大模型进化的关键词:Janus-Pro、Step-1oVision、Qwen2.5-vl 等产品相继涌现,在图像生成、识别和视觉推理方面持续迭代。
同时,Operator、GLM-PC、Deep Research等智能体(Agent)形态也是势不可挡,席卷而来。
可以预见,单纯的大语言模型性能竞赛将逐渐让位于“多模态+Agent化”,谁能让AI更加主动地“观察世界并行动”,谁就更有机会在下一阶段掌握主动权。
5. 算力持续投入与产业升级可期
虽然新技术路线(如强化学习与MOE架构)在一定程度上降低了训练与推理门槛,但全球对算力的需求依旧在快速飙升,算力竞争不会因此放缓,反倒在“多云合作”与“国产化替代”的双重推动下愈发白热化。
对于云厂商而言,这场浪潮也是从IaaS(基础设施)迈向“AI+软件生态”转型的良机;而对传统企业而言,借助国产和开源大模型能更快实现智能化升级,发掘新的业务增长点。
从市场动向来看,在这一波大模型热潮的带动下,1月下旬至2月初,多支科技股出现明显波动与上涨,阿里巴巴股价一度涨超7%,美股中概股也普遍走强。
“中国AI从跟随者到创新者”的势头已经引起国际资本市场的高度关注。
借助DeepSeek等中国团队的开源创新,国内AI行业或将涌现更多投资机会与产业合作,为未来的全球竞争奠定更坚实的基础。
6. 结语:大模型生态之战
开源不是终点,而是新的起点。
这段时间发布的众多开源模型,给人强烈印象:大模型“贵族化”时代正在被打破,未来数月内可能看到更多“二次创新”和“本地化落地”案例。
此外,很明显Agent与多模态的融合潜力巨大。
无论是OpenAI的Deep Research,还是DeepSeek的Janus-Pro,都说明行业正加速走向“AI可自主行动、理解多模态信息”的阶段,应用场景将从对话式扩展到研究、生产、创意、甚至工业自动化。
基础设施角度来看,云生态与国产算力的竞争将更激烈。
华为昇腾、阿里云、腾讯云、百度智能云,以及亚马逊AWS、微软Azure都已加入大模型生态之战,在“平台”与“应用”端形成激烈博弈。
当然,也要警惕高并发场景下的隐患。
DeepSeek在发布Janus-Pro时遭遇大规模恶意攻击,说明开源与全球化背后,也意味着更复杂的安全挑战。各方都需要加强“AI 安全+合规”能力建设。
对企业而言,机遇与挑战并存:一方面,获取先进 AI 能力的门槛被极大降低;另一方面,竞争对手也同样能以更低成本打造自己的行业应用。
未来,谁能在数据、应用场景和商业模式上跑出差异化,谁就能在新一轮AI产业变革中脱颖而出。
正如DeepSeek与一系列国内外厂商的动作所示,“中国AI”已在全球舞台上崭露锋芒,而下一个创新爆点,也许就在不远的明天。