当前位置: 首页 » 资讯 » AI智能 » 正文

AI大模型春节「爆发」回顾,阿里、DeepSeek齐上桌

作者:不寒 来源:微信公众号:亿欧网 165702/09

整个行业从“大参数竞赛”开始转向“低成本、高效率、全生态”的平权时代!农历新年假期前后短短十来天,大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent形态百花齐放,云平台和终端算力竞相拥抱开源模型。一起来看看过去这半个月到底发生了什

标签: 人工智能 DeepSeek AI 大模型

整个行业从“大参数竞赛”开始转向“低成本、高效率、全生态”的平权时代!

农历新年假期前后短短十来天,大模型领域几乎每天都有新的惊喜:多模态进一步成熟,Agent形态百花齐放,云平台和终端算力竞相拥抱开源模型。

一起来看看过去这半个月到底发生了什么。

春节假期前,2025年1月20日,DeepSeek团队率先发布了全新的DeepSeek-R1模型。

其在后训练阶段大规模运用强化学习(RL)技术,显著降低了对人工标注数据的依赖,从而有效减少训练和推理成本。

与此同时,这款模型还通过完全开源策略以及极 具竞争力的API定价(输入tokens每百万0.55美元,输出tokens每百万2.19美元)吸引了大量开发者。

彼时,在数学、代码、自然语言推理等多项测试中,DeepSeek-R1的表现逼近甚至超越OpenAI o1,打响中国团队在大模型创新道路上的“第 一枪”。

同日,豆包团队也推出了实时语音大模型,并在豆包App中全量开放。

它既可实现语音理解与生成的一体化,还具备低时延和随时打断的灵活特性。

相比OpenAI的GPT-4o,这款模型在语音自然度和情绪承接上拥有更出色的表现,更展示了专注语音交互的深厚潜力。

随后在1月21日,阶跃星辰发布了Step-1oVision多模态理解大模型,覆盖文本、视觉、语音三模态的生成与理解,尤其在视觉感知和空间推理方面大幅升级,标志着多模态融合进入“端到端”的时代。

1月22日,豆包再次亮相,带来了豆包1.5Pro大模型,凭借在知识、代码、推理、中文等多个权威基准上全面超越业界一流模型而备受瞩目。

值得一提的是,豆包1.5Pro并未使用其他模型生成的数据,独立性与可靠性更胜一筹。

到了1月23日,智谱团队对外宣布了GLM-PC的开放体验,成为全球首 个面向公众、回车即用的电脑智能体,能够“观察”并“操作”计算机,为用户带来全新的电脑交互方式。

同一天,OpenAI也在直播中发布了其首 款AI Agent——Operator,可以在网页环境下代理用户进行自动化操作,代表AI进入了“代理式”应用的新阶段。

随后1月25日,科大讯飞年会上,董事长刘庆峰表示,2025年,科大讯飞将重点围绕自主可控的底座能力和关键应用领域,打造全栈自主可控的“大模型国家队”。

这些重磅产品、战略方向的接连亮相之下,外界对大模型市场的关注度和热情逐步攀升,也迎来了中国的假期。

可就在大家准备休憩回家过春节时,大模型行业又爆发了更多*冲击力的创新与动作,进一步掀起了2025年开年AI波澜。

1. 春节彩蛋正式爆发:新多模态强势登场

1月28日(农历除夕)凌晨,DeepSeek再次引爆行业——推出全新多模态大模型Janus-Pro,并在图像生成基准中超越OpenAI DALL-E3,引发全球瞩目。依旧秉持完全开源,提供MIT许可证,商业使用几乎无门槛。

同时,Janus-Pro7B、1.5B等轻量级版本可在消费级电脑上本地运行,功能包括图像生成、图像描述、地标识别与内容解读等。

在全球科技股不稳定的背景下,DeepSeek在除夕日逆势带来“惊喜”,同时官方称其遭遇大规模恶意攻击,被迫限制非大陆地区注册。尽管如此,Janus-Pro的发布也让市场开始重新审视多模态大模型的潜力。

同日,阿里云通义团队开源全新视觉理解模型Qwen2.5-vl,包含3B、7B、72B 三个版本,旗舰版在13项权威评测中夺得视觉理解冠军。

1月29日,阿里云通义再发布旗舰版Qwen2.5-max,以MOE(混合专家)模型为核心,基于超过20万亿token的预训练数据及精心设计的后训练方案进行训练,在多项主流测评中展现了“越大越强”的态势,一度推动阿里巴巴股价涨超 7%。

阿里延续其大规模多专家(MOE)技术探索,展示强悍训练能力与超大参数规模,也引发业界对“超大模型是否就是终 极路径”的再次讨论。

2. 春节期间的激烈竞争:1月31日至今

国内的多重彩蛋重击了美国科技界。

OpenAI也在当地时间1月31日起打出双连击:o3-mini(1月31日)&“Deep Research”(2月3日)。

o3-mini定位主打“成本效益高”,是推理模型中更灵活的选择,允许开发者在“低/中/高”三档思考深度间切换,以在速度与准确率之间取得平衡。

在AIME2024等数学测试中,最高可达87.3%准确率,与o1级别持平,且在通用知识和编程竞赛上也有明显提升。

令人惊讶的是,ChatGPT首次向免费用户开放推理模型,也标志着OpenAI在商业与市场策略上更加积极的决心。

Deep Research主要基于o3模型做专项优化,利用联网搜索+大模型推理,其声称可在5-30分钟内完成相当于人类专家数小时的复杂研究任务。

也是一款真正将“大模型思维”与“互联网信息获取”结合的AI Agent,也算是朝“AI自主研究助手”迈出实质一步。

Deep Research发布同日,奥特曼的帮手软银集团宣布与OpenAI联合成立一家名为“SB OpenAI Japan”的合资公司,双方各持有50%股份。公司将致力于开发和推广高级企业人工智能“Cristal intelligence”。

此外,软银集团还计划每年投入30亿美元,将Cristal整合到旗下各业务板块,给足了“OpenAI的商业化之路”面子。

此外,欧洲也不甘示弱,1月31日,欧洲AI巨头Mistral AI发布全新“Mistral Small3”模型。

该模型拥有240亿参数,在多语言处理、数学和编程等领域表现出色:在Humaneval测试中准确率达到84.8%,在MMLU测试中突破81%。

Mistral Small3的硬件适配与推理速度优势同样可圈可点——不仅支持Apache2.0许可证开源,还能在普通RTX 4090 GPU或配备32GB RAM的笔记本电脑上以量化方式流畅运行。

凭借“小而精”的特色,Mistral Small3可以与meta、阿里等大型模型同台竞争,也为欧洲AI市场注入了新的增长动力,进一步丰富了全球大模型生态格局。

而就在今天,流量王OpenAI宣布完成一次全面的品牌重塑。

外观上,新旧标志区别并不明显,微调后,“花朵”标志中心留出的空间略有增大,线条更简洁流畅。还推出全新字体—OpenAI Sans,特点在于将几何精确性与功能性,融入圆润、亲和的设计风格之中。

对于2025年的大模型之战,这位只想当第 一的AI巨头,始终保持着蓄势待发的状态……

3. 平台与生态齐发力

除了大模型企业本身,整个AI生态链也为大模型产业发展加了一把火。

从1月底到2月初,整个春节期间,大模型之间的竞争逐渐蔓延云平台、算力供应及企业级部署层面,形成多方“生态竞合”局面。

最 具有标志性的便是DeepSeek模型的多云上架。得益于DeepSeek的开源与低成本特色,各大云厂商竞相利用更低门槛、更便捷的体验来吸引开发者与企业客户。

2月初,多家云厂商与DeepSeek达成深度合作,纷纷“上架” DeepSeek系列模型,提供更加便捷的部署与试用服务。

2月1日至2月3日期间,百度智能云、阿里云、腾讯云、360 数字安全、云轴科技ZStack,以及海外的亚马逊AWS、微软Azure、英伟达等平台,相继宣布接入DeepSeek-R1、DeepSeek-V3、Janus-Pro等热门模型,并推出“一键部署”等能力。

当然,无论是商业还是技术,各方都在使劲。

中国时间2月4日,华为云与潞晨科技联合宣布,基于国产昇腾 910B 算力完成了 DeepSeek-R1系列模型的推理适配,与高端GPU相比,性能表现不相上下。

这次合作也为国产软硬件结合提供了成熟的落地方案,为中国企业在算力自主化、降低AI成本方面带来了新的思路。

2月4号同日,腾讯云也在TI平台上架了DeepSeek系列模型。通过“一键在线部署+免费体验”的方式,让开发者能够快速测试从671B“满血”大模型到1.5B蒸馏小模型,充分适配不同业务需求。

当然,对于云平台而言,这不仅是丰富自身大模型生态的举措,也是为其在AI产业链中赢得更深层的价值在打地基。

4. 看未来:开源与性价比的“模型平权”逐步蔓延

随着DeepSeek、Mistral、豆包等厂商以开源和低成本的方式快速推广,大模型技术正逐渐摆脱过去高昂资源门槛的桎梏,使得中小团队乃至个人开发者也能掌握一流的 AI能力,也在无形中削弱了传统AI巨头在算力与数据层面的垄断地位。

与此同时,各大云服务商纷纷集成开源大模型,将竞争焦点从“模型训练”转向“推理应用”,在更广泛的场景(包括端侧设备)加速落地,这也意味着小模型在消费级设备上跑通的前景越发可期。

除此之外,大模型多模态与Agent竞赛纷拥而至

多模态正在成为新一轮大模型进化的关键词:Janus-Pro、Step-1oVision、Qwen2.5-vl 等产品相继涌现,在图像生成、识别和视觉推理方面持续迭代。

同时,Operator、GLM-PC、Deep Research等智能体(Agent)形态也是势不可挡,席卷而来。

可以预见,单纯的大语言模型性能竞赛将逐渐让位于“多模态+Agent化”,谁能让AI更加主动地“观察世界并行动”,谁就更有机会在下一阶段掌握主动权。

5. 算力持续投入与产业升级可期

虽然新技术路线(如强化学习与MOE架构)在一定程度上降低了训练与推理门槛,但全球对算力的需求依旧在快速飙升,算力竞争不会因此放缓,反倒在“多云合作”与“国产化替代”的双重推动下愈发白热化。

对于云厂商而言,这场浪潮也是从IaaS(基础设施)迈向“AI+软件生态”转型的良机;而对传统企业而言,借助国产和开源大模型能更快实现智能化升级,发掘新的业务增长点。

从市场动向来看,在这一波大模型热潮的带动下,1月下旬至2月初,多支科技股出现明显波动与上涨,阿里巴巴股价一度涨超7%,美股中概股也普遍走强。

“中国AI从跟随者到创新者”的势头已经引起国际资本市场的高度关注。

借助DeepSeek等中国团队的开源创新,国内AI行业或将涌现更多投资机会与产业合作,为未来的全球竞争奠定更坚实的基础。

6. 结语:大模型生态之战

开源不是终点,而是新的起点。

这段时间发布的众多开源模型,给人强烈印象:大模型“贵族化”时代正在被打破,未来数月内可能看到更多“二次创新”和“本地化落地”案例。

此外,很明显Agent与多模态的融合潜力巨大。

无论是OpenAI的Deep Research,还是DeepSeek的Janus-Pro,都说明行业正加速走向“AI可自主行动、理解多模态信息”的阶段,应用场景将从对话式扩展到研究、生产、创意、甚至工业自动化。

基础设施角度来看,云生态与国产算力的竞争将更激烈。

华为昇腾、阿里云、腾讯云、百度智能云,以及亚马逊AWS、微软Azure都已加入大模型生态之战,在“平台”与“应用”端形成激烈博弈。

当然,也要警惕高并发场景下的隐患。

DeepSeek在发布Janus-Pro时遭遇大规模恶意攻击,说明开源与全球化背后,也意味着更复杂的安全挑战。各方都需要加强“AI 安全+合规”能力建设。

对企业而言,机遇与挑战并存:一方面,获取先进 AI 能力的门槛被极大降低;另一方面,竞争对手也同样能以更低成本打造自己的行业应用。

未来,谁能在数据、应用场景和商业模式上跑出差异化,谁就能在新一轮AI产业变革中脱颖而出。

正如DeepSeek与一系列国内外厂商的动作所示,“中国AI”已在全球舞台上崭露锋芒,而下一个创新爆点,也许就在不远的明天。

免责声明:本网转载合作媒体、机构或其他网站的公开信息,并不意味着赞同其观点或证实其内容的真实性,信息仅供参考,不作为交易和服务的根据。转载文章版权归原作者所有,如有侵权或其它问题请及时告之,本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。联系电话 188-166-20669 ,谢谢。

热门推荐

Manus带火智能体,有人3月赚10万

来源:微信公众号:亿欧网 作者:不寒03/20 08:55

合作伙伴