字节今天又发了新一代的大模型,豆包seed 2.0。
很多人也在讨论。
本来真的不想卷了,花了点时间看完了技术报告,然后火山上也上了,我就把我项目里的所有seed 1.8都升级到了2.0后,测试了些任务,我觉得还是有点超我预期的。
所以回家路上手机码字碎碎念几句。 首先,这次发的Seed 2.0,定位是多模态通用模型,三个规格,Pro、Lite、Mini,外加一个专门写代码的Code。 细节就不详细展开了,手边没电脑一些数据也记不太清了,我简单总结一下:
Seed 2.0是个原生多模态模型,多模态能力全球SOTA,在视觉理解、视频理解上基本就是No.1,从火山上接了一下API,用我最爱用的blender教程视频,测了一下目前做的都不太好的视频理解能力,体感上应该就是当今最强的,比Gemini 3 Pro还要强。
本体代码能力确实普通,但是跟OpenAI一样,代码单独用Code模型去做,而不用自己的主模型去卷,主模型是给普罗大众用的,这个思路没问题。
然后还有两个有意思的特点我觉得对普通人也很有用,但是没啥人提。
一个是基于视觉理解的非结构化文档理解,比如各种乱七八糟的复杂的文件和PDF,都是那种扫描版或者图片,用大模型提取信息的能力,目前Seed 2.0应该也是SOTA,对于所有的办公场景都非常的实用。
另一个就是搜索Agent这块,这个非常重要,我自己之前一直都是用GPT-5.2来作为的搜索引擎,这半年来我用它搜索几乎都已经不去验证数据源了,幻觉率极低,是我体感是最强的,全球没有一个能追上,几乎是把Claude和Gemini摁在地上打。
这次seed 2.0在最核心的评测集BrowseComp上,居然直接打平GPT-5.2,我自己下午随便试了下,在国产环境下,我甚至觉得比GPT 5.2还要准一点,这个属实是在我意料之外的。
而且,在这些能力的提升下,Seed 2.0的人味不像很多其他模型,居然没有降低,这个更离谱。我个人下午体验下来,觉得反而在通用场景下,是有些超预期的,因为我知道字节内部有一个硬性规定,就是不准蒸馏,所以这个能力是实打实的,在没蒸馏的情况下,把这些能力做到这种程度,属实不易。在国内,这可能就是你日常工作中能比肩GPT 5.2在拟人化上比肩GPT4o的水桶模型。有时候,为了绝大多数场景和用户考虑,可能会更重要更普惠一些。
在这个思路上,字节跟OpenAI倒是如出一辙。国产大模型卷到这个程度,作为用户是真的幸福。而从业者,也是真的天天过年。最后,就说到这吧。真的祝大家新年快乐啦~
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://www.jinnalai.com/jiaodian/809198.html
