1. 主页 > 社会焦点

耗资460万美元赶超GPT5?Kimi团队回应一切

上周,KimiK2Thinking发布后,凭借其在智能体、代码和写作能力上的显著进步,引发了广泛关注。11月11日,Kimi团队在Reddit上举办了一场AMA活动,创始人杨植麟也参与其中,透露了诸多信息。

关于下一代模型K3的发布时间,Kimi团队幽默地表示,这取决于奥特曼的万亿美元数据中心何时建成。这一回答既体现了幽默,也暗示了Kimi在资源利用上的独特方式。团队还透露,K3将继续沿用当前效果显著的KDA注意力机制。此外,Kimi团队强调,他们专注于模型训练,能力的体现将通过大模型助手来完成,而非像OpenAI那样发布AI浏览器。

在训练成本方面,Kimi澄清了460万美元的传闻并不准确,指出大部分资金用于研究和实验,难以具体量化。硬件方面,Kimi使用的是H800GPU和Infiniband,虽然不如美国顶级GPU,但团队充分利用了每一张卡。

KimiK2Instruct的风格被用户称赞为“比较少的谄媚,有洞察力且独特”,这得益于“预训练+后训练”的方式。然而,也有用户指出KimiK2Thinking的写作风格过于积极正面,AI味过重。对此,Kimi团队承认这是大语言模型的常见问题,并表示现阶段的强化学习会刻意放大这种风格。

在技术方面,Kimi在AMA中分享了KDA注意力机制的细节,这种机制在长序列强化学习场景中展现了性能提升,未来可能会应用于K3。此外,KimiK2Thinking的超长推理链得益于训练方式和INT4量化训练技术,这使得推理速度提升且逻辑不会因压缩量化而崩溃。

关于视觉语言能力,Kimi表示目前正在完成这项工作,但由于数据获取和训练需要大量时间,团队优先选择了纯文本模型。对于开发者关心的成本问题,Kimi解释了API定价方式,并表示会考虑更好的计算方法。团队还强调了开源的重要性,认为通用人工智能应是团结而非分裂的追求。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://www.jinnalai.com/jiaodian/788852.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息