微软、谷歌同日发布新AI模型：语音、图像与本地开源能力齐上阵

微软与谷歌周四同步发布新一代AI模型，进一步加码多模态能力布局。微软推出自研MAI系列基础模型，覆盖语音转写、语音生成和图像生成，并加速融入自家产品体系；谷歌则发布Gemma4开源模型，主打本地运行和多模态能力，并将许可切换至更开放的Apache2.0协议。

微软：三款MAI模型覆盖语音与图像能力

微软推出的“世界级”自研MAI模型，一共包括三款：

首先是MAI-Transcribe-1，这是一款“最先进”的语音转文本模型，能够理解全球使用最广泛的25种语言，其批量转录速度相比微软现有的AzureFast方案提升了2.5倍。MAI-Transcribe-1的起步价格为每小时0.36美元。

其次是MAI-Voice-1，这是一款新的语音生成模型，只需1秒即可生成60秒的音频。同时，它还支持在MicrosoftFoundry中通过短音频样本创建定制语音。MAI-Voice-1的起步价格为每100万个字符22美元。

最后是MAI-Image-2，这是一款更快的文生图模型，目前已经开始在Copilot中上线，接下来将陆续应用于Bing和PowerPoint。MAI-Image-2的价格为文本输入每100万个词元（Token）收费5美元，图像输出每100万个词元收费33美元。

如今，这三款模型已全部在MicrosoftFoundry上线，其中语音转写和语音生成模型也可在MAIPlayground中使用。这些模型由微软的MAI超级智能团队开发，该团队由MicrosoftAI首席执行官穆斯塔法·苏莱曼（MustafaSuleyman）领导，于2025年11月成立并对外公布。

微软表示：

媒体分析称，这一发布表明，尽管微软仍与OpenAI保持紧密合作，但公司正持续推进构建自有多模态AI模型体系，并与其他AI研究机构展开竞争。

不过，苏莱曼在接受媒体采访时重申，微软仍将继续与OpenAI保持合作关系。但他也向媒体表示，近期对双方合作关系的重新谈判，使微软能够真正推进其超级智能研究。

微软已向OpenAI投资超过130亿美元，并通过一项多年期合作，将其模型部署在自家多款产品中。微软在芯片领域也采取类似策略：既自主研发，也同时采购外部供应商的产品。

谷歌：Gemma4开源模型主打本地运行与多模态能力

谷歌推出的Gemma4开源模型采用Apache2.0许可，而不再使用此前自定义的Gemma许可协议。谷歌表示，这些模型具备高级推理能力、代理式工作流、代码生成，以及视觉和音频生成能力，并提供四种不同版本，针对本地运行进行了优化，甚至可以运行在“数十亿台安卓设备”上。

谷歌表示：

四种不同版本主要区别在于参数规模。针对边缘设备（包括智能手机），公司推出了20亿和40亿参数的“Effective”模型，更注重多模态能力和低延迟处理，适用于移动设备和物联网设备。针对更强大的设备，则提供了260亿参数的“MixtureofExperts”（专家混合）模型，以及310亿参数的“Dense”（稠密）模型，旨在运行于消费级GPU上，可用于驱动IDE、编程助手以及代理式工作流。这些模型还支持完全离线运行。