中国移动的“九天”大模型在语音技术领域实现了多项国际领先的突破,包括全双工语音交互、多方言翻译与重口音识别、百万级声纹模型构建,以及语音合成技术斩获全球顶级赛事冠军。这些技术不仅提升了人机交互的自然度,更在复杂场景下展现了卓越的稳定性和适应性。
- 全双工语音交互:九天语音大模型支持用户随时打断对话仍能保持上下文连贯性,精准识别意图与情绪,并生成个性化回复。这一技术已应用于智能客服系统,日均处理超500万通电话,显著提升服务效率。
- 多方言与复杂场景适配:模型融合了八大方言区的语音数据,可完成方言翻译和重口音识别,即使在多说话人重叠、跨设备远场等复杂环境下仍能准确解析语音内容。
- 百万级声纹识别:通过生成式架构统一语音任务,九天构建了业界首个百万级说话人声纹模型,在INTERSPEECH2024语音离散表征挑战赛中夺得声码器赛道第一名,技术指标达国际顶尖水平。
- 语音合成与增强:采用多任务统一框架,模型生成的语音拟真度高、情感表现力强,已通过国家网信办算法备案,并应用于智能会议系统等产品,实现高拟人化语音输出。
中国移动通过语音大模型的技术突破,正推动智能终端、客服系统、会议工具等场景的体验升级。未来,随着端云协同架构的深化,这些能力将进一步普惠至千行百业,重塑人机交互的边界。