豆包可以通过内置的"声音复刻"功能模仿用户的声音,只需录制20句标准语音即可生成个性化音色。该技术基于深度神经网络,支持实时变声和语音合成,适用于聊天、配音等场景。
-
功能入口
在豆包APP「我的」-「声音实验室」中找到「创建我的声音」,需登录百度账号并完成实名认证。iOS/Android客户端均支持,网页端暂不可用。 -
录制要求
• 安静环境用普通话朗读系统提供的20句话(如"今天天气真好")
• 每句间隔1秒,总时长约3分钟
• 避免咳嗽、呼吸声等杂音,建议使用耳机麦克风 -
技术原理
采用Encoder-Speaker合成框架:- 声纹编码器提取音色特征
- 梅尔频谱解码器重建语音波形
- 通过对抗训练消除机械感,相似度可达85%+
-
应用场景
• 智能聊天:用自己声音与AI对话
• 语音包制作:生成有声书/视频配音
• 趣味变声:实时调节音调/语速参数 -
注意事项
- 生成的音色模型仅存储7天,需手动保存
- 不支持方言/外语模仿
- 商业用途需额外授权
目前单账号可存储3种音色,建议在WiFi环境下使用以避免流量消耗。若出现合成卡顿,可尝试降低「音质优先」模式为「流畅优先」。