目前国内外有多个大模型可以生成歌曲,国内有字节跳动海绵音乐、昆仑万维天工SkyMusic、趣丸科技天谱乐等,国外有Suno等,它们各有亮点,比如天工SkyMusic可生成80秒高质量歌曲且开源技术架构,Suno可生成长达4分钟的完整歌曲。
大模型生成歌曲的技术原理主要分为符号音乐生成路线和大模型音乐音频生成路线,后者直接学习生成音频波形,能将乐器、人声、旋律等元素“一锅出”,但需要大量研发投入。如昆仑万维的天工SkyMusic采用Encoder、DiT和Decoder三个模块,基于自研类Sora模型架构,由Large-scale Transformer负责谱曲,Diffusion Transformer负责演唱,实现高质量歌曲生成。
在生成歌曲的操作上,多数模型都很便捷。天工SkyMusic集成到天工APP,只需填写歌词(300字内)、选择参考曲目,再点击生成,就能一次得到3个不同版本,且时长未来还会开放到3分钟。字节跳动海绵音乐只需输入灵感或上传图片就能生成符合国人喜好、吐字清晰的中文歌曲。
从生成效果看,这些模型各有优势。Suno V4可生成音质更高、时长达4分钟的歌曲,接近完整歌曲创作;天工SkyMusic在中文咬字、情绪表达上表现出色,还能基于《道德经》等内容创作独特音乐;趣丸科技的天谱乐具备多模态能力,支持文生音乐、图片视频生成音乐。
音乐大模型的应用场景广泛,能帮助普通用户体验音乐创作乐趣,4600万人已注册使用相关App创作近1000万首歌曲;也能辅助专业音乐人提升效率、短视频创作者制作配乐。不过,其推广也面临挑战,如版权问题,多家唱片公司对部分公司发起诉讼,同时音乐创意和情感的实现能力、演唱者声音与真人的差距等也需改进。未来随着技术的不断发展,大模型生成歌曲将带来更多可能性。