Mobile Menu Will Come Here.
返回列表
纽约大学团队仅靠对话设计芯片,OpenAI表示将打造新款LLM
发布者:admin发布时间:2023-08-14 18:05:22


、18日(美国当地时间17日),Meta推出突破性文本转语音的AI工具Voicebox,可以合成六种语言的语音,执行降噪、内容编辑、转换音频风格等。Meta称其为目前通用性最高的语音生成AI,比相仿模型快20倍。根据Meta的说法,Voicebox是全球首个没有经过专门针对某种语音生成的训练,却可以泛化到多种语音生成任务的模型。之前生成语音的AI都需要使用精心准备的训练数据对每项任务进行特定训练,而现在Voicebox仅需要从原始音频和随附的转录文本中学习,并且Voicebox可以修改给定样本的任何部分。论文地址:

点评:目前市面上语音合成器并不罕见,但一大主要局限是它们的训练数据都是针对特定任务准备的。而且这些输入基本都要求是单调且干净的数据,获取成本较高且数量有限,用这些数据训练出的模型最终也只能输出单调的声音。Meta表示,虽然Voicebox作为首个能成功执行多任务多功能的高效模型,将开创一个语音生成式AI的新时代,但也不能否认这项技术可能被误用乃至被恶意使用。Voicebox走出了生成式AI研究的重要一步,它将催生出涉及文本、图像和视频生成的实际应用,这将让生成式AI更上一层楼。