原标题:OpenAI打造AI“百变歌姬”!训练120万首歌曲,化身猫王布兰妮
智东西(公众号:zhidxcom)编 | 董温淑
智东西5月6日消息,近日,非营利人工智能研究组织OpenAI利用神经网络研发出一款“自动点唱机”——Jukebox。无论是摇滚、Hip-Hop还是爵士,Jukebox都能毫无压力地生成相应风格的音乐。
相较之前的音乐生成工具,Jukebox能精准捕捉到人类的声音以及更微妙的音色、力度和表现力等特征,只要输入流派、艺术家和歌词,就能生成相应风格的高仿真音乐或歌声。
这项研究发表在OpenAI官网上,论文标题为《Jukebox:一个音乐生成模型(Jukebox: A Generative Model for Music)》
GitHub代码:https://github.com/openai/jukebox/
论文链接:https://cdn.openai.com/papers/jukebox.pdf
一、音频序列较长,建模十分困难
对自动生成音乐的探索可以追溯到半个多世纪之前。
一种典型方法是钢琴卷帘(Piano Roll),即通过指定要每个音符的演奏乐器、音高、时间和速度,象征性地用自动钢琴琴键弹奏的方式来产生音乐。
曾有研究者用这种音乐生成方法生成1分钟长的巴赫合唱、多乐器演奏复调音乐、以及数分钟长的音乐作品。
不过,这种按单个音符生成音乐的方法有局限性,无法捕捉人类的声音及更微妙的音色、力度和表现力等特征,而这些特征对于演奏的效果十分重要。
还有一种方法是直接将音乐建模成原始音频。相比于对音符建模,在音频级别上生成音乐更加困难。
这是因为音频级别的音乐拥有更长的序列。比如,一首典型的4分钟长的CD品质(44kHz,16-bit)音乐,就有超过1000万个时间步长(timestep)。
1000万是什么概念?要知道,OpenAI参数量高达15亿的通用语言模型GPT-2只有1000个时间步长,完虐Dota 2人类选手的OpenAI Five每场比赛也仅耗费数万个时间步长。
因此,要学习音乐的高级语义,模型需引入长时记忆(long-range dependency)关系,以生成时间更长、结构更多样、音色更多元的音频。
解决长输入问题的一种方法是使用自动编码器,通过舍弃一些在感知上不相关的信息位,将原始音频压缩到较低维度的空间,然后训练模型在此压缩空间中生成音频,并通过上采样最终回到原始音频空间,最终生成与预期风格相近的音乐。
二、用120万首歌曲训练!跟布兰妮和席琳·迪翁学流行音乐
研究人员选用分层VQ-VAE模型(hierarchical VQ-VAE architecture)来压缩原始音频,再用一个自回归稀疏Transformer来预测音乐,同时训练一个自回归上采样算法来重现每个层次中丢失的信息。
1、压缩原始音频
之前的研究证明,分层VQ-VAE模型可以生成高保真图像。OpenAI研究人员认为,可以借助这一模型来把原始音频压缩为离散的代码。
研究人员从3个不同的抽象层次为原始音频建模,每个VQ-VAE层次独立编码输入,底层编码产生最高质量的重构,顶层编码只保留基本的音乐信息。在每一层,利用WaveNet式非因果关系1-D扩张卷积组成的残差网络,交织下采样和上采样1-D卷积,以此匹配不同的跳跃长度。
三个层次分别将44kHz的原始音频按照8x、32x、128x压缩,每个层次的码本大小(codebook size)为2048。
通过这种降采样方法生成的音频损失了大部分的细节,当进一步降低音量时会出现明显的噪声。但是,它保留了关于音调、音色和音量的基本信息。
2、生成音乐代码
接下来,研究人员用一个简化的自回归稀疏Transformer训练模型,使模型学习VQ-VAE模型编码的音乐代码的分布,并使模型在这个离散的空间中产生音乐。
同样地,研究人员也从3个层次建模:1个顶层的先验模型,可以生成最多的压缩代码;两个上采样先验模型,生成较少的压缩代码。
顶层先验模型模拟音乐的长期结构(long-range structure),从这一层次解码的样本音频质量较低,但是能捕捉到歌唱、旋律等高级语义。
中层和底层的上采样先验模型可以模拟出音色等特征,显著提升音质。
一旦所有的先验模型都经过训练,研究人员就可以从顶层先验模型生成代码,并用上采样先验模型对代码进行上采样,再用VQ-VAE解码器将代码解码为原始音频。
3、用120万首歌曲进行训练
模型搭建好后,研究人员从网络上搜集了120万首歌曲(其中半数为英文歌曲)对其进行训练,还引入了歌词百科LyricWiki中的歌词和元数据提升训练效果。
元数据包括艺术家、专辑风格、歌曲年份、每首歌表达的常见情绪和播放列表关键字等。研究人员用32-bit,44.1kHz的原始音频进行训练。除了原始音频,研究人员还通过随机向下混合左右声道产生单声道音频来加强训练效果。
为了使生成的音乐效果更好,研究人员指定了生成歌曲的歌手和艺术风格。训练结果显示,模型可以在无监督方式下将风格相似的艺术家或流派分为一类。
模型将120万首歌曲及音乐家等数据分类为雷鬼音乐、乡村音乐、电影原声带、古典音乐、POP、爵士乐、布鲁斯音乐、灵魂乐、摇滚乐、Hip-Hop和R&B等。
为了使歌词与音频相匹配,研究人员设计了一个简单的方案:训练时,为每个字符设置一个固定播放时长的窗口,随着音乐持续,歌词字符按时间顺序播放。
训练结果显示,借助这一方案,大部分歌词都能与音频相匹配,除了语速较快的Hip-Hop音乐。
为了解决这一问题,研究人员使用音轨分离软件Spleeter从每首歌曲中提取人声,再用自动歌词排列工具NUS AutoLyricsAlign为提取出的人声实现单词级别的匹配,以此达到精确的歌词匹配效果。
▲模型对抒情歌词的匹配情况
三、局限性:无法生成合唱音乐
尽管Jukebox能够生成各种流派和艺术风格的音乐,提升了自动生成音频的音质、连贯性和长度,但它还有一些局限性。
首先,Jukebox生成的音乐与人类创造的音乐间还存在较大差距。比如,虽然Jukebox能够生成效果很好的独唱音乐,但它目前还无法生成合唱等结构更加复杂的音乐。
研究人员称,改进分层VQ-VAE模型、使其能够捕捉更多的音乐信息可以改善这个缺陷。
其次,Jukebox的采样速度也很慢,渲染1分钟的音乐需要花费约9个小时,因此Jukebox还不能用于交互式应用程序。
论文指出,将模型提取到并行采样器(parallel sampler)中可以提升采样速度。
另外,目前模型主要采用用英文歌词、西方音乐进行训练,还未生成更多语种的歌曲。
研究人员认为,尽管目前Jukebox模型还无法直接用于音乐创作,但在未来,Jukebox或可在音乐家的创作过程中提供辅助。
论文中还指出,目前OpenAI团队已经与10位音乐家进行了沟通,希望后者为研究人员提供反馈。
结语:或可用于简化音乐创作流程
相比于之前的音乐生成模型,OpenAI团队研发的Jukebox模型有很大进步,可以自动生成高度仿真的人类歌声音频,而且生成的内容涵盖各种音乐流派。
在未来,Jukebox或可用于简化音乐创作流程,帮助更多人实现音乐梦想。论文中写道:“许多怀抱音乐梦想的人并没有机会接受专业训练,因此我们认为它(Jukebox)将会成为人类音乐家的重要工具。”
文章来源:OpenAI游戏网
相关下载 |
猫王,轻功甚是了得!! 编辑 当到了结婚的年纪,这种玩闹或许是一种奢侈吧 编辑 孩子这漂移车技真厉害,长大一定是个老司机 编辑 随机抽取一名幸运详情>>
原标题:打开视频,闭上眼睛,听猫王写给加菲的信 武汉金银潭医院 重症病房一名患者 在前期治疗过程中 一直情绪不好 很焦虑 于是他的妻子给他写了几封详情>>
原标题:好物│猫王唱机搭轻奢珠宝,给你不出错的圣诞礼 轻奢珠宝与格调唱机“牵手”,为你共同开启圣诞惊喜。而最古老的香氛品牌,又将带来什么样的节日详情>>
原标题:21岁澳大利亚女演员加盟猫王传记片,饰演猫王妻子 新京报讯 据外媒报道,巴兹·鲁曼执导的猫王传记片于近日确定了饰演猫王妻子普瑞希拉·普雷详情>>
原标题:巴兹·鲁赫曼新片定演员 德容格有望饰猫王妻子 1905电影网讯歌舞片导演名下的未定名猫王传记片,于近日确定了女主角。来自澳大利亚墨尔本的详情>>
原标题:用情怀卖出 200 万台音箱后,猫王进军耳机市场 上个世纪 70-80 年代,美国经济萧条,房地产价值大幅缩水,纽约布朗克斯区房子被大量弃置。在这片「详情>>
原标题:震中杯Major梗知道:米德旺、Ana谁才是火猫王? 震中杯Major赛程过半,四支战队已经被淘汰出局,其中不乏EG这样的强队。而今天,四轮BO3将再淘汰四支队伍。 xiao8详情>>
下载游戏摇滚猫王图鉴获得方式1.集齐50个摇滚猫王碎详情>>
随着腾讯TGC2019今日在成都启幕,《王者荣耀》设立的“峡谷开放日”展区也将在TGC的IP主题展区与各位玩家见面。 “峡谷开放日”以合家欢式体验详情>>
随着腾讯TGC2019今日在成都启幕,《王者荣耀》设立的“峡谷开放日”展区也将在TGC的IP主题展区与各位玩家见面。“峡谷开放日”以合家欢式体验展的形式,打破不同玩家之间的次元隔阂,让所有观展的观众都详情>>
[Dota2] 超强土猫王JerAx 第一视角!详情>>
谁是液体最强土猫王?详情>>
“谁想要玩真正的疾病模拟?那种游戏对我们来说毫无意义。” 在美术监制GaryCarr看来,无论是最初的《主题医院》,还是详情>>
大家吼,水母又和大家见面了。前言:8月17日,一场主题为“致声音旅行者”的猫王收音机2018新品发布会在沙州古城敦煌召开。猫王收音机创始人兼首席产品官曾德钧携手团队,发布了两款硬件产品“猫王·旅行详情>>
在很久很久以前,我就有着一份猫王情缘,虽然玩过HIFI,家里也有中高端耳机,智能音箱等,论音质,猫王这种小蓝牙音响跟耳机比起来不占任何优势。真正吸引我的正是猫王一直以来的设计理念和精致做工,复古但又详情>>
8月17日,猫王收音机在中国丝绸之路重镇的美丽敦煌召开了主题为“致声音旅行者”的2018新品发布会,发布了不可思议的年度新品-“猫王旅行者2号”。旅行者2号搭载了CES创新大奖OhPlay猫王详情>>
终于拔草了,复古绿的猫王旅行者2号,我人生的第一个猫王,颜值太高,决定安利给你们。#猫王##复古##音箱##生活##好物##小清新##文艺#始于颜值,陷于才华,迷于声音,醉于深情。双性别:音箱和收音详情>>
前言随着移动互联网的发展,数字电台APP成为很多人更习惯的听广播方式,传统收音机已经很少出现在我们生活中。不过,就在近两年,一个叫“猫王”的品牌出现,又将收音机带回我们身边,并且为我们的音乐世界带详情>>
对于音乐发烧友来说,耳机、音箱都是他们新奇猎物的对象。说起猫王,复古收音机的潮流设计是我最初的印象。现在蓝牙音箱、智能音箱、WiFi音箱各种花样引入眼帘,猫王一直坚守“收音机”这条复古路线,在产品设详情>>
最紧张刺激的环节!决赛圈仅剩两人,撸猫王用SKS成功爆头吃鸡!详情>>
2016年12月12日,猫王在北京三里屯3.3大厦6层Callus硬茧举办了新品猫王小王子OTR音箱的首发发布会。该次发布会一改以往传统发布会“一本正经”的既定印象,从布展... 详情>>
不管是走在大街上,还是静坐在咖啡馆,每当看到一些复古的摆件时,总会不自觉的被带回到过去的旧时光中。收音机,是60后、70后甚至80后小时候记忆中印象中比较深刻的物件,上世纪60~70年代,人们梦寐以详情>>
OG战队在今年并不是很顺利,在赛季末他们连续失去了两位大将Fly和S4,之后大爹N0tail转到了五号位详情>>
前言:QQ炫舞正式公测2008年5月22日,转眼间十年过去了,敢问一款游戏能玩十年的有几个?个人认为屈指可数,难得的是,这次QQ炫舞十周年特别与猫王收音机合作发布了一款“QQ炫舞X猫王小王子”新品—详情>>
说到猫王收音机想必很多人都有所了解,就算不了解也没事。之前我有一个猫王收音机OTR骑士黑,其小巧的体积以及比较精致的做工还是很招人喜欢的。后来同事在我的桌子上看到那款猫王收音机OTR骑士黑,表示非常详情>>
热门搜索 LPL2017 LCK2017 lol dota2 英雄联盟视频 lol出装 任天堂Switch PSVR Faker视频 LOLS7天赋模拟器 DOTA2 7.00更新 DOTA2齐天大圣孙悟空 热点关注 ... 详情>>
音质,小巧,轻便,是很多人入手猫王小王子收音机的第一感觉,但是这仅仅是它的一部分,更多的,应该是选择这款收音机所代表的一种生活态度,复古而不将就的个性。笔者入手的是一款紫色的小王子,网上很多人喜欢叫详情>>
清晨,微风唤醒太阳几米阳光爬上窗棂,洒满柔软的地毯少女睡眼惺忪,轻柔双眼,舒展四肢还来不及找到因半夜看着手机入睡而随意放置的眼镜便眯着眼探寻着路来到梳妆台旁一串熟练的操作,伴着猫王爱丽丝紫收音机的悠详情>>
逢年过节选一个女票喜欢的礼物,想必是多数男生头疼的事,购买者往往会在精致与实用之间两难,堪称恋爱交往的一大难题。而猫王最近和QQ炫舞十周年联名推出的猫王收音机OTR爱丽丝紫可谓是解决了这个难题。包装详情>>
这就是铁甲:四个战队强强开战贪吃蛇直逼猫王,猫王是否能反杀?详情>>
亚哥解说逆战:猫鼠大战,我的猫王太强追着老鼠狂扁一顿!详情>>
中美选手铁甲格斗大战,贪吃蛇强势攻击猫王,小撒张一山一秒看嗨详情>>
张一山战队贪吃蛇大战美国猫王!一记背摔奠定胜局!详情>>
《战争雷霆》听说你企图阻挡猫王的脚步详情>>
2018-06-21来源:游戏狗整理作者:包子逆战猫鼠厨房激战玩法教学 小耗子成群围殴猫王,今天小编为大家带来的是逆战猫鼠厨房激战玩法教学 小耗子成群围殴猫王,快来看看... 详情>>
亚哥解说逆战: 猫鼠大战, 哇 猫王被1只小老鼠搞死! 2018-05-08 15:33 ...推荐视频混沌M107评测冰火妖姬分身手枪点灭BOSS无枪塔防塔防速刷 热门视频 一... 详情>>