能让一个电竞选手|7×24小时无间断合成有声书，语音AI能让有声内容生产成本降低多少？

7×24小时无间断合成有声书，语音AI能让有声内容生产成本降低多少？

2019-10-15 18:06:40 作者：佚名

原标题：7×24小时无间断合成有声书，语音AI能让有声内容生产成本降低多少？

“随时随地，想听就听”这种便利的知识获取途径，制作成本有多大？

有声读物正在悄然兴起，但制作一本有声读物成本并不低，最大的瓶颈就在“人”上。而与之相对应的，高昂的制作成本也令有声读物的总量发展缓慢。

对于普通消费者，有声读物仅仅是一种新的内容方式，但对于视障群体，有声内容更有着特殊的含义。因此，如何低成本高质量持续输出有声读物，成为了微软语音AI团队与中国最大的视力障碍人群公益组织—红丹丹研究的重要课题之一。

“通过TTS合成方式，可以7*24小时无间断合成，只要在输入端读取文本内容，便可源源不断地输出相应的有声内容，打破了传统有声内容生产局限性壁垒。这对于视障群体有着特别的意义，要知道市面上有声书的数量是远远少于文本数量，于这一方面，我们利用文本转制成有声自动化技术，可以极大丰富这一群体有声阅读的资料来源。”

日前，钛媒体采访了微软语音AI和红丹丹团队，微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公对钛媒体道出了微软语音AI的技术优势。

而就在今天，恰逢国际盲人节（10月15日），微软语音AI团队及红丹丹的有声读物作品“晓晓合成有声书”也已经上传至云端有声读书馆“心目图书馆”，在小程序中便可旋即打开使用。

微信搜索“心目图书馆”即能搜索到该小程序。目前，朗读者为微软晓晓的有声图书已经上线。钛媒体在体验过程中发现，晓晓阅读语音语调基本与真人无异，十分自然亲切。

TTS技术的蝴蝶效应

从某种程度上来分析，技术的优势往往会转换到成本节省层面上来。

过去一百页的纸制书，对视障群体来说，要转化成既定的产品形态则要四五百页，这就需要近百元的制作成本，还不包括邮费。而有声书制成后只需通过云端传送便可无限量传播，这是节省的第一个维度，即产品的复用层面。

另一方面，对于一些将文本内容录制成有声书的专业录音公司，往往会受到时间、空间的限制，缘由需要找到相关的录音人士和录音棚，中间花费的时间较长，举个简单的例子，当需要录制高质量声音时也就是市面上的精品图书，可能半天才能录制几百句话。

针对上述方面，微软语音AI通过TTS合成技术和通过算法集成的AI语音输出模型，有声书的制作时间得以大幅度缩减。

成本缩减维度具体而言则分为以下两种情况，一种是提供实时的合成，基本上实现了毫秒量级反馈，一般用于智能对话、助理等场景。另一种则是非实时的合成场景，以一整本有声书的长文本合成为例，时间维度上大概需要音频时长的1/3。

问及TTS的区别所在以及其特点是，丁秉公强调到，TTS和ASR两个技术可以做类比，比方说在ASR可以用到语言模型，而在TTS里面也有类似的模型承担类似的角色，而随着TTS的声音变得愈加自然，也在反哺ASR前进的步伐。这其实也是非常热门的领域，微软在训练识别的时，有几个相对困难的地方，例如如何去收集、识别该类数据？如何用TTS合成的声音来模拟现实中产生语音场景？

值得一提的是，考虑至产品使用的便捷性，晓晓合成有声书已于10月15日国际盲人节上传至心目图书馆，在小程序中便可旋即打开使用。

优势来源于需求的累积

微软大中华区公益事务总监王岭向钛媒体介绍到，微软和红丹丹的合作可以追溯至2006年，从一开始的简单志愿者服务，比如说给视障人士讲述电影、维护电脑，恰逢云技术的兴起，微软利用其擅长的语音技术，将图书馆从线下搬到线上，与红丹丹携手打造云端的心目图书馆。截至目前，心目图书馆已覆盖全国105所视障人士学校。

需要说明的是，不同2014年刚建云端有声图书馆时，眼下市面有声资源获取变得极为方便。意欲做出特点，除了技术性优势，对群体的需求把控也十分关键。

对于视障人士来说，更多的需求往往是学习类或者成长类的产品，市场上往往是空缺的。举个简单的例子，对于参加法律考试或者公务员考试的群体来说，在市面上很难买到该类的有声教材，这便是微软和红丹丹的机会。

对于一本有声读物而言，阅读效果的好坏是至关重要。

凭借早期积累的大量视障人士的需求反馈，比如说阅读速度、情感层面，微软和红丹丹联合打造的有声书已经能做到像真人在朗读，而不是过去冷冰冰的机器声音，更易于用户对场景的代入。

而在现场演示环节，钛媒体观察到微软和红丹丹联合打造的有声书可以结合新闻、情感故事、助理、客服、历史、歌唱等不同故事面，甚至在中英混合的文本中，Twitter和PC等单词也可以说得很自然。“这里则要运用到深度神经网络来进行混合计算，最终完成合成的无缝切换。无缝切换至不同风格，这便是技术扎根于场景的表现。”

那么，不同类型的文章用不同情绪读，微软的AI语音是如何做到的？

微软亚洲互联网工程院语音组产品经理、微软人工智能女声晓晓语音产品负责人刘越颖向钛媒体介绍了其中的原理：

“就目前而言，我们已经能够提供不同风格的演绎，但因为人工智能对整个篇章的理解还没有达到能像人一样去理解整个段落或者整个篇章所想表述的，所以我们选择通过标记来辅助实现不同的声音类型的选择。举个简单的例子，人工智能通过上下文理解自动打下标记，让机器知晓文章的类型是什么，继而选择不同的情绪反馈给用户。所以我们现在首要任务，也是最重要的一步，就是把这些文章的类型先定义出来。”

谈及眼下语音技术在和盲文书籍合成过程中需要改进的方面时，丁秉公对钛媒体表示到：

在书籍合成时，对上下文和篇章的理解，往往是非常棘手的问题。人们在阅读一篇文章时，其实已经对这篇文章进行了分析，题目、对话应该用什么样的情感去表述，这都是根植于人们的大脑内部，可以自然地解构。但，计算机并不是人，我们所面临的最大难点还是在于自然语言理解或者篇章理解的方向。

“眼下微软AI语音还是一步一个脚印，一方面先把声音本身做好，比如说通过语音声音的方式把不同的情感力度表现出来；另一方面，本着科技向善和普惠的愿景，微软希望和红丹丹就公益层面的合作进展要更加落地，跟本地社区结合更加紧密。”（本文首发钛媒体，作者/桑明强，编辑/赵宇航）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App游戏网

责任编辑：

游戏中心	手机游戏	app大全	单机游戏
网络游戏	网页游戏	手机网游
新闻中心	网游新闻	手游新闻	单机新闻
原创栏目	综合热点	实用问答	专题文章
图片中心	美女图片	爆笑图	二次元
网游图片	单机图片	手游图片
视频中心	单机视频	手游视频	网游视频
视频综合	游戏赛事
攻略中心	单机攻略	手游攻略	网游攻略
爆料中心	娱乐八卦	新鲜事	国内新闻
评测中心	单机评测	手游评测	网游评测
子站导航
234游戏网	234问答	234游戏论坛	vr频道
问答2	问答3

投资5万仅拿到1千分红，众筹并没能让他们“报复平庸”

《恋恋江湖》制片人穆雪峰：能让观众找到共鸣感很重要

41岁的能让小13岁奶狗死心塌地，真人比杨洋还帅，又一个萧亚轩！_刘迦

只用一张图，就能让二次元老婆动起来，宛如3D：这全是为了科学啊_模型

能让怪盗基德受伤的女孩，仅此一位，还是远程攻击！_柯南

这个能让杰洛特吹一辈子动图这透视装只恨背景光线不够！

LPL引援大手笔小花生能让LGD快乐吗

特朗普威逼利诱，能让“苹果制造”重返美国？

关系付费盘活私域流量，会员经济能让微博摆脱广告依赖吗？

能让男人这么安静，又这么耐心的等待只有_段子

能让男人这么安静，又这么耐心的等待只有_兄弟

这英雄重做又成AD去质器，不用6级，两级就能让AD当场去世？

那张能让美少女胸部动起来的图，现在还有人在继续玩_图片

孙正义：从WeWork吸取了教训，不能让创始人控制董事会

哪些准备姿势，能让手游在出海赛道上跑得更快更稳？_游戏

线下实体商家，怎么做营销活动，才能让业绩倍增

荣立一等功！谭斌：不能让2104战车在我面前沉掉

美妆类三榜｜“孟美岐＋李汶翰”的流量包能让品牌跃升28个位置吗？_欧诗漫

能让队伍成为整体解说猫猫声援Doinb

FNC中单再引争议解说猫猫声援Doinb：他能让队伍成为SuperCarry_英雄

FNC中单再引争议解说猫猫声援Doinb：他能让队伍成为SuperCarry

魔兽世界：怀旧服中不爱与人交流，怎么玩才能让装备不落后于人

单次付费能让百度网盘走出“商业困境”吗？

是什么样的办公应用，能让知乎和三节课同时看中？

CBA新政出台改革再提速，这次的改变能让联赛助推国家队吗

演技类综艺扎堆“最佳辩手”郭敬明能让这档节目笑到最后吗？

狼人杀交友联盟|什么神奇魔法，能让5500公里变为0距离？

作家小白：以虚构故事介入现实生活，言语能让事情成真

武则天“禁屠”趣事：如何能让老百姓不吃肉

巩俐为何没人敢黑？因为她的实力能让所有人闭嘴

凌潇肃发福仍能让唐一菲迷妹般凝视，与姚晨时期女强男弱鲜明对比

动漫最美配角是谁？铁小路第一实锤，她能让女主直接下跪！

遇到了能让人少活十年，说一说在联盟中最令人抓狂的“孤儿”行为

雨露均沾做音频增量，荔枝“回声计划”能让播客挖到宝？

能让陈冠希再次回归？！EVISU这波也太值得细品了

单身狗的福音！能让女性心动的几大场景，这撩妹技术谁能扛得住！_日本

中国工程院院士邬贺铨：5G才能让自动驾驶真正实现_演讲

大家都在搜