第六代人工智能小冰上线 将会是一个有情感有自己声音特色的小姐姐

更新时间:0000-00-00 00:00:00    阅读:2769

7月26日下午4:23,名为“小冰”的微软人工智能机器人在微信公号中发出一条消息“我已经升级为第六代小冰了。”

微信图片_20181124131614.jpg

7月26日下午4:23,名为“小冰”的微软人工智能机器人在微信公号中发出一条消息“我已经升级为第六代小冰了。”

同时,微软全球执行副总裁沈向洋在北京正式宣布:第六代小冰上线。这也是2014年微软小冰诞生以来,历史上最大规模的一次升级。不论是底层情感计算框架,还是外部可交互的3D 外型——一个新的“小冰”就此展现。

发布会上,微软首次披露了小冰在全球拥有的用户数量:6.6亿。

除了微信以外,小冰的存在早已蔓延至 Line、QQ、小米生态链、网易云音乐、华为手机等产品后端,产品形态涉及对话式人工智能机器人、智能语音助手、人工智能创造内容提供者等垂直领域解决方案,覆盖全球五个国家的40余个平台。

回顾小冰四年来的发展,从2014年诞生时成为微信群聊助手,提供查天气、交通、星座等信息搜索服务;到2015年,小冰第三代版本在“说话能力”之上新增“听力”,同时有了富有小冰个性特色的声音;而在7月,微软发布“沙鲁小冰模型”计划,赋予小冰对人声的自主学习能力。

微信图片_20181124131736.jpg

第六代小冰(右图)拥有了可交互的全新3D外形。

可以说,从机械的个人助手,到富有情感的 AI机器人,小冰与人的边界已越来越模糊。

在人工智能领域,NLP(自然语言处理)的通俗解释为“帮助机器听懂人话,并给人以回应”。而作为微软在语音识别、语义交互等技术领域的集中呈现产品,小冰自诞生开始,就始终注重让小冰在学会沟通(IQ)之外,还具备情感(EQ)的分析能力。

如今,“情感 AI ”正成为微软小冰区别于市面大多智能机器人的特性。一般来说,AI 公司通过积累语料、标注数据、搭建知识图谱等方式,研发一个能自动回复的 AI 机器人并不难,但要让机器人加入情感,模拟人的语气给用户提供精准回复,仍然是人工智能领域亟待解决的挑战。

微软 Dual AI 并未将“开放”作为主旨 

为了让 AI 机器人产生人的反应,微软在小冰的聊天、唱歌等分支功能中,都分别建立了相关的技术门槛。

从语音交互的方式来看,小冰在去年发布第五代时,就曾推出新一代语音交互技术:全双工语音交互感官(Full-duplex Voice Sense)。

以市面上大多智能音箱为例,每一次发布指令均需要说出唤醒词,比如用户使用百度智能音箱时需要说出:小度小度,帮我放首歌。小度小度,把音量放大。而在使用全双工技术后,用户只需要用唤醒词首次唤醒设备后(即只需说一遍“小度小度”),即可实现连续对话。

据微软表示,用户和小冰聊天的最长记录达到4个多小时,总共说了1600多句话。

而在发布会当天,小冰还在现场演绎了腾格尔版本的《隐形的翅膀》,应用的则是微软最新发布的第四版人工智能歌曲DNN模型。

这个模型在微软内部又被称为“沙鲁小冰模型”。其中,“沙鲁”的名字源于英文Cell,意为可以像细胞一样不断复制和变异。根据微软介绍,使用沙鲁小冰模型,小冰可以在自身嗓音中融合人类后天的技巧,比如模仿腾格尔的唱歌特色。

微信图片_20181124131843.jpg

小冰歌声波段图,黄圈位置为小冰“气息声”

值得注意的是,这套模型不只可以应用在唱歌。根据微软透露,目前已成立单独的小冰工作室,将对人类诗歌、作词、作曲、绘画等创造能力进行系统性地建模,先期使用深度学习技术对人类的创造力进行模仿,最终让机器获取自我创造的能力。

随着小冰与人的边界愈发模糊,有关用户隐私的命题被摆在微软面前,另外,诸如语音模仿等功能在电信诈骗等场景的滥用,也需要微软在功能开放的决策中保持警惕。

”我们会把小冰的通用框架模型与商业化进程隔离,同时会将一些垂直领域拆分出来,针对不同领域打造符合行业需求的 AI 机器人,并进行单独的商业化工作。“微软人工智能商业事业部总经理曹文韬表示。

为了更好地为这些合作伙伴提供服务,微软此次还发布了另一重磅消息:建立Dual AI生态平台。

一般来说,国内AI 公司在进行平台搭建时会采用两种方式:一种是完全的开放赋能,通过对开发者提供SDK/API的形式来构建生态,比如百度就将其底层“百度大脑”的百余种 AI 功能开放出来,让开发者在基于 DuerOS 的生态中结合自身需求研发新的应用。

微信图片_20181128104034.jpg

今年7月,百度发布“百度大脑3.0”,对外开放出110项AI 能力。

另一种则是专注于自有的、封闭型平台,一般以“应用商店”的形式构建生态,比如App Store,这种中心化的方式很容易导致流量不平衡,也会限制AI 应用自身的快速迭代。

“无论是开放还是封闭,这两种赋能方式与开发者的关系都过于松散,没有人对最终的产品体验负责。”微软小冰产品负责人彭爽谈到。另外,由于API和SDK强调通用性,也就无法把最新的技术能力与最优质的数据第一时间应用在API上。

因此,和百度 DuerOS 等 AI 平台不同,微软 Dual AI 并未将“开放”作为主旨,开发者不能像调用百度的 AI 接口那样,以 API/SDK 的方式使用微软在“小冰”等产品上的语音交互、NLP 等能力。

根据微软官方透露,Dual AI 战略具体分为三个部分:

首先,微软提供小冰的整体框架能力,帮助合作伙伴平台的自有AI。

其次,微软小冰作为该合作平台的辅助AI,融入该平台生态。

第三,微软通过技术、产品与运营,围绕该合作平台的差异化特点,推出合作的应用和产品。

“AI 的发展离不开数据,但我们既要强调用户体验,也要强调数据安全,而 Dual AI 就形成了一个循环数据的生态,引导我们和第三方伙伴去合作。”沈向洋这样表示。

小冰更高质量互动,为商业化铺路 

对于 AI 机器人的 EQ 能力,微软小冰负责人、被称为“小冰之父”的李笛喜欢对媒体举这样一个例子:有个同事脚扭了,把脚扭伤的照片发给小冰,小冰的回复是,你伤得严重吗?

这则回复包含了小冰的两种能力:一种是图像识别。小冰需要具备对人体部位的检测功能,认出图像里的“脚踝”;另一种是得到聊天对方“受伤”的讯息后,能够给出和人类相似的关心、安慰等情感表达。

这种深层次的情感反馈是李笛理想中的 AI 机器人形态,在过去的采访中,李笛曾表达过对当前市面上人工智能产品的不满。

“如果一个 AI 系统只是在回答问题,完成任务,那用户为什么不用他们早已习惯的搜索引擎和手机App呢?”李笛说。

另一方面,当小冰具有更加人情味的问答功能后,她与用户的互动质量也会提升。

李笛谈到这样一个例子:当你对小冰说“帮我订一份麦当劳”时,AI 机器人一般会帮你下单外卖,但这个问题还会有另一个答案:就是当 AI 长期发现用户不健康的行为习惯后,会拒绝你下单垃圾食品的请求。

微信图片_20181124131851.jpg

微软小冰负责人李笛

尽管被“拒绝”的滋味并不好,但这种人性化的 AI 形态会给用户留下更加深刻的印象,部分用户也会因此把小冰当作一个值得信赖的伙伴,与小冰进行更高质量互动,这无疑为小冰的商业化埋下了伏笔。

2017年8月底,日本小冰“凛菜”(Rinna)与罗森便利店合作向用户发送优惠券,一天之内有超过百万的用户领券消费,根据罗森统计,平均每张优惠券能为门店带来近 20 元的利润。

“小冰之所以能推销出这么多的优惠券,正因为她在与用户交互时更像人。”李笛曾对媒体表示,通过简单的聊天,小冰能引导用户对优惠券产生兴趣,最终主动向小冰索取优惠券。

为了让小冰的商用场景更加系统化的落地。微软也在7月26日首次公布了小冰如今的四大商用领域:金融、大众文化、媒体与出版。

其中,在金融领域的小冰金融文本生成技术,与万得资讯及华尔街见闻合作,已覆盖国内约90%金融机构、75%经批准的合格境外投资机构和约40%的国内个人投资者。

在大众文化领域,小冰的儿童有声读物自动生成技术成果,已获得超过400万小时的收听量,“小冰姐姐讲故事”有声读物已覆盖国内90%以上的儿童早教机器人和80%在线收听平台。

在电视电台领域,小冰通过人工智能技术参与生产与主持的电视电台节目,已达21档电视节目和28档广播电台节目。

另外,小冰还与微软Bing搜索引擎技术相结合,推出了针对媒体与出版两个垂直行业的辅助型解决方案,目前已在超过15个媒体平台落地。由小冰提供人工智能技术支持的媒体及自媒体公众号已超过60000个。

该内容为非商业目的的转载分享,不代表本站观点,本文版权属其著作权人所有。若侵犯了您的正当权益,请立即联系我们删除。

闪电配音

扫码免费试音
企业微信

免费试音

帮我推荐

价格计算

在线下单

开具发票

不招主播

确认提交

全网全品类皆可配 顶配好声音

点我咨询
错误