为什么那些牛逼哄哄的AI独角兽,在这个领域被阿

发表日期:2019-03-16 23:08 【返回】

如今,与机器视觉(CV)一样,语音识别(又称为自动语音识别Auto Speech Recognize,简称ASR)也成为落地最成功的AI技术之一。



其实,语音识别只是业界通俗的说法,理论上应统称为智能语音或AI语音,目的就是实现人机交互,其中包含了语音识别、语音合成(TTS)以及自然语言处理(Natural Language Processing,缩写作NLP)等技术。



如果说,机器视觉是让机器人“看得见”,那AI语音就是让机器“听得见”,两者是感知到认知的关键一环,即从“听到”到“说话”的理解过程。



现在,AI语音技术已在智能搜索、语音助手、机器人、智能音箱、智能汽车等领域成功实现应用,也成为科技界关注的焦点。



纵观目前全球科技领域,AI语音早已呈现出红海的态势,国内外科技巨头、初创独角兽均将矛头指向这一炙手可热的行业。



《麻省理工科技评论》认为阿里巴巴已拥有比谷歌更好的语音助手技术



然而,前不久《麻省理工科技评论》( MIT Technology Review)评选出MIT2019年“全球十大突破性技术”。其中,阿里巴巴语音AI技术成功入围,也是唯一上榜的中国科技公司。



《麻省理工科技评论》认为,阿里巴巴已拥有比谷歌更好的AI语音技术,可以完成复杂的人类对话功能,甚至可读懂人类的潜在意图。



《麻省理工科技评论》评选出的2019年全球十大突破性技术



作为全球互联网巨头,阿里在研发能力和技术储备上的实力自然毋庸置疑,但它如何在这一强手如林的领域突出重围呢?



首先,我们要先了解一下目前全球AI语音的情况。





强手林立



据CB Insights今年2月发布的报告来看,AI语音将成为下一个重要的计算平台。谷歌、亚马逊、微软、苹果及Facebook等科技巨头都在积极布局,总投资达到49亿美元。



同时,据CB Insights行业分析师的预测,AI语音的市场规模,预计将达到490亿美元,空间巨大。



各大公司在语音领域中的投资布局



其中,谷歌和亚马逊无疑是最为活跃的玩家。



目前,谷歌推出了30多种语音相关的技术。例如,在2018 年度的开发者大会(Google I/O 2018)上,谷歌通过Duplex用自然流畅的语音和电话另一头的人类完成对话,对方根本没有意识到打电话来的居然是AI。



同时,谷歌还拥有Home智能音箱、Google Assistant智能助手两大利器,都在业内处于领先。







而亚马逊的“杀手锏”则是销量始终领先的Echo系列智能音箱,同时它还凭借Alexa 智能助手逐步融入各种其他设备中,甚至微波炉、时钟、智能插头也不在话下。



此外,亚马逊还通过 Amazon Choice 进军语音和电子商务的交叉领域。



微软Cortana智能助手尽管也一度进入智能音箱领域,但难以与亚马逊和谷歌竞争,近期似乎将矛头转向为合作伙伴提供服务及商用领域。



例如,微软将Cortana融入Windows 10操作系统,并与亚马逊的Alexa形成联动,优势互补。







苹果进入AI语音领域也不晚,可惜Siri一直不尽如人意,而姗姗来迟的HomePod智能音箱也被认为不够智能,备受诟病。



Facebook同样也推出过Portal智能音箱,但也难以撼动亚马逊和谷歌的领先地位,也只得走上与亚马逊合作的道路。



在国内,除了阿里巴巴外,百度、腾讯、搜狗等传统互联网企业,以及科大讯飞、云知声、思必驰、出门问问、依图、云从等新晋独角兽均已经涉足AI语音领域。



百度和搜狗主要面向搜索,其中百度推出了DuerOS智能语音助理和开放平台,为其他智能音箱品牌和场景提供便利。



腾讯依托AI Lab的语音技术,提供开发者AI开放平台。同时腾讯云也有相关语音识别、智能语音服务。







搜狗同样具备开放平台,在去年11月,搜狗还联合新华社发布了全球首个合成新闻主播“AI合成主播”,赚足眼球。



科大讯飞不仅是首批独角兽,也是国内该领域公认的领头羊。2017年,科大讯飞就入选了国家新一代人工智能开放创新平台,定位就是智能语音。目前,科大讯飞将业务进一步拓展至教育、手机应用、互动音乐等领域。



云知声从企业命名来看,其定位就是AI语音。该公司也的确从语音识别技术起步,并推出了自主知识产权的开放平台。今年年初,云知声公布了其多模态AI芯片战略规划,并曝光了在研的三款定位不同场景的AI芯片,可见其希望向AIoT拓展。



无独有偶,思必驰几乎同时也推出了自己的AI芯片,并设立合资公司,以实现把控芯片制造的闭环。



出门问问同样依托AI语音技术,押注可穿戴、车载、家居、企业服务四大场景,并为B端提供相应的解决方案和开放平台。



值得关注的是,依图、云从两家原本以机器视觉起家的独角兽,近期也开始涉足AI语音领域,可见AI语音在国内的受重视程度。



其实,从全球智能音箱市场份额就能发现国内外AI语音企业之间的差异。







据市场研究公司Strategy Analytics数据显示,2018年第四季度的智能音箱销量依然火爆,总量达到3850万台,较2018年第三季度的2260万增长95%,超过2017年的全年总量。合并计算,2018年全年销量达到8620万台。



亚马逊和谷歌的销量遥遥领先。亚马逊当季智能音箱出货量达到1370万台(2018年第三季度为720万台),市场份额达到35.5%(第三季度为31.8%)。谷歌出货量为1150万台(第三季度为520万台),市场份额为30%(第三季度为22.8%)。



阿里巴巴、百度和小米的全球市场份额超过了1%。阿里巴巴出货量达到280万台,市场份额为7.3%。百度和小米当季出货量分别为220万和180万台,第三季度均为190万台。



所以,国外企业主要围绕智能音箱和语音助手两大场景,其中智能音箱成为竞争的焦点。



然而,国内则截然不同,并没有局限于智能音箱和智能助手,而是向更多应用场景进行拓展,并涵盖各行各业。



用一句流行的话,就是让AI赋能各行各业。





为什么是阿里?



从定义电商到创立阿里云,再到双11全民狂欢,阿里的成长堪称奇迹,但其中也蕴含着必然。



正如任何AI技术的发展,都离不开四大必要元素的助力:应用场景、大数据、计算能力和人才。





1.应用场景



对于AI技术来说,只有依托应用场景才能发挥其价值,反之只能是纸上谈兵。



同时,正是基于大量成熟的应用场景,才能推动AI技术的有效发展。



而且,由于AI技术的背后所依托的机器学习、深度学习等全新理念和方法,必须通过应用场景的实践,以获得足够且充分的数据支撑,机器才能真正模仿人的思维和行为,达到AI的最终目标。







众所周知,阿里从电商起家,逐步向金融、云计算、娱乐等各个领域拓展,其中衍生出智能客服、智能助手、智能音箱等众多热门应用场景。



AI语音技术在营造丰富的应用场景的过程中,通过日常的实践和训练,也对自身识别率的提升创造了极为有利的环境和条件。





2.大数据



据阿里巴巴今年1月30日公布的2019财年第三季度财报显示,淘宝移动月度活跃用户达到6.99亿,较2018年9月增加3300万。当季,淘宝年度活跃消费者达6.36亿,较截至2018年9月30日的12个月大幅增加3500万,其中超过70%新增年度活跃消费者来自低线城市。同时,支付宝及其附属公司全球范围内年度活跃用户超过10亿。







从财报中的数据就能看出,阿里巴巴所拥有用户量和流量非常惊人,不愧是不折不扣的互联网巨头。



同时,得益于丰富的应用场景和生态,阿里巴巴掌控了包括电商交易、搜索、物流、支付、广告、移动、视频等相关数据,并涵盖用户信息、用户行为及行业变化,从而有助于描绘出各种人物画像及分析相关领域的趋势发展。



简而言之,这就是大数据。



数据被认为是AI时代的“数字黄金”及“数字石油”,是公认的重要资源。



通过分析和挖掘数据背后的价值,对于AI相关技术发展和推动都具有重大的意义。





3.计算能力



如今,云计算已成为互联网重要的基础设施,同时也是AI背后的算力平台。



AI只有在强大的计算能力的支撑下,才能实现高效地数据处理,从而完成指令。



以AI识别为例,计算能力直接决定了语音识别过程中的效率和质量,也就是机器是否能听懂“人话”,并给予的交互和反馈。



当然,这就是更深层次自然语言处理以及人机交互相关的话题了。



提到计算能力,阿里云自然不在话下。



数据来源:IDC



据IDC报告显示,2018年阿里云市场份额占比45.5%,排名第一;腾讯云市场份额10.3%,排名第二;中国电信第三,份额7.6%。



可见,阿里云几乎占据了中国云计算市场的半壁江山。







2016年阿里云就推出了人工智能ET(人工智能系统),基于阿里云计算能力,ET具备了智能语音交互、图像/视频识别、交通预测、情感分析等多项核心技能,同时具备多维感知、全局洞察、实时决策等能力。



除了超强计算能力外,阿里云ET大脑,还能够为工业、环境、医疗、智慧城市等领域提供相应的解决方案,并助其落地。



此外,去年9月阿里在云栖大会上宣布成立一家独立运营的芯片公司——“平头哥半导体有限公司”,将其收购的中天微与达摩院自研芯片业务一起整合,致力于AI芯片的研发,进一步加强其在专用领域的计算能力。





3.人才



如果说互联网是草根逆袭的平台的话,那AI时代将是科学家、研究人员、工程师等精英真正发挥所长的平台。



因此,对于AI行业来说,人才是决定成败的因素。



据传,在阿里星计划中,年薪平均估计60万左右,上不封顶,博士生都不稀奇,CTO直接面试,每年招10人,半年base美国office的机会。



2017年10月,阿里成立达摩院,其目标是致力于探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。



马云和多位科学家的合影刷屏(来源:互联网)



同时,达摩院吸纳了阿里旗下的AI LAB科研室、iDST科研室等几个核心实验室,引进了多名国家千人计划科学家、数十位终身教授。其中不乏任小枫、金榕、华先胜等重量级科学家。



目前,阿里达摩院已经构建了“4+X”领域,分别是机器智能、数据计算、机器人、金融科技和X实验室,并设立了14个实验室,其中就包括语音实验室和语音技术实验室。同时,达摩院聚集了300多位研究人员,分支机构遍及全球8个城市。



去年6 月,阿里巴巴达摩院推出了新一代语音识别模型 DFSMN(深度前馈序列记忆网络),。而谷歌、百度、科大讯飞基本上采用的都是LSTM模型技术。相对于使用最为广泛的LSTM模型,阿里的DFSMN训练速度更快、识别准确率更高。据悉,其全球语音识别准确率纪录提高至 96.04%,错词率降低至3.96%。



在去年12月,阿里巴巴在一项在国际顶级学术会议上的AI语音技术演示,引起业界轰动。权威科学杂志《麻省理工科技评论》认为,阿里巴巴的AI语音助手可以完成复杂的人类对话功能,甚至可读懂人类的潜在意图,显示出阿里已经拥有比谷歌更好的AI语音技术。



之前,阿里达摩院的科学家曾在机器学习领域顶级会议NIPS(神经信息处理系统大会)上,演示了这项已应用于快递领域的AI语音技术。在约30秒的时间里,菜鸟语音助手在经历了被用户打断、更改意图、沉默等交互后,依然能够应对自如,顺利帮助用户完成了快递派送地址的更改。







今年年初,阿里AI又在国际顶尖人工智能学术竞赛——第七届对话系统技术挑战赛(DSTC7)中击败了包括麻省理工学院、约翰霍普金斯大学、IBM研究院在内的近20支国际知名大学或研究机构的参赛队伍,获得双料冠军,成最大赢家。DSTC7由来自微软研究院、卡耐基梅隆大学的科学家于2013年发起,在业内具有较高的知名度。





让人机交互无处不在



语音属于人机交互的范畴,是人机交互发展到目前最前沿的交互方式。



随着AI技术的发展和普及,语音交互必将取代传统繁琐的文字和触控交互,带来更为便捷、高效的人机沟通体验。



同时,在AI的加持下,语音也将成为AIoT(AI+IoT)的基石,从而让人机交互无处不在。



图片来自pixabay.com(基于CC0协议)

以上通过对国内外AI语音行业发展、企业及应用场景的分析,可以鲜明地看出,国内以阿里为首的互联网企业,已经从应用场景、大数据、计算能力和人才四大方面出发,深入探索AI技术,其中在AI语音领域已经获得了卓越的成就。



阿里的成功离不开其海量的数据储备、强大的计算能力以及全球顶尖的人才库以及研发能力,但也证明了通过特定应用场景的深度实践,并通过不断的学习和训练,将是推动AI技术进步和发展的有效途径。

在阿里生态体系中,智能客服、智能助手及智能音箱等应用场景都为AI语音技术提供给了极佳的成长环境,极大地推动了该技术和应用进步和发展。



同时,这也正是依托于国内飞速发展的移动互联网所形成海量大数据以及丰富的AI应用场景。相对于严格按照学术研究路线的国外来说,国内将技术研究与应用场景相结合的方式,可以说是一条典型的中国特色的AI发展之路。



然而,目前AI语音技术仍然处于入门阶段,真正达到逼真的自然语言处理还需要大量的研发和实践。



相信在国内外企业、科学家、研究人员的共同努力下,人机交互终将跨越人与机器人之间的鸿沟,实现自由、顺畅的沟通。



干货获取方式


Step 1:添加微信公众号“AI报道「AI-Reporting」”

Step 2:回复【2】免费获取116份重磅AI报告「包括高盛/麦肯锡/IBM/波士顿/罗兰贝格……」,以及完整数据分析资料「包括SPSS\SAS\SQL\EXCEL\Project!」

想更及时获取AI资讯和干货,不妨“星标”我们吧!

快速导航

×