Skip to main content Skip to Footer

埃森哲《展望》期刊


步入“能听会说”的智能世界
——访科大讯飞联合创始人、研究院副院长王智国

身为人工智能专家的王智国预测,未来二十年内机器还不会全面超越人类。

概要

科大讯飞,这家成立于1999年的高科技公司,在技术产品化方面有着成功的商业实践。它一端依托国内顶尖研究资源,另一端联结着成千上万的产业应用和企业客户,这一独特定位使其技术创新能快速落地、实现产品化,创造出经济价值。为了一探科大讯飞技术产品化的秘诀,《展望》杂志专访了科大讯飞联合创始人、讯飞研究院副院长王智国先生。此外,作为人工智能领域的专家,王智国先生还深入浅出地解释了弱人工智能和强人工智能的区别,并预测,未来二十年内机器还不会全面超过人类。

从产品中来到产品中去

《展望》:科大讯飞在技术产业化方面有着非常好的实践,而讯飞研究院又是科大讯飞基础技术研发中枢。请介绍一下讯飞研究院的定位及作用。
王智国:讯飞研究院是科大讯飞的核心部门,因为科大讯飞从创立伊始就希望做源头技术创新,创新有很多种,比如商业模式创新、产品创新,但是讯飞的定位是依靠核心技术创新,具体而言就是通过人工智能技术创新来培育出新的产品和行业,或是改造现有行业,这就是讯飞的基因。
围绕这样一个愿景,我们要做一个很长的产业链:首先要有源头技术,然后把源头技术跟应用对接起来,跟周围的产业合作伙伴对接起来,形成一个生态圈,真正用人工智能去改造一个行业,让这个行业变得更美好。而讯飞研究院承担着核心技术创新的重任,可以把它比喻为整个集团的创新发动机。

《展望》:为什么科大讯飞一开始就定位于源头技术创新?
王智国:一个公司的基因跟创始人有关,最高创始人的理念好像一颗种子,无论公司后来如何枝繁叶茂,它的种子决定了它的基因。科大讯飞创始人、现任董事长刘庆峰原本是一个非常优秀的科研人才,1998年他在科大语音评测实验室读硕士的时候就凭借着 KD863语音合成系统拿到了国家863语音合成评测比赛的冠军,并且是业界首次把合成系统的自然度做到了3.0分,触及了可应用的门槛。硕士毕业时,他选择了带领师弟们进行创业,他和他的团队坚信在中国可以基于核心技术创新做出一番事业,当时科大讯飞成立提出的口号是做中国的“贝尔实验室”,意思是向世界最高技术水平看齐。

《展望》:请介绍一下科大讯飞的核心技术及其最新研究进展。
王智国:科大讯飞过去的核心技术立足于语音领域,让机器能听会说,现在扩展到了人工智能领域,让机器还能理解会思考。人工智能分为感知智能和认知智能两个阶段。感知智能就是人的感官,包括语音和图像;认知智能涉及理解能力,主要是自然语言理解相关的技术。
感知智能方面,科大讯飞的语音合成和语音识别等技术都做到了国际领先。认知智能方面,科大讯飞的口语翻译技术在IWSLT2014、NIST2015国际口语翻译大赛中连续斩获冠军,目前科大讯飞牵头研发的863类人答题高考机器人项目是认知智能领域的一项难题,虽然这个项目难度非常高,但在技术研发过程中,我们也有一些应用落地。比如要实现高考答题,机器人首先要能理解题目,能看懂文字的内容和逻辑,目前这个技术已经实现了,基于这项技术我们开发出阅卷机器人,可以为中英文作文题进行评分。
过去,一篇作文会请两个专家评分,现在只需要一位专家来评分,另一个由机器来评。如果出现专家评分与机器评分差距过大的情况,再找第三方专家完全中立的情况下评阅,结果在几千份评测结果不一致的试卷中,第三方专家评分接近机器的大概占了85%,接近另外一位人工专家的仅占到15%,可以说机器评分的准确率已经超过人工专家了。目前这一技术已经具备大规模应用的基础了。

《展望》:这是一个技术成功转化为商业应用的案例。请谈一下技术产品化的过程及其难点,在这个过程中是用技术去找应用还是反之?
王智国:技术产品化是双轮驱动,刚开始做一个技术,可能还想不到如何去应用,但在技术研发过程中我们会逐渐思考它潜在的应用方向,然后技术的应用就会明朗化。另一方面,当我们开发一个应用的时候,可能会碰到很多难题,这会反推技术研发去解决这些难题。
技术和应用是辩证关系,如果纯粹看重技术,只盯着某个技术点去做,最后很可能变成“paperwork”。目前中国的论文数量在全球都数一数二,但真正能够转化为实际生产力的很少。而如果只看应用不考虑技术,那么应用有可能太想当然,没有考虑技术发展的规律性,如果技术上实现不了,那应用再炫也是无源之水、无本之木。
我们做的技术研究跟一般的paperwork有很大不同。在技术产品化过程中最关键、也是最难的一环是对问题的定义。我们一定要找到现实中的应用案例,同时根据对技术发展规律的深刻理解,把这个问题定义清楚。比如说作文评分,中间利用到扫描、光学字符识别技术,识别完以后组成作文,再根据很多维度对它进行打分,这就需要对问题进行定义,比如怎么提高识别率,如何提高打分准确性。前面的光学扫描识别再准,也会有2%到3%的错误,2%到3%的错误如何兼容等等,能够把这些问题定义清楚非常关键。讯飞研究院有一个口号“从产品中来到产品中去”。我们做研究的人一定要很敏锐地看到,这个产品哪些地方是值得用核心技术去改造的,如果这个不清楚的话,就很难。

“涟漪效应”推动迭代创新

《展望》:科大讯飞一头连接了国内研究机构、高校;另一头连接着客户群,能否介绍一下科大讯飞这一生态链中的角色?
王智国:科大讯飞承担着桥梁作用。因为有好多技术秀得很酷,但是应用起来有很多坑,这时候就需要一些真正很懂技术的人,因为他们既了解技术本身是怎么回事也知道如何去迭代优化。技术要真正实现实用化需要一个过程,我们称之为“涟漪效应”。这是讯飞研究院做研究的另外一个理念,即用大数据的涟漪效应来做研发。
由于移动互联网很发达,当我们做出来一个技术,一个产品之后,并不需要特别完美,只要能够达到一定的使用门槛就可以给客户用。比如语言识别技术刚推出时识别率只有60%多,但还是会有用户去使用。产品推出去以后,只要有客户在用就会贡献数据,就可以提出反馈意见,而研发人员可以掌握客户使用时的一手数据,然后基于客户反馈进行迭代优化。
如果没有涟漪效应,研发就会变成闭门造车。好多人都有一个误区,认为必须要把产品做到非常完美之后才给用户用,现在其实完全不是这样的,移动互联网的开放性使得客户获取成本很低。当产品尚不成熟的时候,可以选择免费给客户使用,用户随时可以卸载。
再回到“涟漪效应”上来,具体指什么?当一滴水滴下去以后,第一个波纹影响面比较小,它的使用范围、使用场景也比较窄,但第一个波纹完成后,把这一批数据收上来,技术人员就可以做产品升级,到了第二波的时候它的应用场景和应用范围就会扩大,比如原来有一万用户,扩大到第二个圈就会有10万用户,新增的这9万用户,他们看到的产品和特性会更好。随着涟漪效应越来越大,到一定程度之后,产品性能和用户体验已经变得非常好了,比如说当扩大到第1000万个用户的时候,产品会非常好用,但前面已经有999万个用户都为此做出了贡献,如果闭门造车,技术人员永远做不到这个程度。

《展望》:从第一个圈到第二圈的反馈周期是多长时间?
王智国:一般看产品迭代速度,其实现在讲究越快越好,几个月就搞一个。涟漪效应的创新能力虽然不难理解,但是要真正具备这样的能力并不容易,坦白地说,目前很多实验室和大学都不具备这一能力,这就是我们的优势所在,我们不仅有自身的核心技术,还具备整合其他技术的能力,针对合作伙伴的技术,我们能够通过类似涟漪效应这样的创新条件,帮助他们去做迭代和产品化。

人工智能+

《展望》:凯文·凯利(Kevin Kelly)曾预言,未来人工智能技术会变成一个云服务,然后任何东西都可以与之连接,成为人工智能+。作为这一领域的专家,您如何看?
王智国:人工智能未来能够改造各行各业,就像目前的移动互联网一样。科技创新有两种做法,一种是看准一个垂直行业,深入进去,把这个行业全整合了,比如讯飞在教育行业就是这么做的,讯飞在教育方面除了技术之外还有很多优势资源,能够打得很通,但行业不可能做太多。其他很多行业怎么改造呢?就需要第二种做法,即把技术用开放平台提供出来,然后行业内愿意使用相关技术的有识之士很容易就能跟我们对接起来,这就是讯飞人工智能开放平台所承担的角色,一旦成功的话,其影响会非常深远,因为一个行业的创新必须是行业积累与应用技术的结合,单谈技术其实是没用的,技术必须要转化成生产力。
具体合作形式比较多,实际上通过这个开放平台,所有的技术就有了调用接口,合作伙伴的应用可以集成我们的技术,集成我们的接口,把我们人工智能的云特性、感知特性、认知特性集成到他们的应用里面去,现在我们已经有11万多家合作伙伴。

《展望》:对合作伙伴有无门槛要求?
王智国:没有门槛,但是实际上我们无法满足所有的定制化开发需求,即使一个人对接一个合作伙伴,也需要11万人来对接,这并不现实。所以我们支持企业当中共性的应用。一定要把最具共性化的东西定义出来、设计出来,至于个性化的合作就有一个遴选的过程,如果合作伙伴实力非常强,需要个性化技术把行业做透的话,我们也不是一概拒绝,具体问题具体分析。目前我们在银行、电信、汽车、医疗、建筑等行业都有这种实力很强的合作伙伴。

《展望》:人工智能技术会对现有行业带来颠覆性影响吗?比如讯飞听见对会议速记行业带来的冲击。
王智国:人工智能技术会改造一些行业,但我认为不是替代关系,而是产业升级。比如速记行业,其实是机器去干脏活累活,人去干点金的工作。机器现在还做不到什么呢?它可以把人说的话转换成文字,但把文字变成一篇逻辑性很强的文章还是需要人的智慧。机器能够帮人们提高工作效率,让人集中在创造性工作上。从产业层面来看,就是产业升级,往高端走,低端的、适合机器干的工作交给机器去完成,充分发挥人的主观能力和创造力。
人工智能一个方向是跟人相结合,取代一部分低端重复性工作以及部分脑力工作,比如说阅卷,其实这些都属于弱人工智能,那强人工智能是什么呢?比如大人教小孩认东西,其实是一个很复杂的过程,大人跟小孩讲这是一只猫,或者这是一只小狗,教他一两次之后,日后他不论见到各种体型、各种毛色的猫和狗都能认出来。但是机器人与人的认知过程不同,根据现在的技术水平,机器需要找尽可能多的猫、狗照片,然后收集足够多猫和狗的信息,今后再出现一只新猫时,它认出这是只猫的概率就会提高,这就是利用深度神经网络,把各种各样的大数据给机器学习的过程,这也是现在人工智能的一些主流方法,但这跟人类智能不一样,还属于弱人工智能。

《展望》:未来有可能出现强人工智能吗?或者机器超过人的情况?
王智国:人是一个综合体,其实如果从某个专业性的角度来看,机器很多方面已经超过人类了,因为机器不知疲倦,没有情绪,比如在下围棋、阅卷方面其实已经超过人类了。人会受到自己情感因素的干扰,会有盲点,但是机器可以持续改进,而人的盲点有时很难改进。机器一旦出现错误,就让它学那个东西,把这个点迭代进去,基本上就能够实现全覆盖。但是,作为一个综合体的话,人有运动能力、协调能力,最关键还有灵感、意识,这些东西至少近二十年内机器很难超过人,大家不用担心一些科幻电影上的情节,目前我们发展人工智能的目的是让机器更好地服务于人类,让人类的生活更美好。

《展望》:现在的企业家需要在人工智能方面做怎样的准备和布局?
王智国:作为一个有追求的企业,还是要重视源头技术创新。当企业赚了很多利润以后,应该回头看看业界的风口在哪里,特别是技术驱动型的升级在哪里。人工智能不能包打天下,每个行业都有这种源头性、革命性的技术,企业首先要对这些技术趋势保持敏感,特别是领导者要站得高、望得远,了解业界大势,然后再看自己的企业有没有可能做这样的事情。

《展望》:能否把人工智能理解为赋能性技术,需要跟行业性技术结合起来?
王智国:对,人工智能是赋能性技术,这个定位还是比较准确的。没有单独的人工智能行业,人工智能一定是跟传统行业结合在一起,比如说人工智能跟客服、医疗、教育、家电行业结合在一起。而且,人工智能经常需要和其他技术结合在一起才能产生新的革命性应用。例如现在VR很热,3D或者是全息技术,跟人工智能的自然交互相结合,就有可能产生出完全不同的产品体验,改造我们的电影、游戏产业等。只有跟行业性技术真正融合在一起,才能真正诞生出一个革命性的产品,优秀的企业要追求这样的东西。

“选、用、育、留”的人才迭代法

《展望》:对于高科技企业而言,人才是保持企业持续竞争力的关键,请介绍一下科大讯飞的人才培养战略。
王智国:企业一定要有人才库,背靠几个大学很关键。具体到讯飞,合肥这里有中国科技大学、合肥工业大学、安徽大学等高等学府。企业与大学的合作不能流于形式,而是要深入进去。在讯飞,我们有一套学生的选、用、育、留机制,称之为“人才迭代法”。
我们首先会筛选出一批学生,然后从讯飞的产品应用角度或未来发展方向出发,与老师在一些前瞻性科研项目上展开合作,选出来的这批学生也会参与到研究中来,这个过程中,他们个人能力和研究水平都会得到锻炼和提高,这个过程是“育”。当培育有了成果以后,我们觉得某个学生各方面都很不错,就要对他进行“用和留”。经过与老师协商,我们会让学生来公司实习,承担比较重要的项目,与此同时,也会跟他深入去聊未来的追求和价值观,特别是他未来的发展方向是否跟讯飞一致。如果这些都没有问题后,我们会用讯飞配套的激励措施,比如期权、人才金等把他留下来,这就是完整的人才“选、用、育、留”机制,这个机制能保证源源不断的新鲜血液流到我们的研究队伍中来。

《展望》:科大讯飞的科研人员基本都是这个途径招聘进来的吗?有社会招聘吗?
王智国:也有,但是通过 “选、用、育、留”机制招聘过来的人才,成才效率明显要高。因为他们一开始就有科大讯飞的基因,而通过社会招聘的话,短短两小时的面试,很难完全了解一个人。通过人才培养机制,大家已经有过两三年的长期合作,能把一个人了解得非常透。而讯飞又是非常强调价值观的企业,致力于寻找志同道合的人才加盟。
其实,无论是与学校的研究合作,还是人才的“选、用、育、留”,最终都是双赢,既为企业源源不断提供高质量的人才,也在帮学校培养复合型人才。这批研究人才即使未来不进入科大讯飞,进入其他科研机构或者企业也会非常优秀。因为他们能够用正确的方法做有用的研究,而不仅仅是发表论文,他们是经过实实在在的行业实训的研究人才,将来必能成为业界栋梁。

编后记

从合肥市区驱车30分钟,就到达了位于合肥高新区的科大讯飞总部,远远能看到 “中国声谷”四个大字。这家根植着创始人家国梦想的初创企业,如今已成为中国智能语音和人工智能领域的领头羊。不忘初心,方得始终,透过这家企业,我们仿佛能看到一大批致力于源头技术创新的新一代中国企业的身影,而它们,会是未来中国经济的中流砥柱。


作者简介

鲁志娟
《展望》杂志执行主编,负责埃森哲大中华区内容营销,常驻北京
Email