用公开语料推进NLP研究孵化现象级产品 专访阿里AI Labs聂再清

时间:2019-09-05 03:23来源:未知 作者:admin 点击:
相比用手和眼睛,以及其他以手机和电脑为媒介的操作,语言无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。 如果说PC时代的搜索引擎

  相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。”

  如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随着智能产品的普及,谁先用现象级产品掌握了语音的入口,谁就将成为AI时代的赢家。

  然而目前,在复杂的现实场景中,智能音箱的交互体验依然有限,比如调节空调温度的时候,向智能助手喊话可能还不如直接动手按按钮来得方便。创新工场人工智能工程院副院长王咏刚也曾公开表示,仅仅是智能音响的唤醒词背后,就蕴含有巨大的技术含量:“想把唤醒词做到唤醒70%以上,唤醒的区间1米到10米,想把唤醒词做到兼容非常多的不同噪音环境是非常非常难的技术,这件事在所有现在已经发售的智能音响来说,能做好的寥寥无几。”

  图:2001太空漫游里的超级电脑HAL 9000距离我们依旧遥远,不过在外形上,不论是天猫精灵还是苹果HomePod,都似乎在致敬HAL。

  国外的厂商如亚马逊、谷歌、苹果、索尼,国内的如阿里、京东+科大讯飞、小米甚至喜马拉雅都在抢占智能音箱的市场。2015年售出250万台、2016年520万台,亚马逊Echo一直是音箱领域的霸主。而谷歌在今年10月初的发布会上,在原有的Google Home之外,发布了两款智能音箱Google Home Mini和Google Home Max,定位低端和高端消费者,直接对应亚马逊的Echo Dot和苹果的HomePod。

  阿里发布于今年7月的智能音箱——天猫精灵,可以被视为阿里布局在语音交互领域的入口级产品。10月20日,天猫双11预售开始,原价499元的天猫精灵,“双11价”超级会员价格为99元。目前国内多数用户尽管对智能音箱有好奇,但出于较高的价格等原因,对于购入相关产品仍停留在观望态度,而这次天猫精灵的双11价,似乎试图给国内观望用户提供一次低成本接触人工智能的机会。

  同样是背靠电商资源和云服务,阿里的天猫精灵是否有机会超越亚马逊Echo?

  阿里的视野显然不仅限于音箱,音箱也不会是语音交互的唯一入口。在刚刚结束的云栖大会上,阿里宣布开放天猫精灵的内置人机交流系统AliGenie。就这一举措而言,阿里想做的一定不仅仅是打造智能家居设备的中心。未来,无人小店、酒店、机场候机室等行业的普通硬件产品都将能够借助开放平台获得语音交互能力,提供智能语音服务。越来越多的硬件设备和行业场景都将进入语音时代,而且人人都可以成为开发者,构成一个”智联网“产品生态系统。

  大数据文摘有幸对天猫精灵背后的研发团队——阿里人工智能实验室(以下简称 AI Labs)北京研发中心总负责人聂再清博士进行了专访。

  聂再清博士此前就职于微软亚洲研究院任首席研究员,他和谷歌Daydream/Tango项目技术主管李名杨博士的入职,被视为阿里达摩院成立后的“第一枪”,也预示AI Labs未来的产品方向——除了天猫精灵这一语音交互产品外,很有可能会推出基于视觉交互,甚至“机器人”类型的人工智能产品。

  图:阿里巴巴人工智能实验室北京研发中心总负责人聂再清。聂再清博士于今年10月加入AI Labs,此前他就职于微软亚洲研究院任首席研究员,主要负责自然语言理解、实体挖掘的研发工作。加入AI Labs之后,聂再清博士的主要研究内容仍是基于语音转化成文本后的文本语义理解,并将主要负责知识图谱和自然语言理解的研究团队的建立。

  采访中,聂再清博士一再表示,相比其他企业的研究中心,阿里AI Labs最大的特点是在研究的同时注重产品的孵化。“阿里AI Labs和传统实验室的区别是除了技术之外,还有市场、设计等等部门,非常适合孵化一个产品。我和团队的座位在一起,大家作战式工作,非常紧密,喊一声就都听到了。”

  而聂再清自己也非常强调用户的反馈,希望做出产品级的东西让每个人都能用上,真正改变人类的生活方式。而这一点很契合马云在云栖大会主论坛上对“达摩院”的定位:research for solving problem(点击查看大数据文摘相关报道《阿里成立达摩院预计3年投千亿,马云称它要活的比阿里更久》)。

  “我非常认同马云老师说的‘research for solving problem’,有些人做研究可能目光比较长远,他不需要别的feedback(反馈)就可以想到一个改变100年以后的事情的研究方向,但我可能看不到。我非常强调feedback loop(反馈环路),更希望用户给我反馈,让我在用户的指导下做一些东西出来。”

  聂再清认为随着天猫精灵的内置人机交流系统AliGenie平台的开放,阿里能够赋能第三方在平台上,让更多人参与进来。进而建立一个有相当流量的生态,在这个生态中让每个开发者都有利可图,进而用公开语料大大地推进自然语言理解和知识图谱的研究,让机器更好地理解人的语言。

  当被问及一个好的AI团队应该是研究导向还是产品导向的时候,聂再清颇有感慨:“在刚开始的时候,一个研究人员需要更多的积累,所以是研究导向的,但一旦有了想法,有了某个机会,一定是产品驱动。对一个人来讲,香港马会彩图库。研究和产品可能无法兼得,但一个团队可以协作完成。”

  而关于什么是好的AI人才?聂再清认为他首先应该关心前沿技术,要参与到学术圈里去对话、去交流、去得到同行的反馈,同时要比较落地、了解用户的需求,还要有情怀、对推进技术向前发展充满热情。

  “我很喜欢做研究,但我个人比较喜欢做一些真正落地的产品级的东西,希望让每个人都能用上这个东西。我以前做的人立方也很成功,很多人报道、很多人知道,但没有达到人人都知道、人人都用上的状况。我非常希望有一个机会,能创造一个东西来改变人类的生活方式。”聂再清说。

  大数据文摘还就聂再清博士在NLP研究领域的相关工作进行了提问,以下为专访实录:

  我们在做的事情是把大量公开数据、公开知识,利用到模型里去。我的设想是建立一个很大的可替换词词典,把每个词从一个string(字符串)变成一个ID。比如,“姚明”这个词,可能大部分人想到的是打篮球的姚明,但可能也有人想到其他的姚明。

  这个东西微软或者阿里巴巴全部自己做也不行,必须有一个生态,和开发者们一起做,同时必须利用大数据。互联网上各种人说了很多话,怎么能利用公开的语料,根据说话的不同的意图建立可替换词?

  阿里在做天猫精灵,这是一个全新的语音交互平台。语音输入这是一种新的输入方式,它需要一个入口。不一定是跟音箱交互,可以是在车里面讲话,可以是对着电视机的遥控讲话。怎么能让用户觉得跟机器交互得更加自然?这就是我们努力的方向。

  深度学习的研究方法在NLP领域占主导地位,但大家也有些疑问——到底有什么进展?

  语义理解——用深度学习来有效理解用户意图和实体抽取。具体来说,我们用递归神经网络去进行语义编码,再加上一层卷积层来看到更多的全局信息。这点具体可以参考我们在KDD 2017上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

  自然语言理解或者语意理解,到目前为止我觉得还是人工智能里面最需要突破的、最难的一个方向。

  首先因为自然语言有所谓“多样性”,同一个意思,有各种各样的表达方法。那你怎么能够穷举这个表达方法呢?我们有一些方法,但是还没有一个大的生态。这一块我觉得还可以做很多事。

  另外呢,自然语言还有一个“歧义性”,同样一种说法,在不同场景下有不同的意思。怎么去把文字放在不同语境下去进行理解。在这块还有很大的挑战。可以看一下我们在ACL 2016上发表的论文(关注大数据文摘后,在公众号后台回复“阿里”,即可下载论文)

  其实现在人工智能有很多方面进入了产品,支付宝刷脸、AR试衣服都是人工智能的体现。人工智能通过技术转换,为产品的某个特征服务。任何东西要变成产品级,都要融入一些别的东西进来,因为产品需要获得用户的注意力和参与,让用户喜欢,这样才会产生数据。

  相比模型而言,数据更重要。Model可以简单也可以复杂,model的改变可能增加5%的准确率,但如果数据量级增加,即使简单的model也可能有很好的效果。作为一个产品,只有大家对你有兴趣,才会体验和反馈,这样我们才能更好地理解数据。未来,人工智能一定会越来越多地进入人的生活,也会掺杂传统的软件功能。

  聂再清博士于今年10月加入阿里AI Labs,此前他就职于微软亚洲研究院任首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作,在对象级别搜索与大数据挖掘方面申请国际专利十余项。他带领团队通过大数据挖掘和众包建立Web-scale知识图谱,是微软学术搜索、人立方,以及企业智能助理EDI的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。相关技术已经应用在Bing、Office、Cortana等产品上。加入阿里AI Labs之后,除负责北京研发中心的各项研发工作外,还将重点突破知识图谱和自然语言理解这两个研究方向。

  insuranceqa-corpus-zh保险行业语料库Welcome该语料库包含从网站InsuranceLibrary收集的问题和答案。据我们所知,这是保险领域首个开放的QA语料库:该语料库的内容由...博文来自:企业聊天机器人

  来源:专知本文约1000字,建议阅读5分钟。该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。语料内容该库搜集了包含chatterbot、豆瓣多......博文来自:THU数据派

  最近应届生的拼抢大战的号角已经吹响。正如昨天那篇雄文,年薪25万也只是个白菜价......这让营长真心羞愧啊.....同样敲键盘的...不说也罢绝不将小小的忧桑带入工作。这几天,群里一直有很多小伙伴在...博文来自:AI科技大本营

  中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上,普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极......博文来自:Paper weekly

  数据说明整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富数据最终是一个json文件,每一行都是一个小的json{amp;amp;amp;amp;quot;_idamp;...博文来自:nghuyong的博客

  一些较大的NLP数据下载,包括Yelp评论下载,google、Glove词向量下载等.博文来自:他年得傍蟾宫客

  自己辛苦爬取的,所以收取一点辛苦费,请支付到我微信截图,并留下您的邮箱,我会尽快发到您的邮箱中。(1)百度知道问题答案(关于保险,金融,移动等领域),可做聊天机器人,问答等,2万条(5元):语料展示:...博文来自:GOODDEEP

  智造观点进入下半年,阿里终于又开始了一轮“买买买”节奏。继上周分别投资分众传媒和苏宁体育后,阿里又看上了人工智能领域的旷世科技。从国内来看,涉足人工智能领域的企业,早已不......博文来自:人工智能观察

  记者谷磊如今,人工智能已经是一个大竞技场,知道巨头在怎么玩很重要。在这个竞技场的诸多赛道中,AI医疗以其巨大的潜在市场引发了人们无尽的遐想以及巨头的频频布局。2016年10月,百度对外发布“百度医疗...博文来自:AI科技大本营

  阿里妹导读:9月28日,阿里搜索迎来了十周年纪念日。久经考验的搜索与推荐平台,支撑了淘宝、天猫、优酷乃至海外电商在内整个阿里集团的推荐与搜索的业务,引导成交占据了集团GM......博文来自:阿里技术

  约翰.麦卡锡继承图灵遗愿继续推进人工智能(AI)研究1954年6月7日,英国数学家图灵(AlanTuring,1912-1954)不幸去世,由此,智能机器研究失去了旗手与领头人。1955年。美国数学家...博文来自:袁萌专栏

  1.中文分词三大类基于字典,词库进行匹配正向最大匹配逆向最大匹配双向最大匹配设立切分标志法最佳匹配基于词频度统计N-gram模型隐马尔科夫模型基于字标注的中文分词方法基于知识理解2.结巴分词##-*-...博文来自:宋建国的博客

  一、Introduction二、Influence三、别人的解决办法数据层面:算法层面:四、个人的解决办法五、Reference一、Introduction以前在做情感分类问题都是用sst等等,一些经...博文来自:毛球饲养员

  网站地址是从2018年1月开始的。看了个视频:博文来自:freewebsys的专栏

  最近用SiliconLabs的EFM8系列的一款MCU做了个产品,其中产品需要唯一的标识,就查了一下,发现用UID标识很方便。UID是存储在EFM8的RAM中的作为MCU唯一标识的一串数据,共有32个...博文来自:搞机专业户的专栏

  摘要清结算是什么名词解释基本结构流程结构核心结构产品系统结构支付宝基本结构个人设计的清结算系统结构系统架构概况费用中心支付系统整个设计核心内容参考摘要清结算行业在金融领域或者当前的互联网行业越来越凸显...博文来自:program_red的专栏

  一个是BI要做到实时化,有的公司可以做到分钟级,而阿里已经是秒级一个运维管理的AI化,当有脉冲式的高流量到来,必须要及时应对,此时人为去做已经不可能了一个是jvm级别的优化,协程,不过这个在golan...博文来自:yyqq188的博客

  阿里旺旺产品UED阿里旺旺产品UED阿里旺旺产品UED阿里旺旺产品UED阿里旺旺产品UED阿里旺旺产品UED

  ,互联网网站多采用手机号码作为帐号的登录名,请列举这样做的好处和缺陷及你的思考。要求:清晰描述你要改进的不合理的地方,并提出你的解决方案和可预见的效果。任务产出:产品宣讲文档(PPT,15页以内)。 3,如果要针对中国老年人(55岁以上...

  一分钟AI:阿里人工智能技术重大突破:连破中、英文语言处理两项世界纪录内蒙古携手银河航天:明年发射玉泉一号AI试验卫星百度计划2018年投资逾10家AI创业公司重庆启动人工智能重大专项总投入10亿元以...博文来自:AI科技大本营

  ApsaraDB:是阿里云在线数据库服务产品总称,不是具体的数据库产品。它包含如下数据库服务:注:绿色文字部分为高度自研产品,赞。关系型数据库 云数据库MySQL版 AliSQL研发:持...博文来自:我的博客

  今天我们所处的时代,是典型的AI时代。深度学习算法的发展、芯片产业带来的算力增长和移动设备带来的数据量暴增,都给今天的AI发展提供了足够强大的基石。加上国家政策的支持,更......博文来自:脑极体

  华为的人脸识别  技术说明:  1)使用结构光技术。支持3D的人脸建模和人脸识别,可以达到亚毫米级建模精度,支持30万的点云10s重建,支持支付安全级识别,400ms极速解锁。  2)支持3D面部表情...博文来自:wydbyxr的博客

  微软小冰  作为全球首个以培养EQ为目标的AI聊天机器人,微软小冰于2014年诞生。  可以关注微博公众号调戏ta...博文来自:wydbyxr的博客

  Ai美国产品介绍我想要当听的时候美国产品Ai,每个人大概有询问,Ai美语是一铜有限公司在这活瓣门,这生产管理哪一是职业商务企业,主要地生产有力的家庭,吹笛的配件等候零的,它的刻度是棒的到是中国最大的铜...博文来自:的博客

  来源:36氪概要:目前,AI正在迅速成为现代科技的一个重点,并且它对我们日常生活的重要性在未来几年只会不断增加。2017年9月,IBM宣布与麻省理工学院(MIT)建立为期十年的合作伙伴关系,共同建立M...博文来自:人工智能学家

  作者非主流出品AI科技大本营昨天,阿里成立了平头哥半导体公司,要死磕“中国芯”。今天,阿里AILabs在云栖大会上又宣布了5件大事:大脑升级、造机......博文来自:AI科技大本营

  ~个人背景:因为还属于产品大白,对商业化还不够深入了解,正在积累相关知识。只能先凭借自己的感觉来理解AI产品的方向和定位。AI产品在做产品定位的时候,比常规产品要考虑多一个维度,就是算法和数据规模的问...博文来自:女王の专属领地

  撰文 微胖「方池非常爱吃琵琶。」朱萧木输入这样一句话。纳尼?「琵琶」明显是一个同音错词。「吃枇杷的枇杷。」朱萧木说出修改指示,讯飞输入法自动将句子中的「琵琶」修改为正确的「枇杷。」语音修改同音错字并...博文来自:机器之心

  原文:shopify阿里速卖通产品研究又一免费神器看到某个产品觉得很好,但手头只有图片,想在速卖通看看有没有怎么办?可以上传或拖入你发现的图片,还可以输入网址或...博文来自:国外客

  比特币先是预热币圈将有大事发生,后赋以重磅公告,币圈顿时被点燃,同时炸飞了OKB,高升至5.5美金附近。今天我们平复激动的情绪,认真的解读下这个开放交易所共赢计划&...博文来自:weixin_33682719的博客

  谈到产品抄袭第一个浮现在我们的脑海中词的肯定是腾讯有人列举过腾讯帝国18年以来抄袭过的产品据不完全统计至少100+知名公司产品15年有网友整理出的一份腾讯抄袭版图虽说腾讯18年来借鉴了很多产品但不否认...博文来自:一个程序员的日常

  ▼点击上方蓝字关注网易智能 聚焦AI,读懂下一个大时代!*人物观点:人工智能的意义,和计算机的出现、发动机的出现、蒸汽机的出现、电的出现一样,都是大节点,而且是更高的节点。未来人工智能还有巨大的可能,...博文来自:网易智能

  1简介PyText是基于NLP深度学习技术、通过Pytorch构建的建模框架。PyText解决了既要实现快速实验又要部署大规模服务模型的经常相互冲突。它主要通过以下两点来实现上面的需求:通过为模型组件...博文来自:yanqianglifei的专栏

  授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!

  我分析了2万条饿了么、美团红包记录,这些是红包最多的APP(附数据集)

  我们可以从Alexa语音助手的错误中学到什么:用户对话界面的设计性挑战

  只看视频不动手的你可能学了门假课程,李飞飞计算机视觉成名作斯坦福CS231n作业详解重磅来袭!

  luopeng12345:博主您好,小白才接触这里,想问个问题: 1、图中不同颜色的点聚集在一起表示什么? 2、比如采用您的算法将我提取的68张人脸照片的128维数据作为data输入,然后随着我把数据从(128,68)增加到(128,100)点的颜色也增加了,这说明找到了更多的主成分吗? 3、相同颜色的点没有集中聚集就说明 降维效果不好吗? 希望能得到博主的回复,最好的祝愿送给博主!

(责任编辑:admin)
相关内容:
乐队的夏天大结局!用Python分 吴恩达团队最新成果:用深度学 8种用Python实现线性回归的方 我分析了2万条饿了么、美团红 只看视频不动手的你可能学了门
服务评价  | 诚聘英才  | 友情链接  | 联系我们  | 投诉建议
版权所有:95160商旅网
香港马报生肖图| 香港六合现场开奖结果| 管家婆心水论坛| 特马生肖走势图分析| 香港2018直播开奖记录| 香港最快开奖现场直播| 心水论坛高手资料大全| 彩图信封脑筋急转湾| 霸王龙六合网| 彩霸王玄机单双各四肖|