九游官方网页版-九游(中国)





    1. 咨询热(rè)线:021-80392549

      九游官方网页版-九游(中国) QQ在线 九游官方网页版-九游(中国) 企业(yè)微(wēi)信
      九游官方网页版-九游(中国)
      九游官方网页版-九游(中国) 资讯(xùn) > 人(rén)工(gōng)智能 > 正文

      机器阅读(dú)理解首次超(chāo)越人类!云从科技(jì)创自(zì)然语言(yán)处理新纪录

      2019/03/12机器人384

      继国际象棋、围棋、游戏等(děng)领域之后,人工智(zhì)能首次在深度(dù)阅读理解(jiě)超越人(rén)类。

      2019年3月8日,中国人工智能“国家队”云从科技和上海交通大学联合(hé)宣布,在自然语言处理(lǐ)(NLP Neuro-Linguistic Programming)上取得重(chóng)大突破,在大型(xíng)深(shēn)层阅读理解任务数据集RACE数(shù)据(jù)集(ReAding Comprehension dataset collected from English Examinations)登顶第一,并成为(wéi)世界首个超过(guò)人(rén)类排名(míng)的模型。

      机器阅(yuè)读理解首(shǒu)次超越人类!云从科技创(chuàng)自然(rán)语言处理新纪录portant;" width="800" height="485" align="" />

      有评论认为,这会是(shì)机器深层理解人(rén)类语(yǔ)言的开(kāi)端(duān)。

      论文中,云从科技与上海交通(tōng)大学(xué)基于原(yuán)创DCMN算法,提出了一(yī)种全新(xīn)的模型,使机器阅读理解正确(què)率提高了4.2个百分(fèn)点,并在高中测试题部(bù)分首次(cì)超越人类(lèi)(机器正确率69.8%、普通人类(lèi)69.4%)。

      这一(yī)研究(jiū)成果,在应(yīng)用领(lǐng)域搭配文(wén)字识别(bié)OCR/语音(yīn)识别(bié)技术后,NLP将会(huì)帮助机器更好地理解人类文字/语言,并广泛应用于服务领域:帮助(zhù)企业判断客户风险、审计(jì)内部文(wén)档合规、从语(yǔ)义层面查找相关信(xìn)息;在社交软件、推荐引(yǐn)擎软件内辅助文字审阅工(gōng)作,从枯燥的人工文字工作中(zhōng)解放人类。

      突破语义(yì)理解瓶颈

      此次云从科技(jì)和上海交通大学在自然语言处理(NLP)领(lǐng)域的深度阅(yuè)读理解(jiě)上登顶RACE排行榜第一名。RACE是一个来源于中(zhōng)学考试题(tí)目的大规模阅读理解数(shù)据集,包含了大(dà)约(yuē)28000个文章以及近100000个问题。它的形式类似于英语考试中的(de)阅读理解(选择题),给定一篇文章,通过阅读并理(lǐ)解文章(Passage),针对提(tí)出的问题(Question)从四个选项中选择正确的(de)答案(Answers)。该题型的正确(què)答案并(bìng)不一定直接体(tǐ)现在文章中,只(zhī)能从语义层面深入理解(jiě)文章(zhāng),通过分析文章中线索(suǒ)并基于上(shàng)下文推理,选出正确答案。相对以往(wǎng)的抽取类阅(yuè)读理(lǐ)解,算(suàn)法要求更高,被认(rèn)为是“深度阅读理解(jiě)”。

      机器(qì)阅读(dú)理解首次超越人类!云从科技创自然语言处理新纪录portant;" />

      RACE数据集的难点在于:由于正确答(dá)案并(bìng)没(méi)有直接使用文章中的话术来(lái)回答(dá),不(bú)能直接从文中检索得到答(dá)案。必须(xū)从语义(yì)层面(miàn)深入理解文章,才(cái)能准确回答问题。

      解决方案

      怎么让机器在庞大(dà)的题库文(wén)章中(28000个)找到正确的答案?

      云从科技与上海(hǎi)交通大学(xué)首(shǒu)创了一种P、Q、与(yǔ)A之间(jiān)的匹配机(jī)制(zhì),称为Dual Co-Matching Network(简称DCMN),并基于这种(zhǒng)机制探(tàn)索性(xìng)的研究了(le)P、Q、与A的各种组合(hé)下的匹配策(cè)略。

      结果(guǒ)显示,采用PQ_A的(de)匹(pǐ)配策略,即(jí)先将P与Q连(lián)接,然后与(yǔ)A匹配,策略都得到了更优的结果。

      再将模型(xíng)(基于(yú)PQ_A策略(luè))与其他已知的模型(xíng)、以及纯粹基于(yú)BERT自身(shēn)的模型(xíng)进行(háng)了比较,得到如下的结(jié)果:

      从RACE leaderboard上(shàng)结果比(bǐ)较(jiào)可(kě)以得(dé)到以下结(jié)论:

      机器阅(yuè)读(dú)理解首次超越人(rén)类(lèi)!云从(cóng)科技创自然语言处理新纪录(lù)portant;" width="800" height="359" align="" />

      ·云从科(kē)技与上海交(jiāo)大的单体模型就已(yǐ)经超越榜单(dān)上所有的单体或Ensemble模型;

      ·云从科(kē)技与上海交大的Ensemble模型(xíng)在(zài)高(gāo)中题目(RACE-H)部(bù)分优于人(rén)类结果(Turkers)。

      论文缘起

      这篇论(lùn)文(wén)的(de)作者,来(lái)自中国人工智能“国(guó)家(jiā)队(duì)”云从科技与上海交通大学。

      云从科技孵化于中国(guó)科(kē)学院,2017年(nián)3月,承担国家(jiā)“人工智(zhì)能”基础项目——“人工智能基(jī)础(chǔ)资源公(gōng)共服务平台”建设任务。

      2018年10月的国家(jiā)“人工(gōng)智能基础资源(yuán)与公共服(fú)务平台”发布会(huì)上,云从(cóng)科(kē)技创始人周曦提出了人工智能发展五(wǔ)个阶段,核(hé)心技术闭环(huán)是五个阶段的重要基础。

      机(jī)器阅读理解(jiě)首次(cì)超越(yuè)人(rén)类!云从科技(jì)创自然(rán)语(yǔ)言处理新纪录portant;" />

      从感知(zhī)到认知决(jué)策的一(yī)系列技术组成了核(hé)心(xīn)技术闭(bì)环(huán):

      1-感知技术:人脸识别、语(yǔ)音识别、文字识别OCR、体(tǐ)态识别、跨镜追踪(ReID)、车辆识别等

      2-认知决策:自然语(yǔ)言(yán)处理(NLP)、脑科学、大数据(jù)分析(风控、精准营(yíng)销)等

      目前,云(yún)从科技承担了国家发改委与工(gōng)信部的人工智能基础平台、人工智能应用平台(tái)和(hé)人(rén)工智能的核心芯片平台项目,包含智能感知技术(shù)和认(rèn)知决策技术为(wéi)核心的技术闭(bì)环,并刷新多项(xiàng)世(shì)界纪录,保持自主核心(xīn)技(jì)术国(guó)际领先(xiān)。

      机器阅读理解首次(cì)超越人类(lèi)!云从科技创(chuàng)自然语言(yán)处(chù)理新纪(jì)录portant;" width="800" height="481" align="" />

      在这个基(jī)础(chǔ)上,云从科技正在致力整合算力、智(zhì)力(lì)、数据等资源及其成果,打造人工智能开放平台与生(shēng)态,进(jìn)一步促进人工(gōng)智能(néng)在金融、安防、交通、零售、商业等重要行业的落地与深度融合(hé)。

      附:论文解(jiě)读

      1.DCMN匹配机(jī)制

      以P与(yǔ)Q之间的匹(pǐ)配为例,说(shuō)明(míng)DCMN的匹配(pèi)机制。下图为P与Q之间的(de)DCMN匹(pǐ)配(pèi)框架(jià)。

      机器阅(yuè)读理解首(shǒu)次超越人类!云从科技(jì)创自然语言处理新纪录portant;" />

      云从(cóng)科(kē)技和上海交大使用目(mù)前NLP最(zuì)新的研(yán)究成果BERT分别为P和Q中的每(měi)一个Token进行编码。基于BERT的编码,可以得到的编码是一个包(bāo)含了P和Q中各自(zì)上下(xià)文(wén)信息的编码,而不是一个固定的静态编码,如上图中Hp与Hq;

      其次,通过Attention的方式,实现P和Q的匹配。具体(tǐ)来讲,是构建P中的每一个Token在Q中的Attendances,即Question-Aware的Passage,如上图中Mp。这(zhè)样得到的每一个P的Token编(biān)码,包(bāo)含了与Question的匹配信息;

      为了充分利用BERT带来(lái)的上下文信息,以及P与Q匹配(pèi)后的(de)信息(xī),将P中每个Token的(de)BERT编码Hp,与P中每个Token与Q匹配后的编(biān)码Mp进行融合, 对Hp和Mp进行了元(yuán)素(sù)减法及乘法操作,通过一个激活函数,得到(dào)了P与Q的最(zuì)终融合表(biǎo)示,图中表示为(wéi)Spq;

      最后通(tōng)过maxpooling操作(zuò)得到Cpq,l维向量,用于最(zuì)后的loss计算。

      2.各种匹配(pèi)策略研究

      除(chú)了P与A之间的匹配之(zhī)外,还可以有Q与A、P与Q之间的匹配,以及不同(tóng)匹配(pèi)得到的匹配向量间(jiān)的组(zǔ)合,这些不同的匹配与组合构成了不同的匹配策(cè)略(luè)。对七种不(bú)同的匹配(pèi)策略分别进行了试验(yàn),以找(zhǎo)到(dào)更(gèng)加合适的匹配(pèi)策(cè)略,分别是:

      [P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]

      “PA”表(biǎo)示先(xiān)将P和A连接为一个序(xù)列,再参与匹配(pèi),“PQ”与“QA”同理。符号“[ ; ]”表(biǎo)示将多种(zhǒng)匹配的结果组合在一起。[P_Q; P_A; Q_A]模式下的(de)模型架构如下图(tú):

      机器阅读(dú)理解首次超越人(rén)类!云从科技创自(zì)然语言处(chù)理新纪录(lù)portant;" />

      7种不同策略通过试验,采用PQ_A的匹配策略,即先(xiān)将P与Q连接(jiē),然后与A匹配,无论(lùn)是在初中题目(RACE-M)、高中(zhōng)题(tí)目(mù)(RACE-H)还是整体(RACE),该策(cè)略都得(dé)到(dào)了更优的结果。

      关(guān)键词:




      AI人工智能网(wǎng)声明:

      凡资讯来源(yuán)注明为其(qí)他媒体来源的信息,均(jun1)为转载自其(qí)他(tā)媒体,并不代表(biǎo)本网(wǎng)站赞同其观(guān)点,也不(bú)代表本网站对其真实性负责(zé)。您(nín)若对(duì)该文章内容有任何疑(yí)问或质疑,请立即与(yǔ)网站(www.baise.yingtan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将(jiāng)迅速给您回应并做处理(lǐ)。


      联系电话:021-31666777   新闻(wén)、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

      精选资讯更多

      相(xiàng)关资讯更(gèng)多(duō)

      热门搜索(suǒ)

      工博士人工智(zhì)能网
      九游官方网页版-九游(中国)
      扫描二维码关(guān)注微信
      扫码反馈(kuì)

      扫一扫,反馈当前页面(miàn)

      咨询(xún)反馈
      扫(sǎo)码关(guān)注(zhù)

      微(wēi)信公众号

      返回顶部

      九游官方网页版-九游(中国)

      九游官方网页版-九游(中国)