在5G的加持下,许多(duō)产业通过人工智能来让产(chǎn)品更(gèng)人性化。但这大多只是(shì)人工智能通过算法、算力和大(dà)数据,实(shí)现优化服务的结(jié)果,不能代表人(rén)工(gōng)智能更接近人类。来自(zì)深圳艾(ài)文哲思(sī)科技有限公司的(de)混沌研究院,为(wéi)了让人工智能更接近(jìn)人类,通(tōng)过博弈论的纳什均(jun1)衡策略组合,让人工智能可以处理现(xiàn)实中的(de)非完(wán)美信息。混沌研究院成功研发(fā)国内首(shǒu)个智能(néng)决策人工智(zhì)能(néng)机器人:神策(cè)·DeepTexas,并(bìng)应用于扑克比赛中(zhōng),从而让(ràng)AI更接近人(rén)类,进而超越(yuè)人类。
从AlphaGo的深(shēn)度(dù)学(xué)习技术在围棋(qí)中(zhōng)展现的实(shí)力,即人(rén)工智能在有章可循(xún)、完美(měi)信息的(de)情(qíng)况下,可以展现的超越人(rén)类的计(jì)算能力。但现实世界错综复杂, 90%以上的(de)场景都(dōu)是非完美信息,甚至包括对人类想法的推(tuī)测(cè),这是AlphaGo所力所(suǒ)不及的,它(tā)不能感受幸运、了解决策(cè),它只能按(àn)部就班地基于(yú)人(rén)类制定的规则循序渐进(jìn)。而混沌研究院所研发的国内首个智能决策类(lèi)人工智(zhì)能机器人(rén):神策·DeepTexas,却另辟蹊径,攻克了这个旷(kuàng)日持久的难题。其独创的算法:Fast-Net、FRM、TSW,能(néng)结合(hé)神经(jīng)网络,运用机器(qì)学习、强化学习、蒙(méng)特卡洛算(suàn)法,让人工智能不仅拥有对完美信息的处(chù)理能(néng)力,更拥(yōng)有对非完(wán)美信息的解析和决策能(néng)力。
在人工智(zhì)能(néng)领域的创新中,扑克与麻将(jiāng)类似,都比(bǐ)围(wéi)棋比赛(sài)有(yǒu)更严格的“决策”要(yào)求。即在包含(hán)几率、可能(néng)性、推测的(de)情(qíng)景中,人工(gōng)智能要对这些信(xìn)息进行处理,并根据情(qíng)景进行(háng)推理,从(cóng)而做出相应的决策(cè)。“神策·DeepTexas”通过多年的研究,凭(píng)借在扑克(kè)比(bǐ)赛中的实践,终于拥有(yǒu)了“直觉”与“智能决策(cè)”,不仅进一步扩大了掌握博弈论的(de)人工智(zhì)能的(de)应用,更(gèng)具(jù)备了处理非完美信息的(de)解析和(hé)决策判断能力。
为了进一步了解智能决策AI相(xiàng)关问题,我们还采访到了(le)混沌研究院的工(gōng)程师们。他(tā)们大多都是经验(yàn)丰富的(de)资(zī)深工(gōng)程师(shī), 来自谷(gǔ)歌、苹果、华为、联想(xiǎng)、酷派等知名企业。
以下是混沌研究(jiū)院DeepTexas团队负责人鲍凌(líng)威的专访(fǎng)实录:
问:请给我们介绍一下神策(cè)·DeepTexas的核心技术、算法以及它能提供的服(fú)务?
答:DeepTexas的核心算法(fǎ)是基于机器学习、强(qiáng)化学习和博弈论, 采用纳(nà)什均衡的对战策略,通(tōng)过大量MC(Monte Carlo)蒙特卡洛采样(yàng)来计算CFR(Counterfactual Regret Minimization 虚拟遗憾最小化)的值(zhí)域或频(pín)域作为DQN神经网络的行动Value,探索和选取(qǔ)GTO最优策略,并在博弈中不断自我学习,从而优化(huà)并最终(zhōng)形成最(zuì)优决策。 通过我们独创的(de)“神(shén)策 DeepTexas”人工智能(néng)决策(cè)算(suàn)法,如Fast-Net、FRM、TSW,可以帮(bāng)助(zhù)人类(lèi)应对错综复杂的现实场景(jǐng),做出最(zuì)有效的(de)智能(néng)决策,可以大量应用到诸如金融(róng)投(tóu)资、公共安全、智能游戏、自动(dòng)驾驶、物(wù)流存(cún)储、医疗健康(kāng)等业(yè)务领(lǐng)域。
问:作为(wéi)中(zhōng)国第一个做出(chū)扑克比赛类人工智能(néng)的团队,能否说明一下(xià)为什(shí)么(me)会有这种选择呢?
答(dá):人工智能是大势所(suǒ)趋(qū),国家也在大(dà)力促进(jìn)人(rén)工智能的发展,虽然阿法尔狗已(yǐ)经(jīng)完成了对完美信息场(chǎng)景下(xià)的决策预(yù)判(pàn),但(dàn)现实生(shēng)活(huó)中,90%以上的场景都是非完美信息,这就需要人工智能能(néng)够更有(yǒu)效地(dì)对此复杂情况做更深入(rù)的解析和预判(pàn),帮(bāng)助人类从错综(zōng)复杂的场景(jǐng)中(zhōng)做出最(zuì)有效的智能决策,况(kuàng)且我(wǒ)们(men)有丰富的扑克比赛经验和业务团队(duì),做扑克比赛类人工(gōng)智能是我们必(bì)然(rán)的战略选择。
问:神策·DeepTexas也会欺骗吗(ma)?
答:会的,神策·DeepTexas会模(mó)仿人类的欺(qī)骗进行圈套的设计,根据自(zì)己所处(chù)的环境、目标的行动进行适当的欺骗。DeepTexas已经通过了图(tú)灵测试(shì),具备与人类一较(jiào)高下的(de)Bluff能(néng)力。
问:众所(suǒ)周知,比赛的重点是在于他(tā)的公正性,那么团队是如何来保证神策·DeepTexas的公(gōng)正(zhèng)性的?
答:为(wéi)了保证AI的公正(zhèng)性,线上(shàng)我(wǒ)们采用(yòng)国际公(gōng)认的ACPC标准。 加拿大阿尔伯特大学的DeepStack 和 CMU 的Librutas和 Pluribus 也都使用ACPC标准。在实验中(zhōng),我(wǒ)们结(jié)合真人与人工智能的(de)互动进行(háng)策略倒算,从而验证智能决策AI的公正性,保障智能决策AI在更严谨的情(qíng)景中,例如(rú)金融、公共安全等领域中,能够有更(gèng)完美的表现(xiàn)。
问:有人认为人(rén)工智能的发展对投机思维带(dài)来致命(mìng)的打击(jī),你认为人工智能的发(fā)展会对各(gè)行各业造成什么影响呢(ne)?
答:不必过分解读。 人工智(zhì)能的出现已经对(duì)各行各业都会带来了不小的冲击,这是真正(zhèng)的第四次工业革命(mìng)。其(qí)实危机(jī)就是危(wēi)险(xiǎn)和机遇,永远相伴(bàn)而生,此消(xiāo)彼(bǐ)长。就像(xiàng)这次的(de)冠(guàn)状病毒一样,灾(zāi)难中就孕育着机会,正所谓浴火重生。我(wǒ)们的(de)DeepTexas在实验(yàn)中可以(yǐ)帮助人类通过对(duì)非完美信息的解析(xī)和预判(pàn),做出最有效(xiào)的(de)智能决策,从而帮助人类提高抗风险能力、验证反欺诈策略的(de)可靠性,进而提(tí)高对错综复杂事务的判断力和决策力(lì)。
问:神策(cè)·DeepTexas攻克“不完美(měi)信息(xī)”,它在真实(shí)社会中(zhōng)反映着(zhe)解决了那些(xiē)问题场景呢?未来对(duì)人(rén)类的工作(zuò)生活又会(huì)有哪(nǎ)些(xiē)影响(xiǎng)与(yǔ)改变?请举一(yī)些例(lì)子?
答:对“不完美信息”的(de)攻克,可以帮助(zhù)人类对真实社会中存在的(de)大量非完美信息做出最有效(xiào)的智能决策,如自动驾驶、营销决策、物流(liú)仓储、卫生健康(kāng)、公共安全等,比(bǐ)如可(kě)以应用我们的研发成果,建立竞拍报(bào)价决(jué)策模型,确定(dìng)最佳报价(jià)进行投标,获得收益最(zuì)大化。
问:神(shén)策(cè)·DeepTexas会在未来(lái)有何动(dòng)作(zuò)呢?
答:神策(cè)·DeepTexas目前的实验版本(běn)是 1对1人机模式,未来会(huì)向多人模式发展(zhǎn),并(bìng)在(zài)后续(xù)举办真人与AI的线下挑战赛事,与多个人类斗智斗(dòu)勇。同时也会(huì)基于我们的AI智能决策算法(fǎ),将(jiāng)研发(fā)成果不仅(jǐn)仅(jǐn)运用在扑(pū)克比赛上,还能应用于金融投资、公共安全、智能交通、物流存储、医(yī)疗健康等各个领域,帮助客户应对海量错综复杂(zá)的非完美信息,提升工作效率。