大(dà)多数围绕人工智能(AI)的讨论都集中在自动车(chē)辆(liàng)、聊天机(jī)器人、数字(zì)孪生技术、机器人技术以及(jí)使用(yòng)基于(yú)人工智(zhì)能的“智能”系统(tǒng)从大(dà)型数据集中提取商业洞察力。但是人工智能和机(jī)器(qì)学习(ML)总有一天会在企业数据中心内部(bù)的服务器机架中扮演(yǎn)重要(yào)角色。
人工智能在(zài)提升数据中心效率以及(jí)扩展业务方面的潜(qián)力可分为以下四个主要类(lèi)别:
电源(yuán)管(guǎn)理:基于人工智能的电源管理有助于优化加热和冷却系(xì)统,从而降(jiàng)低电力成本,减少员工(gōng)人(rén)数,提高效(xiào)率(lǜ)。该领(lǐng)域(yù)的代(dài)表性供应商包(bāo)括施(shī)耐德电气、西门子、Vertiv和伊顿公司。 设备管(guǎn)理:AI系统可以(yǐ)监控服务(wù)器、存储和网络(luò)设备(bèi)的运行状况,检查系统是否(fǒu)保持正确配置(zhì),并预测(cè)设备何时(shí)会出现故障。据Gartner称,AIOpsIT基础设(shè)施管理(ITIM)类别的供应(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。 工作负载管(guǎn)理:人工智能(néng)系统可以自(zì)动将工作(zuò)负载实时移动到最高效的(de)基(jī)础设施上,包括在数据中心内部,以及在混合云(yún)环境中,在prem、云和边缘环境(jìng)之间。有越(yuè)来越多的小(xiǎo)型公司提供基于人(rén)工智能的工作负载优化,包括Redwood、TidalAutomation和(hé)Ignio。思科(kē)(Cisco)、IBM和VMware等重量级企业(yè)也(yě)有(yǒu)产品。 •安全(quán)性:人工(gōng)智(zhì)能工(gōng)具可以“了解”正常(cháng)网(wǎng)络流量的(de)情况(kuàng),发现异(yì)常情(qíng)况,区(qū)分需要安(ān)全从业者注意的警报的优(yōu)先级,帮助对出了什么(me)问题的事(shì)后分(fèn)析,并为填(tián)补企业安全防御(yù)漏洞提供建议(yì)。提供此功能的供应商包括(kuò)VectraAI、Darktrace、ExtraHop和Cisco。
综(zōng)上所述,人工智能可(kě)以帮助企业创建高度(dù)自动化、安全(quán)、自我修复(fù)的数据(jù)中心,这些数据中心几(jǐ)乎不(bú)需要(yào)人工干预,并且能够以高(gāo)水平的效率和(hé)弹性运行。
戴尔技(jì)术公司全(quán)球CTO办公室的杰出(chū)工程师Tabet解释说:“人工(gōng)智能自动(dòng)化(huà)可以扩展到超出人类能(néng)力的水平来解释数据(jù),收集优化能源使(shǐ)用、分配工作负载和最大(dà)化效率所(suǒ)需的必要见解,以实现更高的数(shù)据中心资产利(lì)用率。”。
当然(rán),就像自动驾驶汽车的承诺一样,自(zì)动驾(jià)驶数据中心还没有出现。在数据中(zhōng)心,存在着阻碍(ài)人工智能突破(pò)的(de)重(chóng)大(dà)技术、操作和人员配(pèi)备(bèi)障碍。如今,采用技术才刚(gāng)刚(gāng)起步,但潜在的好处将使(shǐ)企业不断(duàn)寻找机会采取行动(dòng)。
电源管理利(lì)用服务器工作负载管理(lǐ)
据估计,数据中心将消耗全球3%的电(diàn)力供应(yīng),造成约2%的温室气体(tǐ)排放(fàng),因(yīn)此(cǐ),无论是为(wéi)了省钱,还(hái)是为了环(huán)保,那么多企(qǐ)业都在认真研究数据中心的电源管理。
451Research的(de)高级分析师丹尼尔(ěr)·比佐(DanielBizo)表示,基于人工智能的系统可以帮助数(shù)据中心操(cāo)作员了(le)解当前或(huò)潜在的(de)冷却(què)问(wèn)题,例如,由(yóu)于高密度(dù)机柜堵(dǔ)塞(sāi)气(qì)流(liú)、HVAC装置性能不(bú)佳或(huò)冷热(rè)通道(dào)之间(jiān)的空(kōng)气密封不足(zú)而导致(zhì)的冷空气输送不足。
Bizo说(shuō),人(rén)工智能承诺提供“不仅仅是(shì)良好的(de)设施(shī)设计所能带来的好处”。人工智能(néng)系统在数(shù)据中心层“可以通过关联暖通空调系统数据和环境(jìng)感知读数来(lái)学(xué)习设备”。
IT咨询(xún)和咨询公司StorageIO的(de)创始人格雷格·舒尔(ěr)茨(GregSchulz)补充(chōng)说:“电源管理是一(yī)个很容易实现的成果。”今天,它是关于生产力的(de),关于每BTU完成更多工作,每瓦能源完成(chéng)更多(duō)工作,这意味着工作更智能,让设备工作更智能。”
还有(yǒu)一个容量规划(huá)的角度。除(chú)了寻找热点和(hé)冷(lěng)点之外,人工智(zhì)能(néng)系统还可以确保数(shù)据中(zhōng)心为适当数(shù)量的物理(lǐ)服务器供电(diàn),并且在需求临时激增(zēng)的情况下(xià),有(yǒu)能力启动(和关闭)新(xīn)的物理(lǐ)服务器。
Schulz补(bǔ)充说,电源管理(lǐ)工具正在开(kāi)发连接(jiē)到管理设备和工(gōng)作负载的系统的挂(guà)钩(gōu)。例如(rú),如果传感器(qì)检测(cè)到服务器运(yùn)行太热(rè),系统可(kě)能(néng)会快速自动(dòng)地将(jiāng)工作负载转移到未充分(fèn)利用的服务(wù)器上(shàng),以避免可能影响任务关键型应用程序的(de)潜在停(tíng)机。然(rán)后系统可以调查服务器过热的(de)原因——可能是(shì)风(fēng)扇(shàn)出故障(HVAC问题)、物理组件即将崩(bēng)溃(设备问题),或者服务器刚刚过载(工作(zuò)负载问题)。
人工智能(néng)驱动(dòng)的健(jiàn)康监控、配置管理(lǐ)监督
数据中心(xīn)充满了需要(yào)定期维护的物(wù)理设备。人(rén)工(gōng)智能系统可以超越定期维护(hù),帮助(zhù)收集和分析遥测数据,从而确定需(xū)要立即关注(zhù)的特(tè)定(dìng)区域(yù)。”人工智(zhì)能工具可以嗅(xiù)出所有(yǒu)这些数据和斑点(diǎn)模式,以(yǐ)及异(yì)常点,”Schulz说(shuō)。
Bizo补充说(shuō):“健(jiàn)康监测(cè)从检查设(shè)备(bèi)配置是否正确以及性能是否符合预期(qī)开始(shǐ)。”由于有成百上千个IT机柜和数(shù)万个组件,这些平(píng)凡的任(rèn)务(wù)可能是劳动密集型(xíng)的,因此并不总(zǒng)是能够(gòu)及时彻底(dǐ)地(dì)执行。”
他(tā)指出,基于(yú)大量感(gǎn)官(guān)数据日志的预测(cè)性设备故障模型可(kě)以“发现(xiàn)一(yī)个(gè)即将出现(xiàn)的组件或设备故障,并(bìng)评(píng)估其是否(fǒu)需要立即维(wéi)护,以避免(miǎn)任何(hé)可能导致服务中(zhōng)断(duàn)的容量(liàng)损失(shī)。”
JuniperNetworks负责(zé)企业(yè)和云营销(xiāo)的副总裁MichaelBushong认为,企业数据中(zhōng)心运营商应该(gāi)忽略一些(xiē)与(yǔ)人(rén)工智能相关的过度宣传和炒(chǎo)作,而专注于他所说的“无聊的(de)创新”
是的,人工智能系统可能有一天会“告诉我问题出(chū)在哪里,并加以解决”,但是到了(le)这(zhè)一点,许多数(shù)据中心运营商会接受“如果出了问题,请告诉我要去哪里看”,Bushong说依赖关系映(yìng)射也是(shì)AI有用(yòng)的一个重(chóng)要但不是特别(bié)令人(rén)兴奋的领域。如果数据中心经理正(zhèng)在对防火墙或其他(tā)设备进行策略更改,可能(néng)会产生什么意外后果?”如果我提出一个改变(biàn),知道爆炸半径范围内可能有什么是很有用的。
保持设备(bèi)平稳、安全运行的另一个重(chóng)要方面(miàn)是控制所谓的配(pèi)置(zhì)漂(piāo)移(configurationdrift),这(zhè)是一个数据中心(xīn)术(shù)语,指的是随(suí)着时间的推移,临时配置的变化会导(dǎo)致问题的产生。Bushong说,人(rén)工智能可以作为“额外的安全检查”来识别即将(jiāng)发生的基于配(pèi)置的数(shù)据中心问题(tí)。
人工智能与安全
Bizo认为,人工智(zhì)能和机(jī)器学习“可以通过对事件(jiàn)进行快速分类和(hé)聚类来(lái)简化事(shì)件处理(事件响应),从而识(shí)别出(chū)重要事件(jiàn)并将其与噪声分离开来。更快的根本原因(yīn)分析(xī)有助于操作(zuò)员做出明(míng)智(zhì)的决定并采取行动。”
人工(gōng)智能在实时入侵(qīn)检测(cè)中特别有用(yòng),Schulz补充(chōng)道。基于人(rén)工智(zhì)能的系(xì)统可以(yǐ)检(jiǎn)测、阻止和隔离威胁,然后(hòu)可以回去进行(háng)法医调查,以确定到底发生了什么,黑客能够利用哪些漏洞。
在(zài)安全操作(zuò)中心(SOC)工作(zuò)的安全专业人员经(jīng)常会收到(dào)过(guò)多(duō)的警(jǐng)报,但基(jī)于人工智能的系统可以扫描(miáo)大量(liàng)的遥测数据和日志信息,从而清除(chú)日常任务,从而使安全专家能够腾出时间来处理(lǐ)更深层(céng)次的调查(chá)。
基于人工智能的工作负载优(yōu)化
在应用程序层,AI有可能自动将工作负载移动到适当(dāng)的着陆点,无论是在内部部(bù)署(shǔ)还是在云端。”AI/ML将来应(yīng)该(gāi)根据性能、成本(běn)、治(zhì)理、安(ān)全、风险和(hé)可持续性的(de)众多规(guī)范,实时决定(dìng)在哪里放(fàng)置工(gōng)作负(fù)载。
例如,工作负载可以自动移动到最(zuì)省电的服(fú)务器,同(tóng)时(shí)确保服(fú)务(wù)器以最高效率运行,即70-80%的利用率。Bizo说,人工(gōng)智能系统可以(yǐ)将(jiāng)性能数据整合到等式(shì)中,因此(cǐ)对时间敏感的应(yīng)用程序在高效(xiào)服务器上(shàng)运(yùn)行,同(tóng)时确保不(bú)需要快(kuài)速执行(háng)的应用程序不会消耗过(guò)多的能量。
基于人工智能(néng)的工作负载(zǎi)优化引起了麻省(shěng)理工学院研究(jiū)人员的(de)注意(yì),他们去年(nián)宣布(bù)他们开发了一个(gè)人工智能系统,可以(yǐ)自(zì)动学习如何在数千台服务(wù)器上(shàng)调度数据处理操作。
但(dàn)是,正如Bushong所指出的,现(xiàn)实情况是,如今的工作负(fù)载优化(huà)是像亚马逊(xùn)、谷歌和(hé)Azure这样的超大规(guī)模公司(sī)的专利,而不是一般的企业数据(jù)中心。原(yuán)因(yīn)有很多。
实施人工智能的挑战
优化和自(zì)动化数据(jù)中心是正在进(jìn)行的数字化改造计划的一个组成部(bù)分(fèn)。戴尔的(de)Tabet补(bǔ)充道(dào),“借(jiè)助(zhù)COVID-19,许多公司现在(zài)都在寻求进一步的自动化,推动人工智能驱(qū)动、能(néng)够自我修(xiū)复的‘数字数据中心’的理念。”
谷歌在2018年宣布,已将其(qí)数个(gè)超规模数据(jù)中心的冷却系统控制权转(zhuǎn)为人工智能程序,该公(gōng)司(sī)报告称,人工智能算(suàn)法提供(gòng)的建议使能源使用量减少了40%。
但是,Bizo说,对于那些名字不是谷歌的公(gōng)司来说,在数据中(zhōng)心(xīn)使(shǐ)用人工智能“在(zài)很大程度上是(shì)一种理想”。一些AI/ML特(tè)性在事(shì)件处理、基础设施运(yùn)行状况和冷却优化中(zhōng)可用。但是(shì),AI/ML模(mó)型要取得比目前标准数据(jù)中心(xīn)基础设施(shī)管理(lǐ)(DCIM)更明显的突破(pò)还需要更多(duō)年的时(shí)间。与自主汽车开发非常(cháng)相似,早期阶段可能(néng)很有(yǒu)趣(qù),但与它最终承诺的突破性经济/商业(yè)案例(lì)相去甚远。”
Tabet认为,一些(xiē)障(zhàng)碍是(shì)“需要雇佣或培训合适的(de)人员来管理系统。另(lìng)一(yī)个需要注意的问题是数据标准和相关体(tǐ)系结(jié)构(gòu)的(de)需要。”
Gartner这(zhè)样(yàng)说:“AIOps平台成熟度、it技能和运营成熟度是主要的阻碍因素(sù)。高(gāo)级部(bù)署(shǔ)面临(lín)的其(qí)他新挑(tiāo)战包(bāo)括数据质量和“IT基础设施和运(yùn)营(yíng)团(tuán)队”缺乏数据(jù)科学技能。
Bushong补充说(shuō),最(zuì)大的(de)障碍一直是人。他指出,外雇数(shù)据科学家对许多企业来说是一个挑战,对现(xiàn)有(yǒu)员工的培训也(yě)是一个障碍。
另外,Bushong说,员工抵制技术的历(lì)史由来已久(jiǔ)。他(tā)指(zhǐ)出,软件定义网络(SDN)已经存在了十年,但仍有四分之三以上的IT运营仍(réng)由CLI驱动。
“我们必(bì)须相信,各种基(jī)础设施的运营商准备(bèi)把控制权(quán)让给人工(gōng)智能,”Bushong表示。“如果一群人还不相信空管员能做(zuò)出(chū)决定,那么你怎么训(xùn)练(liàn)、教(jiāo)育和安慰一群人,让他们做出(chū)如此重(chóng)大的转变呢?业内普遍的态度(dù)是(shì),如果我这么做,我就会失业。”
这就是为什么Bushong建议企业在(zài)人(rén)工智能方面采(cǎi)取那些小而乏味(wèi)的步骤,而不是陷入经常围绕一项新技术的炒作中。