过去我们过多地(dì)把目光聚焦于(yú)“人工智(zhì)能三要素”中的算力和模(mó)型上;但(dàn)随(suí)着人(rén)工智能的深入,好的算力(lì)和模型已不再(zài)是稀有物种,被标注好的优质数据却成(chéng)为时下最为稀缺的“黑(hēi)金”。AI的崛起离不开“好的”数据作为地基,这也是(shì)云测数据成立(lì)的初衷(zhōng)所在。现在戳右边链接上新智元(yuán)小程序了解更多!
算力、模(mó)型和数据构成(chéng)了人工智能(néng)的(de)三要素,过去,我们(men)过(guò)多的把目光聚焦于(yú)算力和模型上,殊不知,随着人(rén)工智能的深(shēn)入,好的(de)算力和模(mó)型已不再是稀有物种,反而那些被标注好的(de)优质(zhì)数据成(chéng)为时下最为稀缺(quē)的“黑金”。
“公司的(de)壁垒(lěi)不再是算法,而是数据。让算法利用足够的数据,使得产品运行起来。”人工智能和机器学(xué)习领域国际的(de)权威学者吴恩达在(zài)发表以“AI is the new electricity”为主题的演讲时,就重点强(qiáng)调了(le)数据的重要性。无独有偶,李开(kāi)复在清(qīng)华大学(xué)“清华学堂计算机科学(xué)实验班”题为《人工智能的黄(huáng)金时代》的演讲中(zhōng)也讲到了此类观点,“如果你有(yǒu)垄断性的大(dà)数据(jù),你就(jiù)会有很大的优势。”
以上种种,都表明着一(yī)件事,即AI的(de)崛起离不开“好的”数据作为地基,这也(yě)是云测数据成立(lì)的初衷(zhōng)所在。
溯源云测(cè)数据的(de)AI数据服务(wù)之路
“自2011年切入企服市场以来,Testin云测不断致力于(yú)助力(lì)产业智能化,除了测(cè)试业(yè)务我们已(yǐ)经成为专业领域的(de)垄断(duàn)品(pǐn)牌,专注(zhù)于AI数据服务的云测数据也成为(wéi)数(shù)据(jù)领(lǐng)域的标杆品(pǐn)牌(pái)。目前我们(men)整个数据服务团队规模已超过1000人,通过标审(shěn)分离的流(liú)程化作业(yè)模式和数据安全机制,更好(hǎo)的保证数据的高质量产出和数据(jù)隐私性,从而更好地为(wéi)人工智能(néng)落地提(tí)供定(dìng)制化‘数据养料’。”在接(jiē)受钛媒体专访(fǎng)时(shí),云测数(shù)据总经理贾宇航(háng)如是说。
AI数据服务(wù)作为一个非标领域,往(wǎng)往(wǎng)需(xū)要根据不(bú)同行业领域、不同的需(xū)求(qiú)进行特定化的场景(jǐng)定制,而数据标(biāo)注的过程,规范化(huà)、标(biāo)准化以(yǐ)及可(kě)机读(dú)性又不可或缺,这就(jiù)意味着云测数据所从事的领域,并没有(yǒu)捷径可以走。
早期的(de)数据标注服(fú)务门槛并不(bú)高,几个人、几台电(diàn)脑便可(kě)展开操(cāo)作,导致了行业(yè)鱼龙(lóng)混杂、同质化竞争(zhēng)等现象,而这时的人工智能也处在初(chū)期发(fā)展阶(jiē)段(duàn)。但当人工智能驶入深水区,“应用人(rén)智能”声势逐渐火热,相对应的算(suàn)法对(duì)数据的精(jīng)准程度和质量要(yào)求(qiú)也水涨(zhǎng)船高(gāo),就要求(qiú)着作为AI数据服务(wù)的提供(gòng)者(zhě),要为(wéi)人(rén)工智能(néng)提供定(dìng)制化的、还原应用场景(jǐng)的优质数据。
针对于此(cǐ),贾宇航告诉钛(tài)媒体(tǐ),“以人脸(liǎn)关键点识别为例,早先的相关数(shù)据标注往(wǎng)往用(yòng)一句话(huà)便可描述完它(tā)的(de)任务需求,到了现在,已(yǐ)经发展到几百个(gè)关键点。通常数量级的人脸(liǎn)数据标注任务,有时(shí)候4张(zhāng)A4纸(zhǐ)都(dōu)未必能写(xiě)完这些需求,而人脸的数据标注只是众多领(lǐng)域的任务需求之(zhī)一。”
庞大数据(jù)标注任务量级之下,是当下业内需求端对精准和高质数据的(de)普(pǔ)遍共识。
这就要求着数(shù)据(jù)服务(wù)要在数据标注和采集上(shàng)下足功夫,而小团(tuán)队的能力范围则显得捉襟见肘。回归(guī)到数(shù)据标注面向多(duō)领(lǐng)域这件事的本质时,你(nǐ)又(yòu)会(huì)发现(xiàn),光靠(kào)人多或者(zhě)说采用“众包”模(mó)式往(wǎng)往(wǎng)只能解决量的需求,数据标注人员是否能统一(yī)化(huà)协同管理以(yǐ)及是(shì)否具(jù)备相(xiàng)关领域知识,才(cái)是决定某项(xiàng)数(shù)据任(rèn)务完(wán)成质量的好坏。
同时,这(zhè)也是云测数据当(dāng)下正专注的事情。正如医生可以标注得好ct诊疗片,而(ér)云(yún)测数据团队在进行自动驾驶车(chē)外(wài)环(huán)境数据标注时发现,那些能够快速、精(jīng)准(zhǔn)进行数据标注(zhù)的人(rén)员往往拥有驾(jià)驶经验。
云测(cè)数(shù)据快速成长的秘诀是什么(me)?
至此,我们(men)还需要(yào)思(sī)考一个问(wèn)题,为什么云测数据能做(zuò)到且做好AI数据服务?
通过观察Testin云测的发展(zhǎn)历史,我们便能找到答案。
自2011年Testin云测(cè)成立到现在,已经为(wéi)全球超(chāo)过(guò)百万的企业及开发者提供服(fú)务,积(jī)累了(le)丰富且完善的技术能力(lì)和流程化管理能力。而云测数据AI数据服(fú)务正式开展于2017年,换句换说,Testin云测的数据业务线从一出生便拥有7年(nián)企业(yè)服务所积攒的经验,并(bìng)继承了(le)行业独立第三(sān)方的角色(sè),天然的“以(yǐ)客(kè)户为中心”的企服基因(yīn)是云测数据区别(bié)于同行的最大(dà)护(hù)城河,而客户最(zuì)为关键的诉求则是“降本增效”。
“与企业服务在(zài)美国环境更侧(cè)重标准(zhǔn)不同的是,中(zhōng)国更重服务(wù),通过(guò)这么多年的观察我们发现,是否能切实满足(zú)用户的真(zhēn)实需求,其实是一(yī)个非常重要的点,并不是(shì)说企(qǐ)业一定要做出一个平台或者一个工具,更多是从企业或行业需求出发,构建(jiàn)对应的服务模式。”贾宇航对钛媒(méi)体补充到。
以新零售门店巡检为例,通常来说,每个门店每月都(dōu)要巡检一次,门店巡检模式是让一个人拿着调(diào)研表去(qù)盘点,随着人工(gōng)成(chéng)本(běn)的增加,而门店数越(yuè)来(lái)越多现实情(qíng)况(kuàng),已经让(ràng)这成(chéng)为一笔不小的(de)开销。通过引入AI数(shù)据服务,现在(zài)工作(zuò)人员可以拿一个(gè)手(shǒu)机APP直接巡检(jiǎn),物品的数(shù)量、sku的数量以及对应的sq数量,都能一目了然。
“从不同客户反馈得知,通过我们云测数(shù)据(jù)的数(shù)据标注服务而落地AI产品的企业(yè),可为企(qǐ)业(yè)减(jiǎn)少大概(gài)1/3的人工成本。”贾宇航如是(shì)说。
门店巡检只(zhī)是案例之一,就目前来说,云测数(shù)据主要关(guān)注智能驾驶、智慧城(chéng)市、智慧金融和智能家居几大方向(xiàng),这也是当下市场需求最大(dà)的几个领域。面对不同的(de)数(shù)据领域,云测数据通过流水化(huà)作业,将各个环节(jiē)打造(zào)成不同模块(kuài),并配合自己的流程管理工具,优(yōu)化人(rén)员管理(lǐ)、数(shù)据(jù)采集、数据清洗和数据标(biāo)注的各个环节流程(chéng),确保内部的持(chí)续高效能运转,最终保证AI数(shù)据高(gāo)质(zhì)产出。
根据IDC调查显(xiǎn)示,目(mù)前(qián)中国大数(shù)据发(fā)展处(chù)于应用落地阶段,整(zhěng)个市场预计未来五年将(jiāng)保持持续增长的趋(qū)势,年复合增长(zhǎng)率将达到(dào)17.3%。而得益于(yú)人工智能、5G、区块链(liàn)、边缘计算的发展,未来(lái)多方技术(shù)融(róng)合,数据增长必然呈现井喷(pēn)态势,数据采集和标准业务作为其伴(bàn)生体,必然(rán)有较大(dà)的增长空间。
得(dé)益于对AI趋势的判断(duàn),Testin云测认为,“人(rén)工智(zhì)能(néng)正在逐渐往应用人(rén)工智能(néng)”方向发展,因而(ér)云测数据在成立之初,就确定了定制化“精准高质、独(dú)立安全”业务方针(zhēn)。本着这张“王牌”,云测数据部门迅速扩充,在以往企业服务经验的完美嫁接之下(xià),最终(zhōng)让云测数(shù)据成为AI数据服务领域的头部企业。”
“云测数据业务规模量每年都(dōu)在以倍(bèi)数的(de)规模增长,这也与我们所处赛道的市场(chǎng)深度息息相关(guān),在我看来,整个市(shì)场仍然呈(chéng)现非线(xiàn)性的几何增长态势,还有很多(duō)机(jī)会蕴含其中,有待挖掘。”谈及云测(cè)数据业务线发展状态时,贾宇航如是说。
“安全”是AI数据服务提(tí)供(gòng)商绕不开的(de)命题
机会之下,企业(yè)端在提(tí)供优质数据的同时,也要注意数据服务过程中(zhōng)的规范(fàn)和安全。
在这方面(miàn),云测数据通过自建数据采集实验室和自建数据标注基地的方式,规范管理专(zhuān)职数据服务团队(duì)。这种措(cuò)施(shī)除了保(bǎo)证标注(zhù)数据的质量和效率,也最大限度地(dì)保证(zhèng)了(le)数据产出的(de)安全隐(yǐn)私性。
贾(jiǎ)宇航对钛媒体(tǐ)强调到,云测数据自伊始便将数据安(ān)全放在首位(wèi),集中表现在(zài)以下几个方面:
第一,不滥用数据(jù),数据交(jiāo)付(fù)后(hòu)清毁数据不留底,绝不二次使用;
第二(èr),不(bú)侵犯隐私,与所有数据采集的用户都签订数据授权协议,确保(bǎo)AI企业(yè)用于训练的数(shù)据(jù)合法(fǎ)合(hé)规(guī);
第三(sān),建立相关的数据保(bǎo)障(zhàng)机制,如(rú)从防火(huǒ)墙的设(shè)置、内部信息(xī)系统的(de)管护、乃至标准化的流程(chéng)作(zuò)业体系等。
正如Testin云(yún)测CMO张鹏飞多次强(qiáng)调:“即便说云测数据从安全到(dào)隐私(sī)防护这套体系会(huì)加(jiā)重运营(yíng)成本,但从我们行业(yè)大(dà)局发展来看,只(zhī)有以(yǐ)这种负责的态度来(lái)执行工作,我们的行(háng)业才能‘良(liáng)币驱(qū)除劣币’。”