

曠視亮相CVPR 2018:融合基礎(chǔ)研究與產(chǎn)業(yè)落地的學(xué)術(shù)交流盛會(huì)?
?第 31 屆計(jì)算機(jī)視覺(jué)和模式識(shí)別大會(huì) CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國(guó)鹽湖城召開(kāi)。 AI 科技評(píng)論作為唯一申請(qǐng)媒體通道的參會(huì)媒體,對(duì) CVPR 2018 進(jìn)行了全程專(zhuān)題報(bào)道,為國(guó)內(nèi)讀者帶來(lái)更多的現(xiàn)場(chǎng)一手信息。
近年來(lái),隨著深度學(xué)習(xí)的蓬勃發(fā)展,國(guó)內(nèi)企業(yè)深度參與人工智能學(xué)術(shù)頂會(huì)的態(tài)勢(shì)十分火熱,在一個(gè)享有國(guó)際聲譽(yù)的、被全球?qū)W者所認(rèn)可的學(xué)術(shù)會(huì)議上發(fā)出自己獨(dú)特的聲音,不僅是目前工業(yè)界涉足人工智能學(xué)術(shù)研究的一種展現(xiàn)形式,更是國(guó)內(nèi)外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭(zhēng)之地」。
CVPR 既然是人工智能計(jì)算機(jī)視覺(jué)領(lǐng)域最受關(guān)注的學(xué)術(shù)會(huì)議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學(xué)術(shù)實(shí)力的一項(xiàng)「硬指標(biāo)」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會(huì)收錄,錄用率約為 29%。而在眾多來(lái)自工業(yè)界的論文中,成立于 2011 年的曠視今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會(huì)收錄。包括 ShuffleNet 移動(dòng)端低功耗設(shè)備模型、語(yǔ)義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決密集遮擋問(wèn)題的 RepLoss 、通過(guò)角點(diǎn)定位和區(qū)域分割檢測(cè)場(chǎng)景文本的全新算法,以及能復(fù)原扭曲文檔圖像的 DocUNet 等多項(xiàng)技術(shù),向與會(huì)學(xué)者們展現(xiàn)了他們?cè)趯W(xué)術(shù)研究上的實(shí)力。
例如,判別特征網(wǎng)絡(luò) DFN 有效解決了語(yǔ)義分割的兩個(gè)基本問(wèn)題——類(lèi)內(nèi)不一致與類(lèi)間無(wú)差別。新型損失函數(shù) RepLoss 有效處理了行人檢測(cè)中密集遮擋的難題。
此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(jì)(CPN)及 COCO 2017 物體檢測(cè)相關(guān)賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。( AI 科技評(píng)論也對(duì)相關(guān)論文做了報(bào)道,見(jiàn)曠視論文三連發(fā),揭秘COCO +Places 2017比賽獲獎(jiǎng)模型)
級(jí)聯(lián)金字塔網(wǎng)絡(luò) CPN 以解決多人姿態(tài)估計(jì)問(wèn)題,這一技術(shù)突破將促進(jìn)人體姿態(tài)估計(jì)相關(guān)應(yīng)用領(lǐng)域的發(fā)展,比如游戲動(dòng)畫(huà)、安防(異常行為檢測(cè)等)和體育(裁判輔助等)。
MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供了一種新型檢測(cè)方法,從精度和速度兩個(gè)核心維度優(yōu)化了物體檢測(cè)技術(shù),可以直接應(yīng)用在安防、新零售和無(wú)人駕駛等領(lǐng)域。
在主會(huì)議的前一天晚上,曠視于現(xiàn)場(chǎng)召開(kāi)了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場(chǎng)計(jì)算機(jī)視覺(jué)青年學(xué)者交流會(huì)。曠視首席科學(xué)家、曠視研究院院長(zhǎng)孫劍,曠視西雅圖研究院長(zhǎng)王玨,香港科技大學(xué)教授權(quán)龍及上??萍即髮W(xué)教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會(huì),同時(shí)吸引了超過(guò) 250 名參會(huì)者。?
孫劍博士首先代表曠視歡迎與會(huì)的老師同學(xué)們,并簡(jiǎn)要介紹了曠視目前的發(fā)展現(xiàn)狀及舉辦青年學(xué)者交流會(huì)的目的。如何既做好基礎(chǔ)研究,也做好產(chǎn)品技術(shù)?孫劍博士引用了大學(xué)自動(dòng)控制老師的教導(dǎo):既做神,也做鬼。既要腳踏實(shí)地,又要仰望星空,一家企業(yè)的基礎(chǔ)研究建設(shè)絕非一朝一夕所能達(dá)成,它也將為產(chǎn)品的落地提供扎實(shí)的技術(shù)實(shí)力。王玨博士、權(quán)龍教授和虞晶怡教授也相繼上臺(tái)發(fā)表講話?,F(xiàn)場(chǎng)不僅有堪稱本屆CVPR最為美味的點(diǎn)心,還有各種品類(lèi)的美酒供與會(huì)者享用,更重要的是,現(xiàn)場(chǎng)還進(jìn)行了激動(dòng)人心的抽獎(jiǎng)環(huán)節(jié)。
在孫劍博士看來(lái),論文并不是工業(yè)界做研究的必然結(jié)果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對(duì)于企業(yè)而言,不論是否有論文產(chǎn)出的需求,如何設(shè)計(jì)更為輕量級(jí)的模型結(jié)構(gòu)一直是移動(dòng)端應(yīng)用落地的重要問(wèn)題。因此,曠視團(tuán)隊(duì)以高效卷積層設(shè)計(jì)減少計(jì)算復(fù)雜度的方式,提升了內(nèi)存訪問(wèn)效率和計(jì)算速度。在去年完成這一論文并投遞 CVPR 2018 后,團(tuán)隊(duì)也并沒(méi)有止步于此,早在 VALSE 2018 上已對(duì) V2 版本有所披露。
但是,產(chǎn)業(yè)界的研究與做學(xué)術(shù)研究其實(shí)也有著共通之處,在孫劍博士的理解中都會(huì)遵循某種 pattern:先從精度入手以探尋認(rèn)知邊界,再進(jìn)一步考慮速度和效率因素,最終達(dá)成一個(gè)超過(guò)產(chǎn)品實(shí)用紅線的平衡點(diǎn)。本次曠視舉辦「鹽湖城 AI 之夜」,旨在吸引更多對(duì)計(jì)算機(jī)視覺(jué)、對(duì)AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。
在今年 CVPR 2018 上,曠視也分別在兩項(xiàng)挑戰(zhàn)賽上斬獲單項(xiàng)雙料冠軍——AVA 和 WAD。曠視累計(jì)獲得過(guò) 15 項(xiàng)人工智能技術(shù)評(píng)測(cè)冠軍,早在 2013 年 12 月便成為了世界上首個(gè)拿到人臉識(shí)別三項(xiàng)世界冠軍的公司,并在 2017 年 10 月成為首個(gè)拿下 COCO、Places 全球圖像識(shí)別大賽三項(xiàng)冠軍的國(guó)內(nèi)公司。
今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進(jìn)一步拓展視頻語(yǔ)義理解的邊界。其中的 Task B——時(shí)空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評(píng)估算法對(duì)人類(lèi)行為時(shí)空信息的定位能力,其中每個(gè)標(biāo)注的視頻片段連續(xù)且超過(guò) 15 分鐘,包含多個(gè)主體,每個(gè)主體有多個(gè)行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個(gè)挑戰(zhàn)賽中,曠視均獲得第一名。
?曠視 Research Leader、Detection 組負(fù)責(zé)人俞剛博士介紹,這一任務(wù)將動(dòng)作細(xì)化到了原子級(jí)別,需要在任務(wù)中判斷人類(lèi)行為主體的位置,發(fā)生了哪些動(dòng)作,又與其它物體/其它人發(fā)生了哪些交互。行為時(shí)空信息的定位能力在視頻分析上有著非常大的意義。
WAD(Workshop on Autonomous Driving)同樣是一項(xiàng)由 CVPR 2018 workshop 主辦的自動(dòng)駕駛識(shí)別挑戰(zhàn)賽,其中的 Task 4 ——實(shí)例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內(nèi)實(shí)現(xiàn)對(duì)移動(dòng)物體(比如汽車(chē)和行人)實(shí)例級(jí)別的分割。這一賽事基于百度提供的標(biāo)注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開(kāi)放了 14.7 萬(wàn)幀的像素級(jí)語(yǔ)義標(biāo)注圖像,包括感知分類(lèi)和路網(wǎng)數(shù)據(jù)等數(shù)十萬(wàn)幀逐像素語(yǔ)義分割標(biāo)注的高分辨率圖像數(shù)據(jù),以及與其對(duì)應(yīng)的逐像素語(yǔ)義標(biāo)注,并將進(jìn)一步涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來(lái)擴(kuò)充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說(shuō)法,ApolloScape 的標(biāo)注精細(xì)度已經(jīng)超過(guò)同類(lèi)型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過(guò) UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。
?俞剛博士和在曠視實(shí)習(xí)的清華大學(xué)博士生黎澤明表示,盡管曠視目前并無(wú)涉足自動(dòng)駕駛領(lǐng)域,但團(tuán)隊(duì)本次參加自動(dòng)駕駛相關(guān)的挑戰(zhàn)賽有兩個(gè)主要目的。一個(gè)是驗(yàn)證自身算法的能力,測(cè)試在不同應(yīng)用場(chǎng)景下的算法通用性;另一方面則是檢驗(yàn)自身對(duì)算法的掌握性。而本次獲得雙料冠軍,也印證了曠視在技術(shù)上的積累與對(duì)算法應(yīng)用于不同場(chǎng)景的良好掌控。
自然地,在一個(gè)聚集 6500 多名計(jì)算機(jī)視覺(jué)人才的學(xué)術(shù)頂會(huì)上,如何在現(xiàn)場(chǎng)更好地呈現(xiàn)自己的技術(shù)也成為了每個(gè)企業(yè)需要面臨的命題。作為鉆石贊助商的曠視也一口氣展出了 10 余個(gè) demo。正如孫劍博士所言:「做計(jì)算機(jī)視覺(jué)最好玩的就是可以做很多好看、好玩、好用的黑科技。」
除了艾瑞思 VSLAM 的倉(cāng)儲(chǔ)機(jī)器技術(shù)是唯一的演示視頻,「街頭霸王對(duì)打」出于場(chǎng)地和網(wǎng)絡(luò)延遲的考慮也采用了視頻演示的方式之外,曠視本次在 CVPR 2018 上的其它所有 demo 均是實(shí)時(shí)演示,以更好地與現(xiàn)場(chǎng)的與會(huì)者進(jìn)行互動(dòng),而在體驗(yàn)的過(guò)程中,大家也能充分感受到曠視對(duì)于技術(shù)的一份實(shí)力和自信。
孫劍博士介紹道,「計(jì)算機(jī)視覺(jué)的真正威力在于線下場(chǎng)景的實(shí)時(shí)系統(tǒng)中。曠視本次帶過(guò)來(lái)的一些 demo 都是組里覺(jué)得比較好玩,又具有實(shí)際意義的項(xiàng)目。像街頭霸王這個(gè) demo,也是兩個(gè)星期前同事們測(cè)試完成的,用戶可以借助肢體動(dòng)作,實(shí)時(shí)控制街頭霸王游戲中角色的操作。它的背后其實(shí)應(yīng)用了人體檢測(cè)(Human Detection)、多人姿態(tài)估計(jì)(Multi-Person Pose Estimation)和實(shí)時(shí)動(dòng)作識(shí)別(Real-time Action Recognition)等多種技術(shù),未來(lái)在零售、安防等領(lǐng)域都具有非常多的實(shí)際應(yīng)用意義。」
艾瑞思(Ares)倉(cāng)儲(chǔ)機(jī)器人的 demo 視頻演示了曠視 SLAM 機(jī)器人的技術(shù)與應(yīng)用場(chǎng)景,在建圖、定位、導(dǎo)航、避障等功能上,能夠創(chuàng)建室內(nèi)高精地圖,擁有魯棒精確的實(shí)時(shí)定位并能實(shí)時(shí)進(jìn)行柔性行人避障,在物流、工業(yè)制造、新零售領(lǐng)域具有廣泛應(yīng)用前景。?
密集場(chǎng)景人群檢測(cè)數(shù)據(jù)集 CrowdHuman 于今年 5 月開(kāi)源,為密集場(chǎng)景下的檢測(cè)難題提供了具有價(jià)值的研究工作。據(jù)俞剛博士表示,在密集場(chǎng)景之下做檢測(cè)是一項(xiàng)非常有挑戰(zhàn)、有實(shí)際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個(gè) benchmark 的特點(diǎn)是主要做行人檢測(cè),一方面,數(shù)據(jù)標(biāo)注涵蓋頭部位置,人體的可見(jiàn)框和完整框,并且人框與頭框之間有綁定關(guān)系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。
本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡(luò) FPN, 在 CrowdHuman 數(shù)據(jù)集上訓(xùn)練,使用了 Repulsion Loss 和一些其他目前還沒(méi)有公開(kāi)的方法(主要是為了解決 NMS 帶來(lái)的瓶頸)??梢钥吹剑跁?huì)場(chǎng)這種密集人群的典型場(chǎng)景下,系統(tǒng)的表現(xiàn)相當(dāng)不錯(cuò)。
除了密集場(chǎng)景人類(lèi)檢測(cè)數(shù)據(jù)集 CrowdHuman外,非標(biāo)準(zhǔn)化商品智能收銀和 CVPR 論文作者識(shí)別兩個(gè) demo 本次也在 CVPR 2018 上呈現(xiàn)。
曠視南京研究院帶來(lái)的智能輔助收銀解決了通常需要人工結(jié)算的非標(biāo)準(zhǔn)化商品的收銀問(wèn)題。以面包店為例的 demo 場(chǎng)景可以在確保精度的同時(shí)大幅提升結(jié)算效率。此外,該系統(tǒng)可輕易擴(kuò)展到其它非標(biāo)品收銀的應(yīng)用中,將成為輔助非標(biāo)準(zhǔn)化商品收銀的 AI 利器。
「CVPR 作者識(shí)別」是為本次大會(huì)專(zhuān)門(mén)定制的 Koala 系統(tǒng)應(yīng)用案例(Koala 是一款由曠視研發(fā)的智能迎賓機(jī)器人),通過(guò)使用 Google Scholar、Twitter 上的作者公開(kāi)信息為底庫(kù),當(dāng)人臉出現(xiàn)在攝像頭可視范圍內(nèi)時(shí),Koala 將自動(dòng)檢測(cè)出視頻中的人臉并提取人臉特征。若被攝者是會(huì)議作者之一,姓名、H-index 以及本次會(huì)議發(fā)表的代表性論文將會(huì)展示在彈出卡片上。
在展會(huì)現(xiàn)場(chǎng),雷鋒網(wǎng)還看到了曠視帶來(lái)的眾多移動(dòng)端 demo。像移動(dòng)端實(shí)時(shí)通用物體和人體關(guān)鍵點(diǎn)檢測(cè)這兩個(gè) demo,在精度與速度上都推動(dòng)了產(chǎn)業(yè)化落地的速度,未來(lái)有期在各種場(chǎng)景的檢測(cè)上發(fā)揮作用。
再比如目前已經(jīng)應(yīng)用在數(shù)十款安卓手機(jī)的人臉實(shí)時(shí)解鎖技術(shù),融合識(shí)別、活體檢測(cè)、注意力判斷等多項(xiàng)技術(shù)的這一功能可以幫助手機(jī)在安全情境下進(jìn)行高效自然解鎖。
而 Animoji 是一款基于深度學(xué)習(xí)的三維重建應(yīng)用,能將人類(lèi)表情進(jìn)行實(shí)時(shí)分析,并轉(zhuǎn)移到可愛(ài)的卡通形象中,可應(yīng)用于實(shí)時(shí)視頻聊天、表情包制作等多項(xiàng)功能。
此外,還有以手機(jī)背景虛化和手機(jī)人像光效技術(shù)為代表的移動(dòng)端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負(fù)責(zé)人王玨表示,從去年一直到未來(lái)相當(dāng)長(zhǎng)一段時(shí)間,西雅圖研究院的主要工作會(huì)集中在移動(dòng)端,特別是手機(jī)方面。
手機(jī)所面臨的人工智能相關(guān)命題主要有兩方面,一個(gè)是安全,即解鎖、支付等相關(guān)功能,涉及人臉識(shí)別、活體檢測(cè)等功能;另一個(gè)是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。
作為前美國(guó) Adobe 研究院首席科學(xué)家,王玨博士在去年 5 月加入曠視之后,曠視也開(kāi)始更多涉及影像領(lǐng)域的研究。手機(jī)作為一個(gè)復(fù)雜性極高的計(jì)算機(jī)系統(tǒng),如何充分挖掘它的計(jì)算資源,這也對(duì)模型的性能及功耗提出了更高的要求。而在研發(fā)的過(guò)程中,王玨博士也深刻體會(huì)到曠視的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖伲@也讓曾經(jīng)囿于大公司冗長(zhǎng)流程的他感到驚喜不已。
對(duì)于一個(gè)研發(fā)人員占比超過(guò) 50% 的企業(yè),曠視密切關(guān)注研究體系的建設(shè)與投入。自2017 年起,從體系架構(gòu)和學(xué)術(shù)合作領(lǐng)域向全球范圍延伸。曠視先后在美國(guó)西雅圖、南京及成都設(shè)立了研究分院,由孫劍博士統(tǒng)領(lǐng),王玨任西雅圖研究院負(fù)責(zé)人;在研究領(lǐng)域上,每個(gè)研究分院各有側(cè)重和分工:如西雅圖研究院注重北美市場(chǎng)的開(kāi)拓,同時(shí)獨(dú)立承擔(dān)創(chuàng)新業(yè)務(wù)的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點(diǎn)關(guān)注智能倉(cāng)儲(chǔ))業(yè)務(wù)線展開(kāi)基礎(chǔ)研發(fā)和產(chǎn)業(yè)落地的工作。
此外,與高校機(jī)構(gòu)保持密切合作也同樣成為曠視深化學(xué)術(shù)研究的一大途徑。同樣是在 2017 年開(kāi)始,曠視先后與西安交通大學(xué)、香港科技大學(xué)、上??萍即髮W(xué)等高校建立人工智能聯(lián)合實(shí)驗(yàn)室;并在 2017 年成立學(xué)術(shù)委員會(huì),由圖靈獎(jiǎng)國(guó)內(nèi)唯一得主姚期智院士擔(dān)任首席顧問(wèn)。
創(chuàng)業(yè)公司為何要做基礎(chǔ)研究,在孫劍博士的理解中包括兩個(gè)方面的原因:首先是自我實(shí)現(xiàn),研究員如果發(fā)現(xiàn)了一個(gè)具有創(chuàng)新性的突破點(diǎn),那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認(rèn)可,在學(xué)術(shù)會(huì)議上發(fā)表論文、或是將產(chǎn)品落地到實(shí)際應(yīng)用上,會(huì)讓更多的人看到并認(rèn)可你的想法,得到又一次的正向反饋。
「曠視是一家有追求的公司。這個(gè)追求包含兩個(gè)方面的含義,一個(gè)是,團(tuán)隊(duì)的每個(gè)人都希望能做最頂尖的技術(shù);另一個(gè)是,企業(yè)在商業(yè)化落地能腳踏實(shí)地,產(chǎn)品可以真正為用戶帶來(lái)價(jià)值?!雇醌k博士認(rèn)為,從更長(zhǎng)遠(yuǎn)的角度來(lái)看,曠視不僅希望在 AI 領(lǐng)域,更希望能在整個(gè)科技領(lǐng)域成為重要的助推者甚至是領(lǐng)導(dǎo)者?!笧榱巳斯ぶ悄芙K將創(chuàng)造的所有美好」,也是曠視對(duì)這一信念的最佳詮釋。
「追求極致,簡(jiǎn)單可靠」,是曠視科技一直以來(lái)秉承的研究?jī)r(jià)值觀。不論是理論還是算法,孫劍博士及其團(tuán)隊(duì)都希望能做出一些簡(jiǎn)單而實(shí)用的工作,也為吸引具有同樣價(jià)值觀的人才埋下注腳?!冈趧?chuàng)新的過(guò)程中,自我實(shí)現(xiàn)所帶來(lái)的價(jià)值會(huì)不斷地激勵(lì)整個(gè)團(tuán)隊(duì)往前走,而外部的認(rèn)可又會(huì)吸引更多的群體加入曠視科技,形成良性循環(huán)?!箤O劍博士如是說(shuō)。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗(yàn)分享,加上同期的 CV 線下分享交流會(huì),曠視科技向 6000 名 CVPR 2018 學(xué)者們帶來(lái)了一場(chǎng)產(chǎn)學(xué)研緊密融合的盛宴,相信在未來(lái),曠視也會(huì)持續(xù)向用戶們帶來(lái)更多精彩的最新落地成果,吸引更多的青年學(xué)生們加入這個(gè)務(wù)實(shí)求真的團(tuán)隊(duì)當(dāng)中。
AI 科技評(píng)論報(bào)道。
曠視亮相CVPR 2018:融合基礎(chǔ)研究與產(chǎn)業(yè)落地的學(xué)術(shù)交流盛會(huì)?
?第 31 屆計(jì)算機(jī)視覺(jué)和模式識(shí)別大會(huì) CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國(guó)鹽湖城召開(kāi)。 AI 科技評(píng)論作為唯一申請(qǐng)媒體通道的參會(huì)媒體,對(duì) CVPR 2018 進(jìn)行了全程專(zhuān)題報(bào)道,為國(guó)內(nèi)讀者帶來(lái)更多的現(xiàn)場(chǎng)一手信息。
近年來(lái),隨著深度學(xué)習(xí)的蓬勃發(fā)展,國(guó)內(nèi)企業(yè)深度參與人工智能學(xué)術(shù)頂會(huì)的態(tài)勢(shì)十分火熱,在一個(gè)享有國(guó)際聲譽(yù)的、被全球?qū)W者所認(rèn)可的學(xué)術(shù)會(huì)議上發(fā)出自己獨(dú)特的聲音,不僅是目前工業(yè)界涉足人工智能學(xué)術(shù)研究的一種展現(xiàn)形式,更是國(guó)內(nèi)外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭(zhēng)之地」。
CVPR 既然是人工智能計(jì)算機(jī)視覺(jué)領(lǐng)域最受關(guān)注的學(xué)術(shù)會(huì)議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學(xué)術(shù)實(shí)力的一項(xiàng)「硬指標(biāo)」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會(huì)收錄,錄用率約為 29%。而在眾多來(lái)自工業(yè)界的論文中,成立于 2011 年的曠視今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會(huì)收錄。包括 ShuffleNet 移動(dòng)端低功耗設(shè)備模型、語(yǔ)義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決密集遮擋問(wèn)題的 RepLoss 、通過(guò)角點(diǎn)定位和區(qū)域分割檢測(cè)場(chǎng)景文本的全新算法,以及能復(fù)原扭曲文檔圖像的 DocUNet 等多項(xiàng)技術(shù),向與會(huì)學(xué)者們展現(xiàn)了他們?cè)趯W(xué)術(shù)研究上的實(shí)力。
例如,判別特征網(wǎng)絡(luò) DFN 有效解決了語(yǔ)義分割的兩個(gè)基本問(wèn)題——類(lèi)內(nèi)不一致與類(lèi)間無(wú)差別。新型損失函數(shù) RepLoss 有效處理了行人檢測(cè)中密集遮擋的難題。
此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(jì)(CPN)及 COCO 2017 物體檢測(cè)相關(guān)賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。( AI 科技評(píng)論也對(duì)相關(guān)論文做了報(bào)道,見(jiàn)曠視論文三連發(fā),揭秘COCO +Places 2017比賽獲獎(jiǎng)模型)
級(jí)聯(lián)金字塔網(wǎng)絡(luò) CPN 以解決多人姿態(tài)估計(jì)問(wèn)題,這一技術(shù)突破將促進(jìn)人體姿態(tài)估計(jì)相關(guān)應(yīng)用領(lǐng)域的發(fā)展,比如游戲動(dòng)畫(huà)、安防(異常行為檢測(cè)等)和體育(裁判輔助等)。
MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供了一種新型檢測(cè)方法,從精度和速度兩個(gè)核心維度優(yōu)化了物體檢測(cè)技術(shù),可以直接應(yīng)用在安防、新零售和無(wú)人駕駛等領(lǐng)域。
在主會(huì)議的前一天晚上,曠視于現(xiàn)場(chǎng)召開(kāi)了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場(chǎng)計(jì)算機(jī)視覺(jué)青年學(xué)者交流會(huì)。曠視首席科學(xué)家、曠視研究院院長(zhǎng)孫劍,曠視西雅圖研究院長(zhǎng)王玨,香港科技大學(xué)教授權(quán)龍及上??萍即髮W(xué)教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會(huì),同時(shí)吸引了超過(guò) 250 名參會(huì)者。?
孫劍博士首先代表曠視歡迎與會(huì)的老師同學(xué)們,并簡(jiǎn)要介紹了曠視目前的發(fā)展現(xiàn)狀及舉辦青年學(xué)者交流會(huì)的目的。如何既做好基礎(chǔ)研究,也做好產(chǎn)品技術(shù)?孫劍博士引用了大學(xué)自動(dòng)控制老師的教導(dǎo):既做神,也做鬼。既要腳踏實(shí)地,又要仰望星空,一家企業(yè)的基礎(chǔ)研究建設(shè)絕非一朝一夕所能達(dá)成,它也將為產(chǎn)品的落地提供扎實(shí)的技術(shù)實(shí)力。王玨博士、權(quán)龍教授和虞晶怡教授也相繼上臺(tái)發(fā)表講話?,F(xiàn)場(chǎng)不僅有堪稱本屆CVPR最為美味的點(diǎn)心,還有各種品類(lèi)的美酒供與會(huì)者享用,更重要的是,現(xiàn)場(chǎng)還進(jìn)行了激動(dòng)人心的抽獎(jiǎng)環(huán)節(jié)。
在孫劍博士看來(lái),論文并不是工業(yè)界做研究的必然結(jié)果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對(duì)于企業(yè)而言,不論是否有論文產(chǎn)出的需求,如何設(shè)計(jì)更為輕量級(jí)的模型結(jié)構(gòu)一直是移動(dòng)端應(yīng)用落地的重要問(wèn)題。因此,曠視團(tuán)隊(duì)以高效卷積層設(shè)計(jì)減少計(jì)算復(fù)雜度的方式,提升了內(nèi)存訪問(wèn)效率和計(jì)算速度。在去年完成這一論文并投遞 CVPR 2018 后,團(tuán)隊(duì)也并沒(méi)有止步于此,早在 VALSE 2018 上已對(duì) V2 版本有所披露。
但是,產(chǎn)業(yè)界的研究與做學(xué)術(shù)研究其實(shí)也有著共通之處,在孫劍博士的理解中都會(huì)遵循某種 pattern:先從精度入手以探尋認(rèn)知邊界,再進(jìn)一步考慮速度和效率因素,最終達(dá)成一個(gè)超過(guò)產(chǎn)品實(shí)用紅線的平衡點(diǎn)。本次曠視舉辦「鹽湖城 AI 之夜」,旨在吸引更多對(duì)計(jì)算機(jī)視覺(jué)、對(duì)AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。
在今年 CVPR 2018 上,曠視也分別在兩項(xiàng)挑戰(zhàn)賽上斬獲單項(xiàng)雙料冠軍——AVA 和 WAD。曠視累計(jì)獲得過(guò) 15 項(xiàng)人工智能技術(shù)評(píng)測(cè)冠軍,早在 2013 年 12 月便成為了世界上首個(gè)拿到人臉識(shí)別三項(xiàng)世界冠軍的公司,并在 2017 年 10 月成為首個(gè)拿下 COCO、Places 全球圖像識(shí)別大賽三項(xiàng)冠軍的國(guó)內(nèi)公司。
今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進(jìn)一步拓展視頻語(yǔ)義理解的邊界。其中的 Task B——時(shí)空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評(píng)估算法對(duì)人類(lèi)行為時(shí)空信息的定位能力,其中每個(gè)標(biāo)注的視頻片段連續(xù)且超過(guò) 15 分鐘,包含多個(gè)主體,每個(gè)主體有多個(gè)行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個(gè)挑戰(zhàn)賽中,曠視均獲得第一名。
?曠視 Research Leader、Detection 組負(fù)責(zé)人俞剛博士介紹,這一任務(wù)將動(dòng)作細(xì)化到了原子級(jí)別,需要在任務(wù)中判斷人類(lèi)行為主體的位置,發(fā)生了哪些動(dòng)作,又與其它物體/其它人發(fā)生了哪些交互。行為時(shí)空信息的定位能力在視頻分析上有著非常大的意義。
WAD(Workshop on Autonomous Driving)同樣是一項(xiàng)由 CVPR 2018 workshop 主辦的自動(dòng)駕駛識(shí)別挑戰(zhàn)賽,其中的 Task 4 ——實(shí)例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內(nèi)實(shí)現(xiàn)對(duì)移動(dòng)物體(比如汽車(chē)和行人)實(shí)例級(jí)別的分割。這一賽事基于百度提供的標(biāo)注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開(kāi)放了 14.7 萬(wàn)幀的像素級(jí)語(yǔ)義標(biāo)注圖像,包括感知分類(lèi)和路網(wǎng)數(shù)據(jù)等數(shù)十萬(wàn)幀逐像素語(yǔ)義分割標(biāo)注的高分辨率圖像數(shù)據(jù),以及與其對(duì)應(yīng)的逐像素語(yǔ)義標(biāo)注,并將進(jìn)一步涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來(lái)擴(kuò)充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說(shuō)法,ApolloScape 的標(biāo)注精細(xì)度已經(jīng)超過(guò)同類(lèi)型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過(guò) UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。
?俞剛博士和在曠視實(shí)習(xí)的清華大學(xué)博士生黎澤明表示,盡管曠視目前并無(wú)涉足自動(dòng)駕駛領(lǐng)域,但團(tuán)隊(duì)本次參加自動(dòng)駕駛相關(guān)的挑戰(zhàn)賽有兩個(gè)主要目的。一個(gè)是驗(yàn)證自身算法的能力,測(cè)試在不同應(yīng)用場(chǎng)景下的算法通用性;另一方面則是檢驗(yàn)自身對(duì)算法的掌握性。而本次獲得雙料冠軍,也印證了曠視在技術(shù)上的積累與對(duì)算法應(yīng)用于不同場(chǎng)景的良好掌控。
自然地,在一個(gè)聚集 6500 多名計(jì)算機(jī)視覺(jué)人才的學(xué)術(shù)頂會(huì)上,如何在現(xiàn)場(chǎng)更好地呈現(xiàn)自己的技術(shù)也成為了每個(gè)企業(yè)需要面臨的命題。作為鉆石贊助商的曠視也一口氣展出了 10 余個(gè) demo。正如孫劍博士所言:「做計(jì)算機(jī)視覺(jué)最好玩的就是可以做很多好看、好玩、好用的黑科技?!?/span>
除了艾瑞思 VSLAM 的倉(cāng)儲(chǔ)機(jī)器技術(shù)是唯一的演示視頻,「街頭霸王對(duì)打」出于場(chǎng)地和網(wǎng)絡(luò)延遲的考慮也采用了視頻演示的方式之外,曠視本次在 CVPR 2018 上的其它所有 demo 均是實(shí)時(shí)演示,以更好地與現(xiàn)場(chǎng)的與會(huì)者進(jìn)行互動(dòng),而在體驗(yàn)的過(guò)程中,大家也能充分感受到曠視對(duì)于技術(shù)的一份實(shí)力和自信。
孫劍博士介紹道,「計(jì)算機(jī)視覺(jué)的真正威力在于線下場(chǎng)景的實(shí)時(shí)系統(tǒng)中。曠視本次帶過(guò)來(lái)的一些 demo 都是組里覺(jué)得比較好玩,又具有實(shí)際意義的項(xiàng)目。像街頭霸王這個(gè) demo,也是兩個(gè)星期前同事們測(cè)試完成的,用戶可以借助肢體動(dòng)作,實(shí)時(shí)控制街頭霸王游戲中角色的操作。它的背后其實(shí)應(yīng)用了人體檢測(cè)(Human Detection)、多人姿態(tài)估計(jì)(Multi-Person Pose Estimation)和實(shí)時(shí)動(dòng)作識(shí)別(Real-time Action Recognition)等多種技術(shù),未來(lái)在零售、安防等領(lǐng)域都具有非常多的實(shí)際應(yīng)用意義?!?/span>
艾瑞思(Ares)倉(cāng)儲(chǔ)機(jī)器人的 demo 視頻演示了曠視 SLAM 機(jī)器人的技術(shù)與應(yīng)用場(chǎng)景,在建圖、定位、導(dǎo)航、避障等功能上,能夠創(chuàng)建室內(nèi)高精地圖,擁有魯棒精確的實(shí)時(shí)定位并能實(shí)時(shí)進(jìn)行柔性行人避障,在物流、工業(yè)制造、新零售領(lǐng)域具有廣泛應(yīng)用前景。?
密集場(chǎng)景人群檢測(cè)數(shù)據(jù)集 CrowdHuman 于今年 5 月開(kāi)源,為密集場(chǎng)景下的檢測(cè)難題提供了具有價(jià)值的研究工作。據(jù)俞剛博士表示,在密集場(chǎng)景之下做檢測(cè)是一項(xiàng)非常有挑戰(zhàn)、有實(shí)際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個(gè) benchmark 的特點(diǎn)是主要做行人檢測(cè),一方面,數(shù)據(jù)標(biāo)注涵蓋頭部位置,人體的可見(jiàn)框和完整框,并且人框與頭框之間有綁定關(guān)系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。
本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡(luò) FPN, 在 CrowdHuman 數(shù)據(jù)集上訓(xùn)練,使用了 Repulsion Loss 和一些其他目前還沒(méi)有公開(kāi)的方法(主要是為了解決 NMS 帶來(lái)的瓶頸)??梢钥吹?,在會(huì)場(chǎng)這種密集人群的典型場(chǎng)景下,系統(tǒng)的表現(xiàn)相當(dāng)不錯(cuò)。
除了密集場(chǎng)景人類(lèi)檢測(cè)數(shù)據(jù)集 CrowdHuman外,非標(biāo)準(zhǔn)化商品智能收銀和 CVPR 論文作者識(shí)別兩個(gè) demo 本次也在 CVPR 2018 上呈現(xiàn)。
曠視南京研究院帶來(lái)的智能輔助收銀解決了通常需要人工結(jié)算的非標(biāo)準(zhǔn)化商品的收銀問(wèn)題。以面包店為例的 demo 場(chǎng)景可以在確保精度的同時(shí)大幅提升結(jié)算效率。此外,該系統(tǒng)可輕易擴(kuò)展到其它非標(biāo)品收銀的應(yīng)用中,將成為輔助非標(biāo)準(zhǔn)化商品收銀的 AI 利器。
「CVPR 作者識(shí)別」是為本次大會(huì)專(zhuān)門(mén)定制的 Koala 系統(tǒng)應(yīng)用案例(Koala 是一款由曠視研發(fā)的智能迎賓機(jī)器人),通過(guò)使用 Google Scholar、Twitter 上的作者公開(kāi)信息為底庫(kù),當(dāng)人臉出現(xiàn)在攝像頭可視范圍內(nèi)時(shí),Koala 將自動(dòng)檢測(cè)出視頻中的人臉并提取人臉特征。若被攝者是會(huì)議作者之一,姓名、H-index 以及本次會(huì)議發(fā)表的代表性論文將會(huì)展示在彈出卡片上。
在展會(huì)現(xiàn)場(chǎng),雷鋒網(wǎng)還看到了曠視帶來(lái)的眾多移動(dòng)端 demo。像移動(dòng)端實(shí)時(shí)通用物體和人體關(guān)鍵點(diǎn)檢測(cè)這兩個(gè) demo,在精度與速度上都推動(dòng)了產(chǎn)業(yè)化落地的速度,未來(lái)有期在各種場(chǎng)景的檢測(cè)上發(fā)揮作用。
再比如目前已經(jīng)應(yīng)用在數(shù)十款安卓手機(jī)的人臉實(shí)時(shí)解鎖技術(shù),融合識(shí)別、活體檢測(cè)、注意力判斷等多項(xiàng)技術(shù)的這一功能可以幫助手機(jī)在安全情境下進(jìn)行高效自然解鎖。
而 Animoji 是一款基于深度學(xué)習(xí)的三維重建應(yīng)用,能將人類(lèi)表情進(jìn)行實(shí)時(shí)分析,并轉(zhuǎn)移到可愛(ài)的卡通形象中,可應(yīng)用于實(shí)時(shí)視頻聊天、表情包制作等多項(xiàng)功能。
此外,還有以手機(jī)背景虛化和手機(jī)人像光效技術(shù)為代表的移動(dòng)端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負(fù)責(zé)人王玨表示,從去年一直到未來(lái)相當(dāng)長(zhǎng)一段時(shí)間,西雅圖研究院的主要工作會(huì)集中在移動(dòng)端,特別是手機(jī)方面。
手機(jī)所面臨的人工智能相關(guān)命題主要有兩方面,一個(gè)是安全,即解鎖、支付等相關(guān)功能,涉及人臉識(shí)別、活體檢測(cè)等功能;另一個(gè)是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。
作為前美國(guó) Adobe 研究院首席科學(xué)家,王玨博士在去年 5 月加入曠視之后,曠視也開(kāi)始更多涉及影像領(lǐng)域的研究。手機(jī)作為一個(gè)復(fù)雜性極高的計(jì)算機(jī)系統(tǒng),如何充分挖掘它的計(jì)算資源,這也對(duì)模型的性能及功耗提出了更高的要求。而在研發(fā)的過(guò)程中,王玨博士也深刻體會(huì)到曠視的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖?,這也讓曾經(jīng)囿于大公司冗長(zhǎng)流程的他感到驚喜不已。
對(duì)于一個(gè)研發(fā)人員占比超過(guò) 50% 的企業(yè),曠視密切關(guān)注研究體系的建設(shè)與投入。自2017 年起,從體系架構(gòu)和學(xué)術(shù)合作領(lǐng)域向全球范圍延伸。曠視先后在美國(guó)西雅圖、南京及成都設(shè)立了研究分院,由孫劍博士統(tǒng)領(lǐng),王玨任西雅圖研究院負(fù)責(zé)人;在研究領(lǐng)域上,每個(gè)研究分院各有側(cè)重和分工:如西雅圖研究院注重北美市場(chǎng)的開(kāi)拓,同時(shí)獨(dú)立承擔(dān)創(chuàng)新業(yè)務(wù)的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點(diǎn)關(guān)注智能倉(cāng)儲(chǔ))業(yè)務(wù)線展開(kāi)基礎(chǔ)研發(fā)和產(chǎn)業(yè)落地的工作。
此外,與高校機(jī)構(gòu)保持密切合作也同樣成為曠視深化學(xué)術(shù)研究的一大途徑。同樣是在 2017 年開(kāi)始,曠視先后與西安交通大學(xué)、香港科技大學(xué)、上??萍即髮W(xué)等高校建立人工智能聯(lián)合實(shí)驗(yàn)室;并在 2017 年成立學(xué)術(shù)委員會(huì),由圖靈獎(jiǎng)國(guó)內(nèi)唯一得主姚期智院士擔(dān)任首席顧問(wèn)。
創(chuàng)業(yè)公司為何要做基礎(chǔ)研究,在孫劍博士的理解中包括兩個(gè)方面的原因:首先是自我實(shí)現(xiàn),研究員如果發(fā)現(xiàn)了一個(gè)具有創(chuàng)新性的突破點(diǎn),那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認(rèn)可,在學(xué)術(shù)會(huì)議上發(fā)表論文、或是將產(chǎn)品落地到實(shí)際應(yīng)用上,會(huì)讓更多的人看到并認(rèn)可你的想法,得到又一次的正向反饋。
「曠視是一家有追求的公司。這個(gè)追求包含兩個(gè)方面的含義,一個(gè)是,團(tuán)隊(duì)的每個(gè)人都希望能做最頂尖的技術(shù);另一個(gè)是,企業(yè)在商業(yè)化落地能腳踏實(shí)地,產(chǎn)品可以真正為用戶帶來(lái)價(jià)值。」王玨博士認(rèn)為,從更長(zhǎng)遠(yuǎn)的角度來(lái)看,曠視不僅希望在 AI 領(lǐng)域,更希望能在整個(gè)科技領(lǐng)域成為重要的助推者甚至是領(lǐng)導(dǎo)者?!笧榱巳斯ぶ悄芙K將創(chuàng)造的所有美好」,也是曠視對(duì)這一信念的最佳詮釋。
「追求極致,簡(jiǎn)單可靠」,是曠視科技一直以來(lái)秉承的研究?jī)r(jià)值觀。不論是理論還是算法,孫劍博士及其團(tuán)隊(duì)都希望能做出一些簡(jiǎn)單而實(shí)用的工作,也為吸引具有同樣價(jià)值觀的人才埋下注腳?!冈趧?chuàng)新的過(guò)程中,自我實(shí)現(xiàn)所帶來(lái)的價(jià)值會(huì)不斷地激勵(lì)整個(gè)團(tuán)隊(duì)往前走,而外部的認(rèn)可又會(huì)吸引更多的群體加入曠視科技,形成良性循環(huán)?!箤O劍博士如是說(shuō)。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗(yàn)分享,加上同期的 CV 線下分享交流會(huì),曠視科技向 6000 名 CVPR 2018 學(xué)者們帶來(lái)了一場(chǎng)產(chǎn)學(xué)研緊密融合的盛宴,相信在未來(lái),曠視也會(huì)持續(xù)向用戶們帶來(lái)更多精彩的最新落地成果,吸引更多的青年學(xué)生們加入這個(gè)務(wù)實(shí)求真的團(tuán)隊(duì)當(dāng)中。
AI 科技評(píng)論報(bào)道。