午夜dj在线的www视频在线,亚洲伊人色综合久久天天伊人,天天躁夜夜躁狠狠综合2020,午夜性又黄又爽免费看尤物,中文字幕一区二区三区乱码

核心技術
產品
解決方案
行業(yè)
開發(fā)者
關于曠視
語言
首頁新聞資訊學術活動

CVPR 2018 | 8篇論文、10+Demo、雙料挑戰(zhàn)賽冠軍,曠視掀起CVPR產學研交流熱潮

2018-06-22

曠視亮相CVPR 2018:融合基礎研究與產業(yè)落地的學術交流盛會?

?第 31 屆計算機視覺和模式識別大會 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國鹽湖城召開。 AI 科技評論作為唯一申請媒體通道的參會媒體,對 CVPR 2018 進行了全程專題報道,為國內讀者帶來更多的現(xiàn)場一手信息。

近年來,隨著深度學習的蓬勃發(fā)展,國內企業(yè)深度參與人工智能學術頂會的態(tài)勢十分火熱,在一個享有國際聲譽的、被全球學者所認可的學術會議上發(fā)出自己獨特的聲音,不僅是目前工業(yè)界涉足人工智能學術研究的一種展現(xiàn)形式,更是國內外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭之地」。

Image 071.png

8 篇論文被 CVPR 收錄,多項技術展現(xiàn)研究實力

CVPR 既然是人工智能計算機視覺領域最受關注的學術會議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學術實力的一項「硬指標」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會收錄,錄用率約為 29%。而在眾多來自工業(yè)界的論文中,成立于 2011 年的曠視今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會收錄。包括 ShuffleNet 移動端低功耗設備模型、語義分割的判別特征網(wǎng)絡 DFN優(yōu)化解決密集遮擋問題的 RepLoss 、通過角點定位和區(qū)域分割檢測場景文本的全新算法,以及能復原扭曲文檔圖像的 DocUNet 等多項技術,向與會學者們展現(xiàn)了他們在學術研究上的實力。

例如,判別特征網(wǎng)絡 DFN 有效解決了語義分割的兩個基本問題——類內不一致與類間無差別。新型損失函數(shù) RepLoss 有效處理了行人檢測中密集遮擋的難題。

此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(CPN)及 COCO 2017 物體檢測相關賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。( AI 科技評論也對相關論文做了報道,見曠視論文三連發(fā),揭秘COCO +Places 2017比賽獲獎模型

級聯(lián)金字塔網(wǎng)絡 CPN 以解決多人姿態(tài)估計問題,這一技術突破將促進人體姿態(tài)估計相關應用領域的發(fā)展,比如游戲動畫、安防(異常行為檢測等)和體育(裁判輔助等)。

MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡的訓練提供了一種新型檢測方法,從精度和速度兩個核心維度優(yōu)化了物體檢測技術,可以直接應用在安防、新零售和無人駕駛等領域。

「鹽湖城 AI 之夜」,CV青年學者交流會

在主會議的前一天晚上,曠視于現(xiàn)場召開了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場計算機視覺青年學者交流會。曠視首席科學家、曠視研究院院長孫劍,曠視西雅圖研究院長王玨,香港科技大學教授權龍及上??萍即髮W教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會,同時吸引了超過 250 名參會者。?

Image 072.png

孫劍博士在鹽湖城 AI 之夜作開場致辭

孫劍博士首先代表曠視歡迎與會的老師同學們,并簡要介紹了曠視目前的發(fā)展現(xiàn)狀及舉辦青年學者交流會的目的。如何既做好基礎研究,也做好產品技術?孫劍博士引用了大學自動控制老師的教導:既做神,也做鬼。既要腳踏實地,又要仰望星空,一家企業(yè)的基礎研究建設絕非一朝一夕所能達成,它也將為產品的落地提供扎實的技術實力。王玨博士、權龍教授和虞晶怡教授也相繼上臺發(fā)表講話?,F(xiàn)場不僅有堪稱本屆CVPR最為美味的點心,還有各種品類的美酒供與會者享用,更重要的是,現(xiàn)場還進行了激動人心的抽獎環(huán)節(jié)。

Image 073.png

(這位獲得一等獎的 Phantom3SE 無人機套裝的小哥哥已經(jīng)樂得合不攏嘴)

在孫劍博士看來,論文并不是工業(yè)界做研究的必然結果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對于企業(yè)而言,不論是否有論文產出的需求,如何設計更為輕量級的模型結構一直是移動端應用落地的重要問題。因此,曠視團隊以高效卷積層設計減少計算復雜度的方式,提升了內存訪問效率和計算速度。在去年完成這一論文并投遞 CVPR 2018 后,團隊也并沒有止步于此,早在 VALSE 2018 上已對 V2 版本有所披露

但是,產業(yè)界的研究與做學術研究其實也有著共通之處,在孫劍博士的理解中都會遵循某種 pattern:先從精度入手以探尋認知邊界,再進一步考慮速度和效率因素,最終達成一個超過產品實用紅線的平衡點。本次曠視舉辦「鹽湖城 AI 之夜」,旨在吸引更多對計算機視覺、對AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。

視頻語義&自動駕駛,曠視斬獲雙料冠軍

在今年 CVPR 2018 上,曠視也分別在兩項挑戰(zhàn)賽上斬獲單項雙料冠軍——AVA 和 WAD。曠視累計獲得過 15 項人工智能技術評測冠軍,早在 2013 年 12 月便成為了世界上首個拿到人臉識別三項世界冠軍的公司,并在 2017 年 10 月成為首個拿下 COCO、Places 全球圖像識別大賽三項冠軍的國內公司。

今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進一步拓展視頻語義理解的邊界。其中的 Task B——時空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評估算法對人類行為時空信息的定位能力,其中每個標注的視頻片段連續(xù)且超過 15 分鐘,包含多個主體,每個主體有多個行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個挑戰(zhàn)賽中,曠視均獲得第一名。

?曠視 Research Leader、Detection 組負責人俞剛博士介紹,這一任務將動作細化到了原子級別,需要在任務中判斷人類行為主體的位置,發(fā)生了哪些動作,又與其它物體/其它人發(fā)生了哪些交互。行為時空信息的定位能力在視頻分析上有著非常大的意義。

WAD(Workshop on Autonomous Driving)同樣是一項由 CVPR 2018 workshop 主辦的自動駕駛識別挑戰(zhàn)賽,其中的 Task 4 ——實例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內實現(xiàn)對移動物體(比如汽車和行人)實例級別的分割。這一賽事基于百度提供的標注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開放了 14.7 萬幀的像素級語義標注圖像,包括感知分類和路網(wǎng)數(shù)據(jù)等數(shù)十萬幀逐像素語義分割標注的高分辨率圖像數(shù)據(jù),以及與其對應的逐像素語義標注,并將進一步涵蓋更復雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來擴充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說法,ApolloScape 的標注精細度已經(jīng)超過同類型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過 UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。

?俞剛博士和在曠視實習的清華大學博士生黎澤明表示,盡管曠視目前并無涉足自動駕駛領域,但團隊本次參加自動駕駛相關的挑戰(zhàn)賽有兩個主要目的。一個是驗證自身算法的能力,測試在不同應用場景下的算法通用性;另一方面則是檢驗自身對算法的掌握性。而本次獲得雙料冠軍,也印證了曠視在技術上的積累與對算法應用于不同場景的良好掌控。

好玩有趣的 10+實時 Demo,彰顯 CV 威力

自然地,在一個聚集 6500 多名計算機視覺人才的學術頂會上,如何在現(xiàn)場更好地呈現(xiàn)自己的技術也成為了每個企業(yè)需要面臨的命題。作為鉆石贊助商的曠視也一口氣展出了 10 余個 demo。正如孫劍博士所言:「做計算機視覺最好玩的就是可以做很多好看、好玩、好用的黑科技?!?/span>

除了艾瑞思 VSLAM 的倉儲機器技術是唯一的演示視頻,「街頭霸王對打」出于場地和網(wǎng)絡延遲的考慮也采用了視頻演示的方式之外,曠視本次在 CVPR 2018 上的其它所有 demo 均是實時演示,以更好地與現(xiàn)場的與會者進行互動,而在體驗的過程中,大家也能充分感受到曠視對于技術的一份實力和自信。

Image 074.png

孫劍博士介紹道,「計算機視覺的真正威力在于線下場景的實時系統(tǒng)中。曠視本次帶過來的一些 demo 都是組里覺得比較好玩,又具有實際意義的項目。像街頭霸王這個 demo,也是兩個星期前同事們測試完成的,用戶可以借助肢體動作,實時控制街頭霸王游戲中角色的操作。它的背后其實應用了人體檢測(Human Detection)、多人姿態(tài)估計(Multi-Person Pose Estimation)和實時動作識別(Real-time Action Recognition)等多種技術,未來在零售、安防等領域都具有非常多的實際應用意義?!?/span>

艾瑞思(Ares)倉儲機器人的 demo 視頻演示了曠視 SLAM 機器人的技術與應用場景,在建圖、定位、導航、避障等功能上,能夠創(chuàng)建室內高精地圖,擁有魯棒精確的實時定位并能實時進行柔性行人避障,在物流、工業(yè)制造、新零售領域具有廣泛應用前景。?

密集場景人群檢測數(shù)據(jù)集 CrowdHuman 于今年 5 月開源,為密集場景下的檢測難題提供了具有價值的研究工作。據(jù)俞剛博士表示,在密集場景之下做檢測是一項非常有挑戰(zhàn)、有實際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個 benchmark 的特點是主要做行人檢測,一方面,數(shù)據(jù)標注涵蓋頭部位置,人體的可見框和完整框,并且人框與頭框之間有綁定關系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。

本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡 FPN, 在 CrowdHuman 數(shù)據(jù)集上訓練,使用了 Repulsion Loss 和一些其他目前還沒有公開的方法(主要是為了解決 NMS 帶來的瓶頸)??梢钥吹?,在會場這種密集人群的典型場景下,系統(tǒng)的表現(xiàn)相當不錯。

Image 075.png

除了密集場景人類檢測數(shù)據(jù)集 CrowdHuman外,非標準化商品智能收銀和 CVPR 論文作者識別兩個 demo 本次也在 CVPR 2018 上呈現(xiàn)。

曠視南京研究院帶來的智能輔助收銀解決了通常需要人工結算的非標準化商品的收銀問題。以面包店為例的 demo 場景可以在確保精度的同時大幅提升結算效率。此外,該系統(tǒng)可輕易擴展到其它非標品收銀的應用中,將成為輔助非標準化商品收銀的 AI 利器。

「CVPR 作者識別」是為本次大會專門定制的 Koala 系統(tǒng)應用案例(Koala 是一款由曠視研發(fā)的智能迎賓機器人),通過使用 Google Scholar、Twitter 上的作者公開信息為底庫,當人臉出現(xiàn)在攝像頭可視范圍內時,Koala 將自動檢測出視頻中的人臉并提取人臉特征。若被攝者是會議作者之一,姓名、H-index 以及本次會議發(fā)表的代表性論文將會展示在彈出卡片上。

在展會現(xiàn)場,雷鋒網(wǎng)還看到了曠視帶來的眾多移動端 demo。像移動端實時通用物體和人體關鍵點檢測這兩個 demo,在精度與速度上都推動了產業(yè)化落地的速度,未來有期在各種場景的檢測上發(fā)揮作用。

再比如目前已經(jīng)應用在數(shù)十款安卓手機的人臉實時解鎖技術,融合識別、活體檢測、注意力判斷等多項技術的這一功能可以幫助手機在安全情境下進行高效自然解鎖。

而 Animoji 是一款基于深度學習的三維重建應用,能將人類表情進行實時分析,并轉移到可愛的卡通形象中,可應用于實時視頻聊天、表情包制作等多項功能。

此外,還有以手機背景虛化和手機人像光效技術為代表的移動端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負責人王玨表示,從去年一直到未來相當長一段時間,西雅圖研究院的主要工作會集中在移動端,特別是手機方面。

手機所面臨的人工智能相關命題主要有兩方面,一個是安全,即解鎖、支付等相關功能,涉及人臉識別、活體檢測等功能;另一個是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。

作為前美國 Adobe 研究院首席科學家,王玨博士在去年 5 月加入曠視之后,曠視也開始更多涉及影像領域的研究。手機作為一個復雜性極高的計算機系統(tǒng),如何充分挖掘它的計算資源,這也對模型的性能及功耗提出了更高的要求。而在研發(fā)的過程中,王玨博士也深刻體會到曠視的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖?,這也讓曾經(jīng)囿于大公司冗長流程的他感到驚喜不已。

重視基礎研究,追求「簡單實用」

對于一個研發(fā)人員占比超過 50% 的企業(yè),曠視密切關注研究體系的建設與投入。自2017 年起,從體系架構和學術合作領域向全球范圍延伸。曠視先后在美國西雅圖、南京及成都設立了研究分院,由孫劍博士統(tǒng)領,王玨任西雅圖研究院負責人;在研究領域上,每個研究分院各有側重和分工:如西雅圖研究院注重北美市場的開拓,同時獨立承擔創(chuàng)新業(yè)務的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點關注智能倉儲)業(yè)務線展開基礎研發(fā)和產業(yè)落地的工作。

此外,與高校機構保持密切合作也同樣成為曠視深化學術研究的一大途徑。同樣是在 2017 年開始,曠視先后與西安交通大學、香港科技大學、上海科技大學等高校建立人工智能聯(lián)合實驗室;并在 2017 年成立學術委員會,由圖靈獎國內唯一得主姚期智院士擔任首席顧問。

創(chuàng)業(yè)公司為何要做基礎研究,在孫劍博士的理解中包括兩個方面的原因:首先是自我實現(xiàn),研究員如果發(fā)現(xiàn)了一個具有創(chuàng)新性的突破點,那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認可,在學術會議上發(fā)表論文、或是將產品落地到實際應用上,會讓更多的人看到并認可你的想法,得到又一次的正向反饋。

「曠視是一家有追求的公司。這個追求包含兩個方面的含義,一個是,團隊的每個人都希望能做最頂尖的技術;另一個是,企業(yè)在商業(yè)化落地能腳踏實地,產品可以真正為用戶帶來價值?!雇醌k博士認為,從更長遠的角度來看,曠視不僅希望在 AI 領域,更希望能在整個科技領域成為重要的助推者甚至是領導者?!笧榱巳斯ぶ悄芙K將創(chuàng)造的所有美好」,也是曠視對這一信念的最佳詮釋。

「追求極致,簡單可靠」,是曠視科技一直以來秉承的研究價值觀。不論是理論還是算法,孫劍博士及其團隊都希望能做出一些簡單而實用的工作,也為吸引具有同樣價值觀的人才埋下注腳?!冈趧?chuàng)新的過程中,自我實現(xiàn)所帶來的價值會不斷地激勵整個團隊往前走,而外部的認可又會吸引更多的群體加入曠視科技,形成良性循環(huán)?!箤O劍博士如是說。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗分享,加上同期的 CV 線下分享交流會,曠視科技向 6000 名 CVPR 2018 學者們帶來了一場產學研緊密融合的盛宴,相信在未來,曠視也會持續(xù)向用戶們帶來更多精彩的最新落地成果,吸引更多的青年學生們加入這個務實求真的團隊當中。

 AI 科技評論報道。

CVPR 2018 | 8篇論文、10+Demo、雙料挑戰(zhàn)賽冠軍,曠視掀起CVPR產學研交流熱潮

2018-06-22

曠視亮相CVPR 2018:融合基礎研究與產業(yè)落地的學術交流盛會?

?第 31 屆計算機視覺和模式識別大會 CVPR 2018(Conference on Computer Vision and Pattern Recognition)在 6 月 18 日至 22 日于美國鹽湖城召開。 AI 科技評論作為唯一申請媒體通道的參會媒體,對 CVPR 2018 進行了全程專題報道,為國內讀者帶來更多的現(xiàn)場一手信息。

近年來,隨著深度學習的蓬勃發(fā)展,國內企業(yè)深度參與人工智能學術頂會的態(tài)勢十分火熱,在一個享有國際聲譽的、被全球學者所認可的學術會議上發(fā)出自己獨特的聲音,不僅是目前工業(yè)界涉足人工智能學術研究的一種展現(xiàn)形式,更是國內外企業(yè)在吸引、招募研發(fā)人才的「兵家必爭之地」。

Image 071.png

8 篇論文被 CVPR 收錄,多項技術展現(xiàn)研究實力

CVPR 既然是人工智能計算機視覺領域最受關注的學術會議,論文的投遞與收錄自然是展現(xiàn)企業(yè)學術實力的一項「硬指標」。據(jù)了解,今年 CVPR 2018 共有 979 篇論文被主會收錄,錄用率約為 29%。而在眾多來自工業(yè)界的論文中,成立于 2011 年的曠視今年在 CVPR 上共有 1 篇 spotlight 論文及 7 篇 poster 論文被主會收錄。包括 ShuffleNet 移動端低功耗設備模型、語義分割的判別特征網(wǎng)絡 DFN優(yōu)化解決密集遮擋問題的 RepLoss 、通過角點定位和區(qū)域分割檢測場景文本的全新算法,以及能復原扭曲文檔圖像的 DocUNet 等多項技術,向與會學者們展現(xiàn)了他們在學術研究上的實力。

例如,判別特征網(wǎng)絡 DFN 有效解決了語義分割的兩個基本問題——類內不一致與類間無差別。新型損失函數(shù) RepLoss 有效處理了行人檢測中密集遮擋的難題。

此外,還有兩篇挑戰(zhàn)賽冠軍論文——人體姿態(tài)估計(CPN)及 COCO 2017 物體檢測相關賽事的算法(MegDet)解讀,也同樣被 CVPR 2018 收錄。( AI 科技評論也對相關論文做了報道,見曠視論文三連發(fā),揭秘COCO +Places 2017比賽獲獎模型

級聯(lián)金字塔網(wǎng)絡 CPN 以解決多人姿態(tài)估計問題,這一技術突破將促進人體姿態(tài)估計相關應用領域的發(fā)展,比如游戲動畫、安防(異常行為檢測等)和體育(裁判輔助等)。

MegDet 從 mini-batch 角度為加速深度神經(jīng)網(wǎng)絡的訓練提供了一種新型檢測方法,從精度和速度兩個核心維度優(yōu)化了物體檢測技術,可以直接應用在安防、新零售和無人駕駛等領域。

「鹽湖城 AI 之夜」,CV青年學者交流會

在主會議的前一天晚上,曠視于現(xiàn)場召開了「鹽湖城 AI 之夜」,聯(lián)合 Altizure 與疊境科技舉辦了一場計算機視覺青年學者交流會。曠視首席科學家、曠視研究院院長孫劍,曠視西雅圖研究院長王玨,香港科技大學教授權龍及上??萍即髮W教授、疊境科技創(chuàng)始人虞晶怡出席了本次交流會,同時吸引了超過 250 名參會者。?

Image 072.png

孫劍博士在鹽湖城 AI 之夜作開場致辭

孫劍博士首先代表曠視歡迎與會的老師同學們,并簡要介紹了曠視目前的發(fā)展現(xiàn)狀及舉辦青年學者交流會的目的。如何既做好基礎研究,也做好產品技術?孫劍博士引用了大學自動控制老師的教導:既做神,也做鬼。既要腳踏實地,又要仰望星空,一家企業(yè)的基礎研究建設絕非一朝一夕所能達成,它也將為產品的落地提供扎實的技術實力。王玨博士、權龍教授和虞晶怡教授也相繼上臺發(fā)表講話?,F(xiàn)場不僅有堪稱本屆CVPR最為美味的點心,還有各種品類的美酒供與會者享用,更重要的是,現(xiàn)場還進行了激動人心的抽獎環(huán)節(jié)。

Image 073.png

(這位獲得一等獎的 Phantom3SE 無人機套裝的小哥哥已經(jīng)樂得合不攏嘴)

在孫劍博士看來,論文并不是工業(yè)界做研究的必然結果。以去年 7 月就已經(jīng)被大家熟悉并被業(yè)界廣泛使用的 ShuffleNet 為例,對于企業(yè)而言,不論是否有論文產出的需求,如何設計更為輕量級的模型結構一直是移動端應用落地的重要問題。因此,曠視團隊以高效卷積層設計減少計算復雜度的方式,提升了內存訪問效率和計算速度。在去年完成這一論文并投遞 CVPR 2018 后,團隊也并沒有止步于此,早在 VALSE 2018 上已對 V2 版本有所披露。

但是,產業(yè)界的研究與做學術研究其實也有著共通之處,在孫劍博士的理解中都會遵循某種 pattern:先從精度入手以探尋認知邊界,再進一步考慮速度和效率因素,最終達成一個超過產品實用紅線的平衡點。本次曠視舉辦「鹽湖城 AI 之夜」,旨在吸引更多對計算機視覺、對AI感興趣的志同道合者齊聚一堂,并在招賢納才上提供更多的交流途徑。

視頻語義&自動駕駛,曠視斬獲雙料冠軍

在今年 CVPR 2018 上,曠視也分別在兩項挑戰(zhàn)賽上斬獲單項雙料冠軍——AVA 和 WAD。曠視累計獲得過 15 項人工智能技術評測冠軍,早在 2013 年 12 月便成為了世界上首個拿到人臉識別三項世界冠軍的公司,并在 2017 年 10 月成為首個拿下 COCO、Places 全球圖像識別大賽三項冠軍的國內公司。

今年在 CVPR workshop上已舉辦至第三屆的 ActivityNet Challenge(ActivityNet Large-Scale Activity Recognition Challenge)旨在進一步拓展視頻語義理解的邊界。其中的 Task B——時空行為定位(Spatio-temporal Action Localization)依據(jù) AVA 數(shù)據(jù)集,試圖評估算法對人類行為時空信息的定位能力,其中每個標注的視頻片段連續(xù)且超過 15 分鐘,包含多個主體,每個主體有多個行為;在 #1 (Vision Only) 以及 #2 (Full) 兩個挑戰(zhàn)賽中,曠視均獲得第一名。

?曠視 Research Leader、Detection 組負責人俞剛博士介紹,這一任務將動作細化到了原子級別,需要在任務中判斷人類行為主體的位置,發(fā)生了哪些動作,又與其它物體/其它人發(fā)生了哪些交互。行為時空信息的定位能力在視頻分析上有著非常大的意義。

WAD(Workshop on Autonomous Driving)同樣是一項由 CVPR 2018 workshop 主辦的自動駕駛識別挑戰(zhàn)賽,其中的 Task 4 ——實例視頻分割(Instance-level Video Segmentation)要求參賽者在一幀之內實現(xiàn)對移動物體(比如汽車和行人)實例級別的分割。這一賽事基于百度提供的標注精良的大規(guī)模數(shù)據(jù)集 ApolloScape,該數(shù)據(jù)集已經(jīng)開放了 14.7 萬幀的像素級語義標注圖像,包括感知分類和路網(wǎng)數(shù)據(jù)等數(shù)十萬幀逐像素語義分割標注的高分辨率圖像數(shù)據(jù),以及與其對應的逐像素語義標注,并將進一步涵蓋更復雜的環(huán)境、天氣和交通狀況,添加更多的傳感器來擴充數(shù)據(jù)的多樣性。按照百度 Apollo 方面的說法,ApolloScape 的標注精細度已經(jīng)超過同類型的 KITTI、Cityscapes 數(shù)據(jù)集,也超過 UC Berkley 最新發(fā)布的 BDD100K 數(shù)據(jù)集。

?俞剛博士和在曠視實習的清華大學博士生黎澤明表示,盡管曠視目前并無涉足自動駕駛領域,但團隊本次參加自動駕駛相關的挑戰(zhàn)賽有兩個主要目的。一個是驗證自身算法的能力,測試在不同應用場景下的算法通用性;另一方面則是檢驗自身對算法的掌握性。而本次獲得雙料冠軍,也印證了曠視在技術上的積累與對算法應用于不同場景的良好掌控。

好玩有趣的 10+實時 Demo,彰顯 CV 威力

自然地,在一個聚集 6500 多名計算機視覺人才的學術頂會上,如何在現(xiàn)場更好地呈現(xiàn)自己的技術也成為了每個企業(yè)需要面臨的命題。作為鉆石贊助商的曠視也一口氣展出了 10 余個 demo。正如孫劍博士所言:「做計算機視覺最好玩的就是可以做很多好看、好玩、好用的黑科技?!?/span>

除了艾瑞思 VSLAM 的倉儲機器技術是唯一的演示視頻,「街頭霸王對打」出于場地和網(wǎng)絡延遲的考慮也采用了視頻演示的方式之外,曠視本次在 CVPR 2018 上的其它所有 demo 均是實時演示,以更好地與現(xiàn)場的與會者進行互動,而在體驗的過程中,大家也能充分感受到曠視對于技術的一份實力和自信。

Image 074.png

孫劍博士介紹道,「計算機視覺的真正威力在于線下場景的實時系統(tǒng)中。曠視本次帶過來的一些 demo 都是組里覺得比較好玩,又具有實際意義的項目。像街頭霸王這個 demo,也是兩個星期前同事們測試完成的,用戶可以借助肢體動作,實時控制街頭霸王游戲中角色的操作。它的背后其實應用了人體檢測(Human Detection)、多人姿態(tài)估計(Multi-Person Pose Estimation)和實時動作識別(Real-time Action Recognition)等多種技術,未來在零售、安防等領域都具有非常多的實際應用意義?!?/span>

艾瑞思(Ares)倉儲機器人的 demo 視頻演示了曠視 SLAM 機器人的技術與應用場景,在建圖、定位、導航、避障等功能上,能夠創(chuàng)建室內高精地圖,擁有魯棒精確的實時定位并能實時進行柔性行人避障,在物流、工業(yè)制造、新零售領域具有廣泛應用前景。?

密集場景人群檢測數(shù)據(jù)集 CrowdHuman 于今年 5 月開源,為密集場景下的檢測難題提供了具有價值的研究工作。據(jù)俞剛博士表示,在密集場景之下做檢測是一項非常有挑戰(zhàn)、有實際需求的工作, CrowdHuman 數(shù)據(jù)集正是為此而生。這個 benchmark 的特點是主要做行人檢測,一方面,數(shù)據(jù)標注涵蓋頭部位置,人體的可見框和完整框,并且人框與頭框之間有綁定關系;另一方面,該數(shù)據(jù)集具有一定的泛化能力,包括 Caltech、CityPerson 和 COCO 。

本次在 CVPR 上展示的 Demo 算法基于特征金字塔網(wǎng)絡 FPN, 在 CrowdHuman 數(shù)據(jù)集上訓練,使用了 Repulsion Loss 和一些其他目前還沒有公開的方法(主要是為了解決 NMS 帶來的瓶頸)??梢钥吹?,在會場這種密集人群的典型場景下,系統(tǒng)的表現(xiàn)相當不錯。

Image 075.png

除了密集場景人類檢測數(shù)據(jù)集 CrowdHuman外,非標準化商品智能收銀和 CVPR 論文作者識別兩個 demo 本次也在 CVPR 2018 上呈現(xiàn)。

曠視南京研究院帶來的智能輔助收銀解決了通常需要人工結算的非標準化商品的收銀問題。以面包店為例的 demo 場景可以在確保精度的同時大幅提升結算效率。此外,該系統(tǒng)可輕易擴展到其它非標品收銀的應用中,將成為輔助非標準化商品收銀的 AI 利器。

「CVPR 作者識別」是為本次大會專門定制的 Koala 系統(tǒng)應用案例(Koala 是一款由曠視研發(fā)的智能迎賓機器人),通過使用 Google Scholar、Twitter 上的作者公開信息為底庫,當人臉出現(xiàn)在攝像頭可視范圍內時,Koala 將自動檢測出視頻中的人臉并提取人臉特征。若被攝者是會議作者之一,姓名、H-index 以及本次會議發(fā)表的代表性論文將會展示在彈出卡片上。

在展會現(xiàn)場,雷鋒網(wǎng)還看到了曠視帶來的眾多移動端 demo。像移動端實時通用物體和人體關鍵點檢測這兩個 demo,在精度與速度上都推動了產業(yè)化落地的速度,未來有期在各種場景的檢測上發(fā)揮作用。

再比如目前已經(jīng)應用在數(shù)十款安卓手機的人臉實時解鎖技術,融合識別、活體檢測、注意力判斷等多項技術的這一功能可以幫助手機在安全情境下進行高效自然解鎖。

而 Animoji 是一款基于深度學習的三維重建應用,能將人類表情進行實時分析,并轉移到可愛的卡通形象中,可應用于實時視頻聊天、表情包制作等多項功能。

此外,還有以手機背景虛化和手機人像光效技術為代表的移動端「黑科技」,目前都是北京研究院與西雅圖研究院聯(lián)合研發(fā)的工作。西雅圖研究院負責人王玨表示,從去年一直到未來相當長一段時間,西雅圖研究院的主要工作會集中在移動端,特別是手機方面。

手機所面臨的人工智能相關命題主要有兩方面,一個是安全,即解鎖、支付等相關功能,涉及人臉識別、活體檢測等功能;另一個是影像,即美顏、濾鏡等圖像視頻處理需求,涵蓋三維重建、圖像分割等工作。

作為前美國 Adobe 研究院首席科學家,王玨博士在去年 5 月加入曠視之后,曠視也開始更多涉及影像領域的研究。手機作為一個復雜性極高的計算機系統(tǒng),如何充分挖掘它的計算資源,這也對模型的性能及功耗提出了更高的要求。而在研發(fā)的過程中,王玨博士也深刻體會到曠視的扁平化管理在異地協(xié)作的高效率,讓溝通和決策變得非??焖?,這也讓曾經(jīng)囿于大公司冗長流程的他感到驚喜不已。

重視基礎研究,追求「簡單實用」

對于一個研發(fā)人員占比超過 50% 的企業(yè),曠視密切關注研究體系的建設與投入。自2017 年起,從體系架構和學術合作領域向全球范圍延伸。曠視先后在美國西雅圖、南京及成都設立了研究分院,由孫劍博士統(tǒng)領,王玨任西雅圖研究院負責人;在研究領域上,每個研究分院各有側重和分工:如西雅圖研究院注重北美市場的開拓,同時獨立承擔創(chuàng)新業(yè)務的研發(fā);南京研究院和成都研究院則分別圍繞金融智能(特別是智能零售)和智慧城市(重點關注智能倉儲)業(yè)務線展開基礎研發(fā)和產業(yè)落地的工作。

此外,與高校機構保持密切合作也同樣成為曠視深化學術研究的一大途徑。同樣是在 2017 年開始,曠視先后與西安交通大學、香港科技大學、上??萍即髮W等高校建立人工智能聯(lián)合實驗室;并在 2017 年成立學術委員會,由圖靈獎國內唯一得主姚期智院士擔任首席顧問。

創(chuàng)業(yè)公司為何要做基礎研究,在孫劍博士的理解中包括兩個方面的原因:首先是自我實現(xiàn),研究員如果發(fā)現(xiàn)了一個具有創(chuàng)新性的突破點,那么在發(fā)現(xiàn)的那一刻便已經(jīng)得到了最大的滿足感;其次是外部認可,在學術會議上發(fā)表論文、或是將產品落地到實際應用上,會讓更多的人看到并認可你的想法,得到又一次的正向反饋。

「曠視是一家有追求的公司。這個追求包含兩個方面的含義,一個是,團隊的每個人都希望能做最頂尖的技術;另一個是,企業(yè)在商業(yè)化落地能腳踏實地,產品可以真正為用戶帶來價值。」王玨博士認為,從更長遠的角度來看,曠視不僅希望在 AI 領域,更希望能在整個科技領域成為重要的助推者甚至是領導者?!笧榱巳斯ぶ悄芙K將創(chuàng)造的所有美好」,也是曠視對這一信念的最佳詮釋。

「追求極致,簡單可靠」,是曠視科技一直以來秉承的研究價值觀。不論是理論還是算法,孫劍博士及其團隊都希望能做出一些簡單而實用的工作,也為吸引具有同樣價值觀的人才埋下注腳。「在創(chuàng)新的過程中,自我實現(xiàn)所帶來的價值會不斷地激勵整個團隊往前走,而外部的認可又會吸引更多的群體加入曠視科技,形成良性循環(huán)。」孫劍博士如是說。在本次 CVPR 2018 上,憑借 8 篇論文、10+ Demo、雙料挑戰(zhàn)賽冠軍經(jīng)驗分享,加上同期的 CV 線下分享交流會,曠視科技向 6000 名 CVPR 2018 學者們帶來了一場產學研緊密融合的盛宴,相信在未來,曠視也會持續(xù)向用戶們帶來更多精彩的最新落地成果,吸引更多的青年學生們加入這個務實求真的團隊當中。

 AI 科技評論報道。

熱門新聞
聯(lián)系我們