自20世紀(jì)下半葉,計(jì)算機(jī)視覺技術(shù)逐漸地發(fā)展壯大。同時(shí),伴隨著數(shù)字圖像相關(guān)的軟硬件技術(shù)在人們生活中的廣泛使用,數(shù)字圖像已經(jīng)成為當(dāng)代社會(huì)信息來源的重要構(gòu)成因素,各種圖像處理與分析的需求和應(yīng)用也不斷促使該技術(shù)的革新。計(jì)算機(jī)視覺技術(shù)的應(yīng)用十分廣泛。數(shù)字圖像檢索管理、醫(yī)學(xué)影像分析、智能安檢、人機(jī)交互等領(lǐng)域都有計(jì)算機(jī)視覺技術(shù)的涉足。該技術(shù)是人工智能技術(shù)的重要組成部分,也是當(dāng)今計(jì)算機(jī)科學(xué)研究的前沿領(lǐng)域。經(jīng)過近年的不斷發(fā)展,已逐步形成一套以數(shù)字信號(hào)處理技術(shù)。計(jì)算機(jī)圖形圖像、信息論和語義學(xué)相互結(jié)合的綜合性技術(shù),并具有較強(qiáng)的邊緣性和學(xué)科交叉性。其中,人臉檢測與識(shí)別當(dāng)前圖像處理、模式識(shí)別和計(jì)算機(jī)視覺內(nèi)的一個(gè)熱門研究課題, 也是目前生物特征識(shí)別中最受人們關(guān)注的一個(gè)分支。
人臉識(shí)別,是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。通常采用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測和跟蹤人臉。根據(jù)資料,2017 年生物識(shí)別技術(shù)全球市場規(guī)模上升到了 172 億美元,到 2020 年,預(yù)計(jì)全世界的生物識(shí)別市場規(guī)模有可能達(dá)到 240 億美元。自 2015 年到 2020 年,人臉識(shí)別市場規(guī)模增長了 166.6%,在眾多生物識(shí)別技術(shù)中增幅居于首位,預(yù)計(jì)到 2020 年人臉識(shí)別技術(shù)市場規(guī)模將上升至 24 億美元。
本期我們推薦來自清華大學(xué)副教授唐杰領(lǐng)導(dǎo)的學(xué)者大數(shù)據(jù)挖掘項(xiàng)目Aminer的研究報(bào)告,講解人臉識(shí)別技術(shù)及其應(yīng)用領(lǐng)域,介紹人臉識(shí)別領(lǐng)域的國內(nèi)玩人才并預(yù)測該技術(shù)的發(fā)展趨勢。
人臉識(shí)別技術(shù)概述
1、基本概念
人類視覺系統(tǒng)的獨(dú)特魅力驅(qū)使著研究者們試圖通過視覺傳感器和計(jì)算機(jī)軟硬件模擬出人類對三維世界圖像的采集、處理、分析和學(xué)習(xí)能力,以便使計(jì)算機(jī)和機(jī)器人系統(tǒng)具有智能化的視覺功能。在過去 30 年間,眾多不同領(lǐng)域的科學(xué)家們不斷地嘗試從多個(gè)角度去了解生物視覺和神經(jīng)系統(tǒng)的奧秘,以便借助其研究成果造福人類。自 20 世紀(jì)下半葉,計(jì)算機(jī)視覺技術(shù)就在此背景下逐漸地發(fā)展壯大。同時(shí),伴隨著數(shù)字圖像相關(guān)的軟硬件技術(shù)在人們生活中的廣泛使用,數(shù)字圖像已經(jīng)成為當(dāng)代社會(huì)信息來源的重要構(gòu)成因素,各種圖像處理與分析的需求和應(yīng)用也不斷促使該技術(shù)的革新。
計(jì)算機(jī)視覺技術(shù)的應(yīng)用十分廣泛。數(shù)字圖像檢索管理、醫(yī)學(xué)影像分析、智能安檢、人機(jī)交互等領(lǐng)域都有計(jì)算機(jī)視覺技術(shù)的涉足。該技術(shù)是人工智能技術(shù)的重要組成部分,也是當(dāng)今計(jì)算機(jī)科學(xué)研究的前沿領(lǐng)域。經(jīng)過近年的不斷發(fā)展,已逐步形成一套以數(shù)字信號(hào)處理技術(shù)、計(jì)算機(jī)圖形圖像、信息論和語義學(xué)相互結(jié)合的綜合性技術(shù),并具有較強(qiáng)的邊緣性和學(xué)科交叉性。其中,人臉檢測與識(shí)別當(dāng)前圖像處理、模式識(shí)別和計(jì)算機(jī)視覺內(nèi)的一個(gè)熱門研究課題, 也是目前生物特征識(shí)別中最受人們關(guān)注的一個(gè)分支。
人臉識(shí)別,是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)。通常采用攝像機(jī)或攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測和跟蹤人臉。根據(jù)中國報(bào)告網(wǎng)發(fā)布《2018 年中國生物識(shí)別市場分析報(bào)告-行業(yè)深度分析與發(fā)展前景預(yù)測》中內(nèi)容,2017 年生物識(shí)別技術(shù)全球市場規(guī)模上升到了 172 億美元,到 2020 年,預(yù)計(jì)全世界的生物識(shí)別市場規(guī)模有可能達(dá)到 240 億美元。自 2015 年到 2020 年,人臉識(shí)別市場規(guī)模增長了 166.6%,在眾多生物識(shí)別技術(shù)中增幅居于首位,預(yù)計(jì)到 2020 年人臉識(shí)別技術(shù)市場規(guī)模將上升至 24 億美元。
在不同的生物特征識(shí)別方法中,人臉識(shí)別有其自身特殊的優(yōu)勢,因而在生物識(shí)別中有著重要的地位。人臉識(shí)別的五個(gè)優(yōu)勢:
非侵?jǐn)_性。人臉識(shí)別無需干擾人們的正常行為就能較好地達(dá)到識(shí)別效果,無需擔(dān)心被識(shí)別者是否愿意將手放在指紋采集設(shè)備上,他們的眼睛是否能夠?qū)?zhǔn)虹膜掃描裝置等等。只要在攝像機(jī)前自然地停留片刻,用戶的身份就會(huì)被正確識(shí)別。
便捷性。采集設(shè)備簡單,使用快捷。一般來說,常見的攝像頭就可以用來進(jìn)行人臉圖像的采集, 不需特別復(fù)雜的專用設(shè)備。圖像采集在數(shù)秒內(nèi)即可完成。
友好性。通過人臉識(shí)別身份的方法與人類的習(xí)慣一致,人和機(jī)器都可以使用人臉圖片進(jìn)行識(shí)別。而指紋,虹膜等方法沒有這個(gè)特點(diǎn),一個(gè)沒有經(jīng)過特殊訓(xùn)練的人,無法利用指紋和虹膜圖像對其他人進(jìn)行身份識(shí)別。
非接觸性。人臉圖像信息的采集不同于指紋信息的采集,利用指紋采集信息需要用手指接觸到采集設(shè)備,既不衛(wèi)生,也容易引起使用者的反感,而人臉圖像采集,用戶不需要與設(shè)備直接接觸。
可擴(kuò)展性。在人臉識(shí)別后,下一步數(shù)據(jù)的處理和應(yīng)用,決定著人臉識(shí)別設(shè)備的實(shí)際應(yīng)用,如應(yīng)用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識(shí)別等各個(gè)領(lǐng)域,可擴(kuò)展性強(qiáng)。
正是因?yàn)槿四樧R(shí)別擁有這些良好的特性,使其具有非常廣泛的應(yīng)用前景,也正引起學(xué)術(shù)界和商業(yè)界越來越多的關(guān)注。人臉識(shí)別已經(jīng)廣泛應(yīng)用于身份識(shí)別、活體檢測、唇語識(shí)別、創(chuàng)意相機(jī)、人臉美化、社交平臺(tái)等場景中。
2、發(fā)展歷程
早在 20 世紀(jì) 50 年代,認(rèn)知科學(xué)家就已著手對人臉識(shí)別展開研究。20 世紀(jì) 60 年代,人臉識(shí)別工程化應(yīng)用研究正式開啟。當(dāng)時(shí)的方法主要利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點(diǎn)及其之間的拓?fù)潢P(guān)系進(jìn)行辨識(shí)。這種方法簡單直觀,但是一旦人臉姿態(tài)、表情發(fā)生變化,精度則嚴(yán)重下降。
20世紀(jì)90年代:1991 年,著名的“特征臉”(Eigenface)方法第一次將主成分分析和統(tǒng)計(jì)特征技術(shù)引入人臉識(shí)別,在實(shí)用效果上取得了長足的進(jìn)步。這一思路也在后續(xù)研究中得到進(jìn)一步發(fā)揚(yáng)光大, 例如,Belhumer 成功將 Fisher 判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的Fisherface 方法。
2000-2012年:21 世紀(jì)的前十年,隨著機(jī)器學(xué)習(xí)理論的發(fā)展,學(xué)者們相繼探索出了基于遺傳算法、支持向量機(jī)(Support Vector Machine,SVM)、boosting、流形學(xué)習(xí)以及核方法等進(jìn)行人臉識(shí)別。2009 年至 2012 年,稀疏表達(dá)(Sparse Representation)因?yàn)槠鋬?yōu)美的理論和對遮擋因素的魯棒性成為當(dāng)時(shí)的研究熱點(diǎn)。與此同時(shí),業(yè)界也基本達(dá)成共識(shí):基于人工精心設(shè)計(jì)的局部描述子進(jìn)行特征提取和子空間方法進(jìn)行特征選擇能夠取得最好的識(shí)別效果。
Gabor 及 LBP 特征描述子是迄今為止在人臉識(shí)別領(lǐng)域最為成功的兩種人工設(shè)計(jì)局部描述子。這期間,對各種人臉識(shí)別影響因子的針對性處理也是那一階段的研究熱點(diǎn),比如人臉光照歸一化、人臉姿態(tài)校正、人臉超分辨以及遮擋處理等。
也是在這一階段,研究者的關(guān)注點(diǎn)開始從受限場景下的人臉識(shí)別轉(zhuǎn)移到非受限環(huán)境下的人臉識(shí)別。LFW 人臉識(shí)別公開競賽(LFW 是由美國馬薩諸塞大學(xué)發(fā)布并維護(hù)的公開人臉數(shù)集,測試數(shù)據(jù)規(guī)模為萬)在此背景下開始流行,當(dāng)時(shí)最好的識(shí)別系統(tǒng)盡管在受限的 FRGC 測試集上能取得 99%以上的識(shí)別精度,但是在 LFW 上的最高精度僅僅在 80%左右,距離實(shí)用看起來距離頗遠(yuǎn)。
2013年:微軟亞洲研究院的研究者首度嘗試了 10 萬規(guī)模的大訓(xùn)練數(shù)據(jù),并基于高維LBP 特征和 Joint Bayesian 方法在 LFW 上獲得了 95.17%的精度。這一結(jié)果表明:大訓(xùn)練數(shù)據(jù)集對于有效提升非受限環(huán)境下的人臉識(shí)別很重要。然而,以上所有這些經(jīng)典方法,都難以處理大規(guī)模數(shù)據(jù)集的訓(xùn)練場景。
2014年:2014 年前后,隨著大數(shù)據(jù)和深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)重受矚目,并在圖像分類、手寫體識(shí)別、語音識(shí)別等應(yīng)用中獲得了遠(yuǎn)超經(jīng)典方法的結(jié)果。香港中文大學(xué)的 Sun Yi 等人提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識(shí)別上,采用 20 萬訓(xùn)練數(shù)據(jù),在 LFW 上第一次得到超過人類水平的識(shí)別精度,這是人臉識(shí)別發(fā)展歷史上的一座里程碑。自此之后,研究者們不斷改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)擴(kuò)大訓(xùn)練樣本規(guī)模,將 LFW 上的識(shí)別精度推到 99.5%以上。人臉識(shí)別發(fā)展過程中一些經(jīng)典的方法及其在 LFW 上的精度,都有一個(gè)基本的趨勢:訓(xùn)練數(shù)據(jù)規(guī)模越來越大,識(shí)別精度越來越高。
▲人臉識(shí)別技術(shù)發(fā)展歷程
3、中國政策支持
2015 年以來,國家密集出臺(tái)了《關(guān)于銀行業(yè)金融機(jī)構(gòu)遠(yuǎn)程開立人民幣賬戶的指導(dǎo)意見(征求意見稿)》,給人臉識(shí)別普及打開了門縫;其后,《安全防范視頻監(jiān)控人臉識(shí)別系統(tǒng)技術(shù)要求》、《信息安全技術(shù)網(wǎng)絡(luò)人臉識(shí)別認(rèn)證系統(tǒng)安全技術(shù)要求》等法律法規(guī),為人臉識(shí)別在金融、安防、醫(yī)療等領(lǐng)域的普及打下了堅(jiān)實(shí)的基礎(chǔ),掃清了政策障礙。同時(shí),2017 年人工智能首次寫入國家政府報(bào)告,作為人工智能的重要細(xì)分領(lǐng)域,國家對人臉識(shí)別相關(guān)的政策支持力度在不斷的加大。2017 年 12 月發(fā)布的《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020 年)》規(guī)劃“到 2020 年,復(fù)雜動(dòng)態(tài)場景下人臉識(shí)別有效檢出率超過 97%,正確識(shí)別率超過 90%”。
▲人臉識(shí)別相關(guān)政策
4、發(fā)展熱點(diǎn)
研究通過對以往人臉識(shí)別領(lǐng)域論文的挖掘,總結(jié)出人臉識(shí)別領(lǐng)域的研究關(guān)鍵詞主要集中在人臉識(shí)別、特征提取、稀疏表示、圖像分類、神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測、人臉圖像、人臉檢測、圖像表示、計(jì)算機(jī)視覺、姿態(tài)估計(jì)、人臉確認(rèn)等領(lǐng)域。
下圖是對人臉識(shí)別研究趨勢的分析,旨在基于歷史的科研成果數(shù)據(jù)的基礎(chǔ)上,對技術(shù)來源、熱度甚至發(fā)展趨勢進(jìn)行研究。圖 2 中,每個(gè)彩色分支代表一個(gè)關(guān)鍵詞領(lǐng)域,其寬度表示該關(guān)鍵詞的研究熱度,各關(guān)鍵詞在每一年份的位置是按照這一時(shí)間上所有關(guān)鍵詞的熱度高度進(jìn)行排序。起初,Computer Vision(計(jì)算機(jī)視覺)是研究的熱點(diǎn),在 20 世紀(jì)末期,F(xiàn)eature Extraction(特征提。┏ CV,成為研究的新熱點(diǎn),其后在 21 世紀(jì)初期被 Face Recognition 超過,至今一直處在第二的位置上。
▲人臉識(shí)別相關(guān)熱點(diǎn)
此外,研究根據(jù)最近兩年發(fā)表于 FG(International Conference on Automatic Face and Gesture Recognition)的論文中提取出來的關(guān)鍵詞發(fā)現(xiàn),F(xiàn)ace Recognition 出現(xiàn)頻率最高,為118 次,Object Detection 排在第二位,為 41 次,Image Classification 和 Object Recognition 以36 次并列第三,出現(xiàn)次數(shù)超過十次的詞匯還有 Image Segmentation(32)、Action Recognition(32)、Sparse Representation(28)、Image Retrieval(27)、Visual Tracking(24)、SingleImage(23)。詞云圖如下所示:
▲人臉識(shí)別詞云分析
5、人臉識(shí)別相關(guān)會(huì)議
計(jì)算機(jī)視覺(CV)界三大頂級國際會(huì)議:
ICCV: IEEE International Conference on Computer Vision
該會(huì)議由美國電氣和電子工程師學(xué)會(huì)(IEEE, Institute of Electrical & Electronic Engineers)主辦,主要在歐洲、亞洲、美洲的一些科研實(shí)力較強(qiáng)的國家舉行。作為世界頂級的學(xué)術(shù)會(huì)議,首屆國際計(jì)算機(jī)視覺大會(huì)于 1987 年在倫敦揭幕,其后兩年舉辦一屆。 ICCV 是計(jì)算機(jī)視覺領(lǐng)域最高級別的會(huì)議,會(huì)議的論文集代表了計(jì)算機(jī)視覺領(lǐng)域最新的發(fā)展方向和水平。 論文接受率在 20%左右。方向?yàn)橛?jì)算機(jī)視覺、模式識(shí)別、多媒體計(jì)算等。
近年來,全球?qū)W界愈來愈關(guān)注中國人在計(jì)算機(jī)視覺領(lǐng)域所取得的科研成就,這是因?yàn)橛芍袊酥鲗?dǎo)的相關(guān)研究已取得了長足的進(jìn)步——2007 年大會(huì)共收到論文 1200 余篇,而獲選論文僅為 244 篇,其中來自中國大陸,香港及臺(tái)灣的論文有超過 30 篇,超過大會(huì)獲選論文總數(shù)的 12%。作為最早投入深度學(xué)習(xí)技術(shù)研發(fā)的華人團(tuán)隊(duì),在多年布局的關(guān)鍵技術(shù)基礎(chǔ)之上,香港中文大學(xué)教授湯曉鷗率領(lǐng)的團(tuán)隊(duì)迅速取得技術(shù)突破。2012 年國際計(jì)算視覺與模式識(shí)別會(huì)議(CVPR)上僅有的兩篇深度學(xué)習(xí)文章均出自湯曉鷗實(shí)驗(yàn)室,而在 2013 年國際計(jì)算機(jī)視覺大會(huì)(ICCV)上全球?qū)W者共發(fā)表的 8 篇深度學(xué)習(xí)領(lǐng)域的文章中,有 6 篇出自湯曉鷗實(shí)驗(yàn)室。
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
該會(huì)議是由 IEEE 舉辦的計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的頂級會(huì)議。每年召開一次,錄取率在 25%左右。方向?yàn)橛?jì)算機(jī)視覺、模式識(shí)別、多媒體計(jì)算等。
香港中文大學(xué)教授湯曉鷗率領(lǐng)的團(tuán)隊(duì)在全球范圍內(nèi)做出了大量深度學(xué)習(xí)原創(chuàng)技術(shù)突破:2012 年國際計(jì)算視覺與模式識(shí)別會(huì)議(CVPR)上僅有的兩篇深度學(xué)習(xí)文章均出自其實(shí)驗(yàn)室;2011—2013 年間在計(jì)算機(jī)視覺領(lǐng)域兩大頂級會(huì)議 ICCV 和 CVPR 上發(fā)表了 14 篇深度學(xué)習(xí)論文,占據(jù)全世界在這兩個(gè)會(huì)議上深度學(xué)習(xí)論文總數(shù)(29篇)的近一半。他在 2009 年獲得計(jì)算機(jī)視覺領(lǐng)域兩大最頂尖的國際學(xué)術(shù)會(huì)議之一 CVPR 最佳論文獎(jiǎng),這是 CVPR 歷史上來自亞洲的論文首次獲獎(jiǎng)。
ECCV:European Conference on Computer Vision
ECCV 是一個(gè)歐洲的會(huì)議,每次會(huì)議在全球范圍錄用論文 300 篇左右,主要的錄用論文都來自美國、歐洲等頂尖實(shí)驗(yàn)室及研究所,中國大陸的論文數(shù)量一般在 10-20 篇之間。ECCV2010 的論文錄取率為 27%。兩年召開一次,論文接受率在 20%左右。方向?yàn)橛?jì)算機(jī)視覺、模式識(shí)別、多媒體計(jì)算等。2018 年的 ECCV 于 2018 年 9 月 8 日-14 日在德國慕尼黑舉辦。
亞洲計(jì)算機(jī)視覺會(huì)議:
ACCV:Asian Conference on Computer Vision
ACCV 即亞洲計(jì)算機(jī)視覺會(huì)議,是 AFCV(Asian Federation of Computer Vision,亞洲計(jì)算機(jī)視覺聯(lián)盟)自 1993 年以來官方組織的兩年一度的會(huì)議,旨在為研究者、開發(fā)者和參與者提供一個(gè)良好的平臺(tái)來展示和討論計(jì)算機(jī)視覺領(lǐng)域和相關(guān)領(lǐng)域的新問題、新方案和新技術(shù)。2018 年第 14 屆亞洲計(jì)算機(jī)視覺會(huì)議將于 2018 年 12 月 4 日-6 日在澳大利亞舉辦。
人臉和手勢識(shí)別專門的會(huì)議:
FG:IEEE International Conference on Automatic Face and Gesture Recognition
“International Conference on Automatic Face and Gesture Recognition”是全球范圍內(nèi)人臉與手勢識(shí)別領(lǐng)域的權(quán)威學(xué)術(shù)會(huì)議。會(huì)議方向有人臉檢測、人臉識(shí)別、表情識(shí)別、姿勢分析、心理行為分析等。
人臉識(shí)別技術(shù)詳解
1、人臉識(shí)別流程
人臉識(shí)別技術(shù)原理簡單來講主要是三大步驟:一是建立一個(gè)包含大批量人臉圖像的數(shù)據(jù)庫,二是通過各種方式來獲得當(dāng)前要進(jìn)行識(shí)別的目標(biāo)人臉圖像,三是將目標(biāo)人臉圖像與數(shù)據(jù)庫中既有的人臉圖像進(jìn)行比對和篩選。根據(jù)人臉識(shí)別技術(shù)原理具體實(shí)施起來的技術(shù)流程則主要包含以下四個(gè)部分,即人臉圖像的采集與預(yù)處理、人臉檢測、人臉特征提取、人臉識(shí)別和活體鑒別。
▲人臉識(shí)別技術(shù)流程
人臉圖像的采集與預(yù)處理
人臉圖像的采集與檢測具體可分為人臉圖像的采集和人臉圖像的檢測兩部分內(nèi)容。
人臉圖像的采集:采集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導(dǎo)入和人臉圖像的實(shí)時(shí)采集。一些比較先進(jìn)的人臉識(shí)別系統(tǒng)甚至可以支持有條件的過濾掉不符合人臉識(shí)別質(zhì)量要求或者是清晰度質(zhì)量較低的人臉圖像,盡可能的做到清晰精準(zhǔn)的采集。既有人臉圖像的批量導(dǎo)入:即將通過各種方式采集好的人臉圖像批量導(dǎo)入至人臉識(shí)別系統(tǒng),系統(tǒng)會(huì)自動(dòng)完成逐個(gè)人臉圖像的采集工作。人臉圖像的實(shí)時(shí)采集:即調(diào)用攝像機(jī)或攝像頭在設(shè)備的可拍攝范圍內(nèi)自動(dòng)實(shí)時(shí)抓取人臉圖像并完成采集工作。
人臉圖像的預(yù)處理:人臉圖像的預(yù)處理的目的是在系統(tǒng)對人臉圖像的檢測基礎(chǔ)之上,對人臉圖像做出進(jìn)一步的處理以利于人臉圖像的特征提取。人臉圖像的預(yù)處理具體而言是指對系統(tǒng)采集到的人臉圖像進(jìn)行光線、旋轉(zhuǎn)、切割、過濾、降噪、放大縮小等一系列的復(fù)雜處理過程來使得該人臉圖像無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉圖像的特征提取的標(biāo)準(zhǔn)要求。在現(xiàn)實(shí)環(huán)境下采集圖像,由于圖像受到光線明暗不同、臉部表情變化、陰影遮擋等眾多外在因素的干擾,導(dǎo)致采集圖像質(zhì)量不理想,那就需要先對采集到的圖像預(yù)處理,如果圖像預(yù)處理不好,將會(huì)嚴(yán)重影響后續(xù)的人臉檢測與識(shí)別。研究介紹三種圖像預(yù)處理手段,即灰度調(diào)整、圖像濾波、圖像尺寸歸一化等。
灰度調(diào)整:因?yàn)槿四槇D像處理的最終圖像一般都是二值化圖像,并且由于地點(diǎn)、設(shè)備、光照等方面的差異,造成采集到彩色圖像質(zhì)量不同,因此需要對圖像進(jìn)行統(tǒng)一的灰度處理,來平滑處理這些差異。灰度調(diào)整的常用方法有平均值法、直方圖變換法、冪次變換法、對數(shù)變換法等。
圖像濾波:在實(shí)際的人臉圖像采集過程中,人臉圖像的質(zhì)量會(huì)受到各種噪聲的影響,這些噪聲來源于多個(gè)方面,比如周圍環(huán)境中充斥大量的電磁信號(hào)、數(shù)字圖像傳輸受到電磁信號(hào)的干擾等影響信道,進(jìn)而影響人臉圖像的質(zhì)量。為保證圖像的質(zhì)量,減小噪聲對后續(xù)處理過程的影響, 必須對圖像進(jìn)行降噪處理。去除噪聲處理的原理和方法很多,常見的有均值濾波,中值濾波等。目前常用中值濾波算法對人臉圖像進(jìn)行預(yù)處理。
圖像尺寸歸一化:在進(jìn)行簡單的人臉訓(xùn)練時(shí)候,遇到人臉庫的圖像像素大小不一樣時(shí),我們需要在上位機(jī)人臉比對識(shí)別之前對圖像做尺寸歸一化處理。需要比較常見的尺寸歸一化算法有雙線性插值算法、最近鄰插值算法和立方卷積算法等。
人臉檢測
一張包含人臉圖像的圖片通常情況下可能還會(huì)包含其他內(nèi)容,這時(shí)候就需要進(jìn)行必要的人臉檢測。也就是在一張人臉圖像之中,系統(tǒng)會(huì)精準(zhǔn)的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時(shí)自動(dòng)剔除掉其他多余的圖像信息來進(jìn)一步的保證人臉圖像的精準(zhǔn)采集。
人臉檢測是人臉識(shí)別中的重要組成部分。人臉檢測是指應(yīng)用一定的策略對給出的圖片或者視頻來進(jìn)行檢索,判斷是否存在著人臉,如果存在則定位出每張人臉的位置、大小與姿態(tài)的過程。人臉檢測是一個(gè)具有挑戰(zhàn)性的目標(biāo)檢測問題,主要體現(xiàn)在兩方面:人臉目標(biāo)內(nèi)在的變化引起:1、人臉具有相當(dāng)復(fù)雜的細(xì)節(jié)變化和不同的表情(眼、嘴的開與閉等),不同的人臉具有不同的外貌,如臉形、膚色等;2、人臉的遮擋,如眼鏡、頭發(fā)和頭部飾物等。外在條件變化引起:1、由于成像角度的不同造成人臉的多姿態(tài),如平面內(nèi)旋轉(zhuǎn)、深度旋轉(zhuǎn)以及上下旋轉(zhuǎn)等,其中深度旋轉(zhuǎn)影響較大;2、光照的影響,如圖像中的亮度、對比度的變化和陰影等;3、圖像的成像條件,如攝像設(shè)備的焦距、成像距離等。
人臉檢測的作用,便是在一張人臉圖像之中,系統(tǒng)會(huì)精準(zhǔn)的定位出人臉的位置和大小, 在挑選出有用的圖像信息的同時(shí)自動(dòng)剔除掉其他多余的圖像信息來進(jìn)一步的保證人臉圖像 的精準(zhǔn)采集。人臉檢測重點(diǎn)關(guān)注以下指標(biāo):
檢測率:識(shí)別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好; 誤檢率:識(shí)別錯(cuò)誤的人臉/識(shí)別出來的人臉。誤檢率越低,檢測模型效果越好; 漏檢率:未識(shí)別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好; 速度:從采集圖像完成到人臉檢測完成的時(shí)間。時(shí)間越短,檢測模型效果越好。
目前的人臉檢測方法可分為三類,分別是基于膚色模型的檢測、基于邊緣特征的檢測、基于統(tǒng)計(jì)理論方法,下面將對其進(jìn)行簡單的介紹:
1、基于膚色模型的檢測:膚色用于人臉檢測時(shí),可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數(shù)估計(jì)等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進(jìn)行人臉檢測。通過提取彩色圖像中的面部區(qū)域以實(shí)現(xiàn)人臉檢測的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機(jī)參數(shù)的前提下才有效。Comaniciu 等學(xué)者利用非參數(shù)的核函數(shù)概率密度估計(jì)法來建立膚色模型,并使用 mean-shift 方法進(jìn)行局部搜索實(shí)現(xiàn)了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對于遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結(jié)合性不是很高,同時(shí),用于人臉檢測時(shí),處理復(fù)雜背景和多個(gè)人臉時(shí)存在困難。
為了解決人臉檢測中的光照問題,可以針對不同光照進(jìn)行補(bǔ)償,然后再檢測圖像中的膚色區(qū)域。這樣可以解決彩色圖像中偏光、背景復(fù)雜和多個(gè)人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉(zhuǎn)、姿態(tài)和表情等具有不敏感性。
2、基于邊緣特征的檢測:利用圖像的邊緣特征檢測人臉時(shí),計(jì)算量相對較小,可以實(shí)現(xiàn)實(shí)時(shí)檢測。大多數(shù)使用邊緣特征的算法都是基于人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進(jìn)行匹配。也有研究者采用橢圓環(huán)模型與邊緣方向特征,實(shí)現(xiàn)簡單背景的人臉檢測。Fröba 等采用基于邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進(jìn)行人臉檢測。該算法在復(fù)雜背景下誤檢率比較高,但是與其他的特征相融合后可以獲得很好的效果。
3、 基于統(tǒng)計(jì)理論方法:本文重點(diǎn)介紹基于統(tǒng)計(jì)理論方法中的Adaboost人臉檢測算法。Adaboost算法是通過無數(shù)次循環(huán)迭代來尋求最優(yōu)分類器的過程。用弱分類器Haar特征中任一特征放在人臉樣本上,求出人臉特征值,通過更多分類器的級聯(lián)便得到人臉的量化特征,以此來區(qū)分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉(zhuǎn)45°的矩形組成。目前的Haar特征總的來說廣義地分為三類:邊緣特征、線特征以及中心特征。
這一算法是由劍橋大學(xué)的 Paul Viola 和 Michael Jones 兩位學(xué)者提出,該算法優(yōu)點(diǎn)在于不僅計(jì)算速度快,還可以達(dá)到和其他算法相當(dāng)?shù)男阅,所以在人臉檢測中應(yīng)用比較廣泛,但也存在著較高的誤檢率。因?yàn)樵诓捎?Adaboost 算法學(xué)習(xí)的過程中,最后總有一些人臉和非人臉模式難以區(qū)分,而且其檢測的結(jié)果中存在一些與人臉模式并不相像的窗口。
人臉特征提取
目前主流的人臉識(shí)別系統(tǒng)可支持使用的特征通常可分為人臉視覺特征、人臉圖像像素統(tǒng)計(jì)特征等,而人臉圖像的特征提取就是針對人臉上的一些具體特征來提取的。特征簡單,匹配算法則簡單,適用于大規(guī)模的建庫;反之,則適用于小規(guī)模庫。特征提取的方法一般包括基于知識(shí)的提取方法或者基于代數(shù)特征的提取方法。
以基于知識(shí)的人臉識(shí)別提取方法中的一種為例,因?yàn)槿四樦饕怯裳劬、額頭、鼻子、耳朵、下巴、嘴巴等部位組成,對這些部位以及它們之間的結(jié)構(gòu)關(guān)系都是可以用幾何形狀特征來進(jìn)行描述的,也就是說每一個(gè)人的人臉圖像都可以有一個(gè)對應(yīng)的幾何形狀特征,它可以幫助我們作為識(shí)別人臉的重要差異特征,這也是基于知識(shí)的提取方法中的一種。
人臉識(shí)別
我們可以在人臉識(shí)別系統(tǒng)中設(shè)定一個(gè)人臉相似程度的數(shù)值,再將對應(yīng)的人臉圖像與系統(tǒng)數(shù)據(jù)庫中的所有人臉圖像進(jìn)行比對,若超過了預(yù)設(shè)的相似數(shù)值,那么系統(tǒng)將會(huì)把超過的人臉圖像逐個(gè)輸出,此時(shí)我們就需要根據(jù)人臉圖像的相似程度高低和人臉本身的身份信息來進(jìn)行精確篩選,這一精確篩選的過程又可以分為兩類:其一是一對一的篩選,即對人臉身份進(jìn)行確認(rèn)過程;其二是一對多的篩選,即根據(jù)人臉相似程度進(jìn)行匹配比對的過程。
活體鑒別
生物特征識(shí)別的共同問題之一就是要區(qū)別該信號(hào)是否來自于真正的生物體,比如,指紋識(shí)別系統(tǒng)需要區(qū)別帶識(shí)別的指紋是來自于人的手指還是指紋手套,人臉識(shí)別系統(tǒng)所采集到的人臉圖像,是來自于真實(shí)的人臉還是含有人臉的照片。因此,實(shí)際的人臉識(shí)別系統(tǒng)一般需要增加活體鑒別環(huán)節(jié),例如,要求人左右轉(zhuǎn)頭,眨眼睛,開開口說句話等。
2、 人臉識(shí)別主要方法
人臉識(shí)別技術(shù)的研究是一個(gè)跨越多個(gè)學(xué)科領(lǐng)域知識(shí)的高端技術(shù)研究工作,其包括多個(gè)學(xué)科的專業(yè)知識(shí),如圖像處理、生理學(xué)、心理學(xué)、模式識(shí)別等知識(shí)。在人臉識(shí)別技術(shù)研究的領(lǐng)域中,目前主要有幾種研究的方向,如:一種是根據(jù)人臉特征統(tǒng)計(jì)學(xué)的識(shí)別方法,其主要有特征臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;另一種人臉識(shí)別方法是關(guān)于連接機(jī)制的,主要有人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)方法和支持向量機(jī)(SVM,Support Vector Machine)方法等;還有一個(gè)就是綜合多種識(shí)別方式的方法。
基于特征臉的方法
特征臉的方法是一種比較經(jīng)典而又應(yīng)用比較廣的人臉識(shí)別方法,其主要原理是把圖像做降維算法,使得數(shù)據(jù)的處理更容易,同時(shí),速度又比較快。特征臉的人臉識(shí)別方法,實(shí)際上是將圖像做 Karhunen-Loeve 變換,把一個(gè)高維的向量轉(zhuǎn)化為低維的向量,從而消除每個(gè)分量存在的關(guān)聯(lián)性,使得變換得到的圖像與之對應(yīng)特征值遞減。在圖像經(jīng)過 K-L 變換后,其具有很好的位移不變性和穩(wěn)定性。所以,特征臉的人臉識(shí)別方法具有方便實(shí)現(xiàn),并且可以做到速度更快,以及對正面人臉圖像的識(shí)別率相當(dāng)高等優(yōu)點(diǎn)。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態(tài)和光照改變等因素的影響,從而導(dǎo)致識(shí)別率低的情況。
基于幾何特征的方法
基于幾何特征的識(shí)別方法是根據(jù)人臉面部器官的特征及其幾何形狀進(jìn)行的一種人臉識(shí)別方法,是人們最早研究及使用的識(shí)別方法,它主要是采用不同人臉的不同特征等信息進(jìn)行匹配識(shí)別,這種算法具有較快的識(shí)別速度,同時(shí),其占用的內(nèi)存也比較小,但是,其識(shí)別率也并不算高。該方法主要做法是首先對人臉的嘴巴、鼻子、眼睛等人臉主要特征器官的位置和大小進(jìn)行檢測,然后利用這些器官的幾何分布關(guān)系和比例來匹配,從而達(dá)到人臉識(shí)別。
基于幾何特征識(shí)別的流程大體如下:首先對人臉面部的各個(gè)特征點(diǎn)及其位置進(jìn)行檢測, 如鼻子、嘴巴和眼睛等位置,然后計(jì)算這些特征之間的距離,得到可以表達(dá)每個(gè)特征臉的矢量特征信息,例如眼睛的位置,眉毛的長度等,其次還計(jì)算每個(gè)特征與之相對應(yīng)關(guān)系,與人臉數(shù)據(jù)庫中已知人臉對應(yīng)特征信息來做比較,最后得出最佳的匹配人臉。基于幾何特征的方法符合人們對人臉特征的認(rèn)識(shí),另外,每幅人臉只存儲(chǔ)一個(gè)特征,所以占用的空間比較。 同時(shí),這種方法對光照引起的變化并不會(huì)降低其識(shí)別率,而且特征模板的匹配和識(shí)別率比較高。但是,基于幾何特征的方法也存在著魯棒性不好,一旦表情和姿態(tài)稍微變化,識(shí)別效果將大打折扣。
基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)的出現(xiàn)使人臉識(shí)別技術(shù)取得了突破性進(jìn)展。人臉識(shí)別的最新研究成果表明,深度學(xué)習(xí)得到的人臉特征表達(dá)具有手工特征表達(dá)所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強(qiáng)的選擇性、對局部遮擋具有良好的魯棒性。這些特性是通過大數(shù)據(jù)訓(xùn)練自然得到的,并未對模型加入顯式約束或后期處理,這也是深度學(xué)習(xí)能成功應(yīng)用在人臉識(shí)別中的主要原因。
深度學(xué)習(xí)在人臉識(shí)別上有 7 個(gè)方面的典型應(yīng)用:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的人臉識(shí)別方法,深度非線性人臉形狀提取方法,基于深度學(xué)習(xí)的人臉姿態(tài)魯棒性建模,有約束環(huán)境中的全自動(dòng)人臉識(shí)別,基于深度學(xué)習(xí)的視頻監(jiān)控下的人臉識(shí)別,基于深度學(xué)習(xí)的低分辨率人臉識(shí)別及其他基于深度學(xué)習(xí)的人臉相關(guān)信息的識(shí)別。
其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,能挖掘數(shù)據(jù)局部特征,提取全局訓(xùn)練特征和分類,其權(quán)值共享結(jié)構(gòu)網(wǎng)絡(luò)使之更類似于生物神經(jīng)網(wǎng)絡(luò),在模式識(shí)別各個(gè)領(lǐng)域都得到成功應(yīng)用。CNN 通過結(jié)合人臉圖像空間的局部感知區(qū)域、共享權(quán)重、在空間或時(shí)間上的降采樣來充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化模型結(jié)構(gòu),保證一定的位移不變性。
利用 CNN 模型,香港中文大學(xué)的 Deep ID 項(xiàng)目以及 Facebook 的 Deep Face 項(xiàng)目在 LFW 數(shù)據(jù)庫上的人臉識(shí)別正確率分別達(dá) 97.45%和 97.35%只比人類視覺識(shí)別 97.5%的正確率略低。在取得突破性成果之后,香港中文大學(xué)的 DeepID2 項(xiàng)目將識(shí)別率提高到了 99.15%。Deep ID2 通過學(xué)習(xí)非線性特征變換使類內(nèi)變化達(dá)到最小,而同時(shí)使不同身份的人臉圖像間的距離保持 恒定,超過了目前所有領(lǐng)先的深度學(xué)習(xí)和非深度學(xué)習(xí)算法在 LFW 數(shù)據(jù)庫上的識(shí)別率以及人類在該數(shù)據(jù)庫的識(shí)別率。深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺中的研究熱點(diǎn),關(guān)于深度學(xué)習(xí)的新算 法和新方向不斷涌現(xiàn),并且深度學(xué)習(xí)算法的性能逐漸在一些國際重大評測比賽中超過了淺層 學(xué)習(xí)算法。
基于支持向量機(jī)的方法
將支持向量機(jī)(SVM)的方法應(yīng)用到人臉識(shí)別中起源于統(tǒng)計(jì)學(xué)理論,它研究的方向是如何構(gòu)造有效的學(xué)習(xí)機(jī)器,并用來解決模式的分類問題。其特點(diǎn)是將圖像變換空間,在其他空間做分類。
支持向量機(jī)結(jié)構(gòu)相對簡單,而且可以達(dá)到全局最優(yōu)等特點(diǎn),所以,支持向量機(jī)在目前人臉識(shí)別領(lǐng)域取得了廣泛的應(yīng)用。但是,該方法也和神經(jīng)網(wǎng)絡(luò)的方法具有一樣的不足,就是需要很大的存儲(chǔ)空間,并且訓(xùn)練速度還比較慢。
其他綜合方法
以上幾種比較常用的人臉識(shí)別方法,我們不難看出,每一種識(shí)別方法都不能做到完美的識(shí)別率與更快的識(shí)別速度,都有著各自的優(yōu)點(diǎn)和缺點(diǎn),因此,現(xiàn)在許多研究人員則更喜歡使用多種識(shí)別方法綜合起來應(yīng)用,取各種識(shí)別方法的優(yōu)勢,綜合運(yùn)用,以達(dá)到更高的識(shí)別率和識(shí)別效果。
人臉識(shí)別三大經(jīng)典算法
特征臉法(Eigenface)
征臉技術(shù)是近期發(fā)展起來的用于人臉或者一般性剛體識(shí)別以及其它涉及到人臉處理的一種方法。使用特征臉進(jìn)行人臉識(shí)別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉(zhuǎn)換成一個(gè)特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓(xùn)練圖像集的基本組件。識(shí)別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點(diǎn)在子空間的位置以及投影線的長度來進(jìn)行判定和識(shí)別。
將圖像變換到另一個(gè)空間后,同一個(gè)類別的圖像會(huì)聚到一起,不同類別的圖像會(huì)聚力比較遠(yuǎn),在原像素空間中不同類別的圖像在分布上很難用簡單的線或者面切分,變換到另一個(gè)空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分布的主要成分,具體實(shí)現(xiàn)是對訓(xùn)練集中所有人臉圖像的協(xié)方差矩陣進(jìn)行本征值分解,得到對應(yīng)的本征向量,這些本征向量就是“特征臉”。每個(gè)特征向量或者特征臉相當(dāng)于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個(gè)人臉都可以表示為這些特征臉的線性組合。
局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是計(jì)算機(jī)視覺領(lǐng)域里用于分類的視覺算子。LBP 一種用來描述圖像紋理特征的算子,該算子由芬蘭奧盧大學(xué)的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發(fā)表了一篇關(guān)于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉(zhuǎn)不變、等價(jià)模式的改進(jìn)的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作為閾值,與他的領(lǐng)域相比較得到相對應(yīng)的二進(jìn)制碼來表示局部紋理特征。
LBP 是提取局部特征作為判別依據(jù)的。LBP 方法顯著的優(yōu)點(diǎn)是對光照不敏感,但是依然沒有解決姿態(tài)和表情的問題。不過相比于特征臉方法,LBP 的識(shí)別率已經(jīng)有了很大的提升。
Fisherface
線性鑒別分析在降維的同時(shí)考慮類別信息,由統(tǒng)計(jì)學(xué)家 Sir R. A. Fisher1936 年發(fā)明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特征組合方式,達(dá)到最大的類間離散度和最小的類內(nèi)離散度。這個(gè)想法很簡單:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。1997 年,Belhumer 成功將 Fisher 判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。
經(jīng)典論文
Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的坐標(biāo)系統(tǒng)來表示。Eigenpictures 是面部集合的平均協(xié)方差的本征函數(shù)。
Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發(fā)了一種近實(shí)時(shí)的計(jì)算機(jī)系統(tǒng),可以定位和追蹤人的頭部,然后通過比較面部特征和已知個(gè)體的特征來識(shí)別該人。該方法將面部識(shí)別問題視為二維識(shí)別問題。識(shí)別的過程是把一副新的圖像投影到特征臉子空間,該特征空間捕捉到已知面部圖像之間的顯著變化。重要特征稱為特征臉,因?yàn)樗鼈兪敲婕奶卣飨蛄俊?/P>
Ojala,T.,Pietikäinen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進(jìn)行比較,并提出了用來描述圖像紋理特征的 LBP 算子。
Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉(zhuǎn)不變紋理分類方法,該方法基于局部二值模式和樣本和原型分布的非參數(shù)判別。該方法具有灰度變化穩(wěn)健、計(jì)算簡單的特點(diǎn)。
Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特征組合方式,以達(dá)到最大的類間離散度和最小的類內(nèi)離散度。解決方式為:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。
Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的線性判別進(jìn)行面部投影,能夠在低維子空間中產(chǎn)生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實(shí)驗(yàn)結(jié)果表明, 所提出的“Fisherface”方法的誤差率低于哈佛和耶魯人臉數(shù)據(jù)庫測試的特征臉技術(shù)。
常用的人臉數(shù)據(jù)庫
主要介紹以下幾種常用的人臉數(shù)據(jù)庫:
ERET人臉數(shù)據(jù)庫
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 項(xiàng)目創(chuàng)建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個(gè)人臉。該集中,同一個(gè)人的照片有不同表情、光照、姿態(tài)和年齡的變化。包含 1 萬多張多姿態(tài)和光照的人臉圖像,是人臉識(shí)別領(lǐng)域應(yīng)用最廣泛的人臉數(shù)據(jù)庫之一。其中的多數(shù)人是西方人,每個(gè)人所包含的人臉圖像的變化比較單一。
CMU Multi-PIE人臉數(shù)據(jù)庫
http://www.flintbox.com/public/project/4742/
由美國卡耐基梅隆大學(xué)建立。所謂“PIE”就是姿態(tài)(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數(shù)據(jù)庫是在 CMU-PIE 人臉數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的。包含 337 位志愿者的 75000 多張多姿態(tài),光照和表情的面部圖像。其中的姿態(tài)和光照變化圖像也是在嚴(yán)格控制的條件下采集的,目前已經(jīng)逐漸成為人臉識(shí)別領(lǐng)域的一個(gè)重要的測試集合。
YALE人臉數(shù)據(jù)庫(美國,耶魯大學(xué))
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學(xué)計(jì)算視覺與控制中心創(chuàng)建,包含 15 位志愿者的 165 張圖片,包含光照、表情和姿態(tài)的變化。
Yale 人臉數(shù)據(jù)庫中一個(gè)采集志愿者的 10 張樣本,相比較 ORL 人臉數(shù)據(jù)庫 Yale 庫中每個(gè)對象采集的樣本包含更明顯的光照、表情和姿態(tài)以及遮擋變化。
YALE人臉數(shù)據(jù)庫 B
ttps://computervisiononline.com/dataset/1105138686
包含了 10 個(gè)人的 5850 幅在 9 種姿態(tài),64 種光照條件下的圖像。其中的姿態(tài)和光照變化的圖像都是在嚴(yán)格控制的條件下采集的,主要用于光照和姿態(tài)問題的建模與分析。由于采集人數(shù)較少,該數(shù)據(jù)庫的進(jìn)一步應(yīng)用受到了比較大的限制。
MIT人臉數(shù)據(jù)庫
由麻省理工大學(xué)媒體實(shí)驗(yàn)室創(chuàng)建,包含 16 位志愿者的 2592 張不同姿態(tài)(每人 27 張照片),光照和大小的面部圖像。
ORL人臉數(shù)據(jù)庫
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國劍橋大學(xué) AT&T 實(shí)驗(yàn)室創(chuàng)建,包含 40 人共 400 張面部圖像,部分志愿者的圖像包括了姿態(tài),表情和面部飾物的變化。該人臉庫在人臉識(shí)別研究的早期經(jīng)常被人們采用,但由于變化模式較少,多數(shù)系統(tǒng)的識(shí)別率均可以達(dá)到 90%以上,因此進(jìn)一步利用的價(jià)值已經(jīng)不大。
ORL 人臉數(shù)據(jù)庫中一個(gè)采集對象的全部樣本庫中每個(gè)采集對象包含10 幅經(jīng)過歸一化處理的灰度圖像,圖像尺寸均為 92×112 ,圖像背景為黑色。其中采集對象的面部表情和細(xì)節(jié)均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá) 20 度。
BioID人臉數(shù)據(jù)庫
https://www.bioid.com/facedb/
包含在各種光照和復(fù)雜背景下的 1521 張灰度面部圖像,眼睛位置已經(jīng)被手工標(biāo)注。
UMIST圖像集
由英國曼徹斯特大學(xué)建立。包括 20 個(gè)人共 564 幅圖像,每個(gè)人具有不同角度、不同姿態(tài)的多幅圖像。
年齡識(shí)別數(shù)據(jù)集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數(shù)據(jù)圖片。應(yīng)用了一個(gè)新穎的化回歸為分類的年齡算法。本質(zhì)就是在 0-100 之間的 101 類分類后,對于得到的分?jǐn)?shù)和 0-100 相乘, 并將最終結(jié)果求和,得到最終識(shí)別的年齡。
技術(shù)人才
1、學(xué)者概況
AMiner 基于發(fā)表于國際期刊會(huì)議的學(xué)術(shù)論文,對人臉識(shí)別領(lǐng)域全 TOP1000 的學(xué)者進(jìn)行計(jì)算分析,繪制了該領(lǐng)域?qū)W者全球分布地圖。從全球范圍來看,美國是人臉識(shí)別研究學(xué)者聚集最多的國家,在人臉識(shí)別領(lǐng)域的研究占有絕對的優(yōu)勢;英國緊隨其后,位列第二;中國位列全球第三,占有一席之地;加拿大、德國和日本等國家也聚集了部分人才。
▲人臉識(shí)別學(xué)者 TOP1000 全球分布圖
▲人臉識(shí)別專家國家數(shù)量排名
▲人臉識(shí)別全球?qū)W者 h-index 統(tǒng)計(jì)
h-index:國際公認(rèn)的能夠比較準(zhǔn)確地反映學(xué)者學(xué)術(shù)成就的指數(shù),計(jì)算方法是該學(xué)者至多有 h 篇論文分別被引用了至少 h 次。
全球人臉識(shí)別學(xué)者的 h-index 平均數(shù)為 48, h-index 指數(shù)在 20 到 40 之間的學(xué)者最多,占比 33%; h-index 指數(shù)在 40 到 60 之間的學(xué)者和大于 60 占比相持不下,前者為 27%,后者為 28%; h-index 指數(shù)小于等于 10 的學(xué)者最少,僅占 2%。
▲人臉識(shí)別全球人才遷徙圖
AMiner 選取人臉識(shí)別領(lǐng)域影響力排名前 1000 的專家學(xué)者,對其遷徙路徑做了分析。由上圖可以看出,各國人臉識(shí)別領(lǐng)域人才的流失和引進(jìn)略有差異,其中美國是人臉識(shí)別領(lǐng)域人才流動(dòng)大國,人才輸入和輸出都大幅領(lǐng)先,且從數(shù)據(jù)來看人才流入略大于流出。英國、中國、德國、加拿大和澳大利亞等國緊隨其后,其中英國、中國和澳大利亞有輕微的人才流失現(xiàn)象。
研究根據(jù)在全球范圍內(nèi)人臉與手勢識(shí)別領(lǐng)域的權(quán)威學(xué)術(shù)會(huì)議( IEEE International Conference on Automatic Face and Gesture Recognition,F(xiàn)G)上最近五年引用論文中,研究計(jì)算出 citation 和 h-index 排在前十的人臉識(shí)別專家,并截取部分領(lǐng)先學(xué)者加以介紹。
Citation 排在前十的相關(guān)學(xué)者位列如下:
▲Citation 前十的人臉識(shí)別專家
h-index 排在前十二的相關(guān)學(xué)者位列如下:
▲h-index 前十的人臉識(shí)別專家
2、國內(nèi)外人才
報(bào)告列舉了全球 6 位專家學(xué)者和5位國內(nèi)專家,詳見本內(nèi)參附件。
應(yīng)用領(lǐng)域
從應(yīng)用角度看,人臉識(shí)別應(yīng)用廣泛,可應(yīng)用于自動(dòng)門禁系統(tǒng)、身份證件的鑒別、銀行ATM 取款機(jī)以及家庭安全等領(lǐng)域。具體來看主要有:
1、 公共安全:公安刑偵追逃、罪犯識(shí)別、邊防安全檢查; 2、 信息安全:計(jì)算機(jī)和網(wǎng)絡(luò)的登錄、文件的加密和解密; 3、 政府職能:電子政務(wù)、戶籍管理、社會(huì)福利和保險(xiǎn); 4、商業(yè)企業(yè):電子商務(wù)、電子貨幣和支付、考勤、市場營銷; 5、場所進(jìn)出:軍事機(jī)要部門、金融機(jī)構(gòu)的門禁控制和進(jìn)出管理等。
門禁人臉識(shí)別
隨著人們生活水平的提高,人們更加注重家居環(huán)境的安全,安防觀念不斷加強(qiáng);伴隨著這種需求的提高,智能門禁系統(tǒng)應(yīng)運(yùn)而生,越來越多的企業(yè)、商鋪、家庭都安裝了各種各樣的門禁系統(tǒng)。
當(dāng)前比較普遍使用的門禁系統(tǒng)不外乎視頻門禁、密碼門禁、射頻門禁或指紋門禁等等。其中,視頻門禁只是簡單地把視頻信息傳送給用戶,并無多少智能化,本質(zhì)上離不開“人防”,用戶不在場時(shí)并不能絕對保障家居安全;密碼門禁最大的硬傷是,密碼容易忘記,并且容易破解;射頻門禁的缺點(diǎn)則是“認(rèn)卡不認(rèn)人”,射頻卡容易丟失及易被他人盜用;另外,指紋門禁的安全隱患則是指紋容易復(fù)制。因此,現(xiàn)有技術(shù)中提供的上述門禁系統(tǒng)均對應(yīng)原因存在安全性較低的問題。安裝了人臉識(shí)別系統(tǒng),只要對著攝像頭露個(gè)臉就可以輕松出入小區(qū),真正實(shí)現(xiàn)了“刷臉卡”。生物識(shí)別門禁系統(tǒng)不需要攜帶驗(yàn)證介質(zhì),驗(yàn)證特征具有唯一性,安全 性極好。目前廣泛的應(yīng)用于機(jī)密等級較高的場所,例如研究所、銀行等。
市場營銷
面部識(shí)別技術(shù)在營銷上主要有兩方面的應(yīng)用:首先,可以識(shí)別一個(gè)人的基本個(gè)人信息, 例如性別、大致年齡,以及他們看過什么,看了多久等。戶外廣告公司,例如 Val Morgan Outdoor(VMO),開始采用面部識(shí)別技術(shù)來收集消費(fèi)者數(shù)據(jù)。其次,該技術(shù)可以用于識(shí)別已知的個(gè)人,例如小偷,或者已經(jīng)加入系統(tǒng)的會(huì)員。這方面的應(yīng)用已經(jīng)引起一些服務(wù)提供商和零售商的注意。
此外,面部識(shí)別技術(shù)還可以提高廣告的效果,并允許廣告主對消費(fèi)者的表現(xiàn)及時(shí)做出反應(yīng)。VMO 公司推出了一個(gè)測量工具 DART,這個(gè)工具可以實(shí)時(shí)看出消費(fèi)者眼睛關(guān)注的方向以及時(shí)長,從而可以判斷出他們對一支廣告的關(guān)注程度。下一代的 DART 還將納入更多的人口統(tǒng)計(jì)學(xué)信息,除了年齡之外,還包括消費(fèi)者在看一個(gè)數(shù)字標(biāo)牌時(shí)的情緒。
商業(yè)銀行
利用人臉識(shí)別技術(shù)防范網(wǎng)絡(luò)風(fēng)險(xiǎn):對于我國廣泛使用的磁條銀行卡,雖然技術(shù)成熟,規(guī)范,但制作技術(shù)并不復(fù)雜,銀行磁條卡磁道標(biāo)準(zhǔn)已經(jīng)是公開的秘密,僅憑一臺(tái)電腦和一臺(tái)磁條讀寫器就可以順利“克隆”銀行 卡。另外制卡機(jī)銷售管理不夠嚴(yán)格。不法分子利用銀行卡詐騙案件時(shí)有發(fā)生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業(yè)銀行也采取了一些技術(shù)手段防止偽 造和克隆卡,如采用 CVV(Check Value Verify)技術(shù),在生成卡磁條信息的同時(shí)產(chǎn)生一組校驗(yàn)值,該校驗(yàn)值與每個(gè)卡片本身的特性相關(guān)聯(lián),從而達(dá)到復(fù)制無效的功能。雖然采取了多種措施,但磁條卡本身固有的缺陷已嚴(yán)重威脅到客戶的利益。對于這些銀行網(wǎng)絡(luò)安全問題, 我們可以利用人臉識(shí)別技術(shù)防范網(wǎng)絡(luò)風(fēng)險(xiǎn)。人臉識(shí)別技術(shù)就是通過圖像采集設(shè)備捕捉人的臉部區(qū)域,然后把捕捉到的人臉和數(shù)據(jù)庫中的人臉進(jìn)行匹配,從而完成身份識(shí)別的任務(wù)。利用人臉識(shí)別技術(shù)準(zhǔn)確認(rèn)定持卡人的真實(shí)身份,確保持卡人的資金安全。另外,還可以通過人臉識(shí)別技術(shù)進(jìn)一步鎖定不法分子,有利于公安機(jī)關(guān)快速破案。
人臉識(shí)別技術(shù)在治理假鈔方面的應(yīng)用:目前,我國商業(yè)銀行在自助設(shè)備方面存在的主要問題:一是部分自助設(shè)備安裝沒有達(dá)到要求。商業(yè)銀行的部分自助設(shè)備安裝沒有按照公安部門的要求對設(shè)備進(jìn)行與地面加固連接; 有的電氣環(huán)境沒有達(dá)到要求:有的沒有設(shè)置 110 連動(dòng)報(bào)警或者沒有可視監(jiān)控報(bào)警,有的監(jiān)控錄像不夠清晰,監(jiān)控錄像保存時(shí)間沒有達(dá)到規(guī)定要求等,另外設(shè)備人為破壞現(xiàn)象嚴(yán)重等。二是自助設(shè)備端軟件設(shè)計(jì)缺陷。特別是某些國產(chǎn)設(shè)備軟件設(shè)計(jì)不夠合理,軟件變更隨意性大, 存在漏洞,造成錯(cuò)帳可能性比較大。三是銀行的 ATM 機(jī)中沒有假鈔鑒別設(shè)備。由于我國商業(yè)銀行在自助設(shè)備方面存在的問題,目前,假鈔層出不窮。由于銀行的 ATM 機(jī)中沒有假鈔鑒別設(shè)備,只是在清機(jī)人員放入現(xiàn)金前做了鑒別,這樣的措施并不夠完善,且容易造成銀行與持卡人之間的糾紛。即使是現(xiàn)金存款機(jī)(CRS)有假鈔鑒別功能,但往往因?yàn)榧兮n識(shí)別特征提取的滯后,而被不法分子所利用。不法分子先存入假鈔,然后馬上在柜臺(tái)或其他自助設(shè)備上提取真鈔,以此手段謀取不法利益。
未來趨勢
總的來說,人臉識(shí)別的趨勢包括以下幾方面。
1、機(jī)器識(shí)別與人工識(shí)別相結(jié)合
目前市面上主流的一些人臉識(shí)別公司在引用國內(nèi)外知名的人臉圖像數(shù)據(jù)庫進(jìn)行測試時(shí), 其人臉識(shí)別的精準(zhǔn)性一般都可以達(dá)到 95%以上,而且進(jìn)行精準(zhǔn)人臉識(shí)別的速度也非?,這也從側(cè)面為人臉識(shí)別技術(shù)投入實(shí)際應(yīng)用提供了強(qiáng)有力的實(shí)踐證明。
不過在實(shí)際的生活中,每個(gè)人的人臉相對于攝像頭而言并不是保持靜止不動(dòng)的,相反則是處于高速的運(yùn)動(dòng)狀態(tài)之中,攝像機(jī)采集到的人臉圖像會(huì)因?yàn)槿四樀淖藨B(tài)、表情、光線、裝飾物等不同而呈現(xiàn)出完全不同的樣子,也極有可能會(huì)出現(xiàn)采集到的人臉圖像不清晰、不完整、關(guān)鍵部位特征不明顯的情況,這個(gè)時(shí)候人臉識(shí)別系統(tǒng)也就可能無法做到快速和精準(zhǔn)的人臉識(shí)別了。
因此在設(shè)定了一定的人臉圖像相似程度數(shù)值之后,人臉識(shí)別公司系統(tǒng)會(huì)對高于該相似程度數(shù)值的人臉圖像做出提示,然后再由人工進(jìn)行逐個(gè)的篩選,采用機(jī)器識(shí)別與人工識(shí)別相結(jié)合的方式才能最大限度的做到人臉圖像的精準(zhǔn)識(shí)別。
2、3D 人臉識(shí)別技術(shù)的廣泛應(yīng)用
不論是時(shí)下主流的人臉圖像數(shù)據(jù)庫中已經(jīng)保存好的人臉圖像,還是在街邊路口由攝像頭實(shí)時(shí)采集到的人臉圖像,絕大多數(shù)其實(shí)都是一張 2D 人臉圖像。2D 人臉圖像本身其實(shí)存在著固有的缺陷,那就是它無法做到深度的表達(dá)人臉圖像信息,在拍攝時(shí)特別容易受到光照、姿態(tài)、表情等因素的影響。而對于人臉來講,人臉面部包括眼睛、鼻子、耳朵、下巴等諸多的關(guān)鍵部位并不是處于一個(gè)平面上的,人臉天然具有立體效果,拍攝 2D 人臉圖像不能夠很好的完全反映出人臉面部的全部關(guān)鍵特征。
2017 年,iPhone X 這部搭載了眾多最新前沿技術(shù)的智能手機(jī)一經(jīng)亮相,便引起業(yè)界的極大關(guān)注。其中最引人注目的當(dāng)屬于一項(xiàng)黑科技:3D 人臉解鎖功能,即 Face ID,一種新的身份認(rèn)證方式。在開鎖時(shí),用戶只需要注視著手機(jī),F(xiàn)ace ID 就能實(shí)現(xiàn)人臉識(shí)別解鎖。
▲蘋果在 3D 視覺領(lǐng)域的布局
蘋果 iPhone X 加入 3D 面部識(shí)別功能并不是心血來潮,因?yàn)槠湓?2010 年的時(shí)候就已經(jīng)開始在 3D 視覺領(lǐng)域進(jìn)行了布局。特別是在 2013 年,蘋果公司以 3.45 億美元的價(jià)格收購了以色列的 3D 視覺公司 PrimeSense。這項(xiàng)收購是蘋果公司史上最大手筆的收購之一。此后, 蘋果還投資了一些列的 3D 視覺技術(shù)和人臉識(shí)別技術(shù)公司。
此外,F(xiàn)ace ID 還可用于 Apple pay 和第三方應(yīng)用。比如,蘋果就利用 Face ID 對 emoji 功能進(jìn)行了升級,可通過 Face ID 利用戶面部表情來創(chuàng)建 3D 表情 Animojis,可利用動(dòng)畫來表達(dá)情緒,不過目前這個(gè)功能只能使用在蘋果自己的 iMessage 中。這種直接“刷臉”的方式帶給了用戶更真實(shí)的人機(jī)交互體驗(yàn)。
3、基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)的廣泛應(yīng)用
目前主流的人臉識(shí)別技術(shù)大多都是針對輕量級的人臉圖像數(shù)據(jù)庫,對于未來完全可預(yù)見的億萬級的人臉圖像數(shù)據(jù)庫則還不太成熟,因此需要重點(diǎn)研究基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)。
通俗意義上來講就是,目前國內(nèi)人口有十三億之多,由實(shí)力雄厚的人臉識(shí)別公司牽頭在不久的未來建立起一個(gè)覆蓋全國范圍的統(tǒng)一的人臉圖像數(shù)據(jù)庫也是可以預(yù)見的,那么該人臉圖像數(shù)據(jù)庫存儲(chǔ)的人臉圖像的容量可能會(huì)達(dá)到數(shù)十億甚至是數(shù)百億的級別,這時(shí)候可能就會(huì)存在大量表征相似、關(guān)鍵特征點(diǎn)相似的人臉,如果沒有基于深度學(xué)習(xí)的人臉識(shí)別技術(shù),建立更為復(fù)雜的多樣化的人臉模型,那么在實(shí)現(xiàn)精準(zhǔn)和快速的人臉識(shí)別就會(huì)比較困難。
4、人臉圖像數(shù)據(jù)庫的實(shí)質(zhì)提升
建立具備優(yōu)良的多樣性和通用性的人臉圖像數(shù)據(jù)庫也是一個(gè)必然的事情,與目前主流的人臉識(shí)別公司引用的數(shù)據(jù)庫相比,其實(shí)質(zhì)上的提升主要體現(xiàn)在如下幾個(gè)方面:一是人臉圖像數(shù)據(jù)庫量級的提升,將會(huì)從現(xiàn)在的十萬百萬級提升至未來的十億級甚至是百億級;二是質(zhì)級的提升,將會(huì)由主流的2D 人臉圖像提升至各種關(guān)鍵特征點(diǎn)更為明顯和清晰的3D 人臉圖像; 三是人臉圖像的類型提升,將會(huì)采集每個(gè)人在各個(gè)不同的姿態(tài)、表情、光線、裝飾物等之下的人臉圖像,以充實(shí)每個(gè)人的人臉表征進(jìn)而做到精準(zhǔn)的人臉識(shí)別。
小編認(rèn)為,人臉識(shí)別是AI技術(shù)發(fā)展較快、應(yīng)用較多的一個(gè)領(lǐng)域,有著廣泛的應(yīng)用范圍。在今年的安博會(huì)上,人臉識(shí)別及動(dòng)態(tài)捕捉技術(shù),幾乎成為每家展商的“標(biāo)配”。隨著國家科研機(jī)構(gòu)的研發(fā)投入、企業(yè)對技術(shù)的鉆研、市場的推廣等,人臉識(shí)別將迎來更美好的發(fā)展浪潮。未來人臉識(shí)別或成為有效身份識(shí)別主流,屆時(shí),人臉識(shí)別就不是什么新鮮詞了。
|