湖南人臉識(shí)別技術(shù)的發(fā)展歷程
早在20世紀(jì)50年代,認(rèn)知科學(xué)家就已著手對(duì)人臉識(shí)別展開研究。20世紀(jì)60年代,人臉識(shí)別工程化應(yīng)用研究正式開啟。當(dāng)時(shí)的方法主要利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點(diǎn)及其之間的拓?fù)潢P(guān)系進(jìn)行辨識(shí)。這種方法簡單直觀,但是一旦人臉姿態(tài)、表情發(fā)生變化,則精度嚴(yán)重下降。
1991年,著名的“特征臉”方法[1]第一次將主成分分析和統(tǒng)計(jì)特征技術(shù)引入人臉識(shí)別,在實(shí)用效果上取得了長足的進(jìn)步。這一思路也在后續(xù)研究中得到進(jìn)一步發(fā)揚(yáng)光大,例如,Belhumer成功將Fisher判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的Fisherface方法[2]。
21世紀(jì)的前十年,隨著機(jī)器學(xué)習(xí)理論的發(fā)展,學(xué)者們相繼探索出了基于遺傳算法、支持向量機(jī)(Support Vector Machine, SVM)、boosting、流形學(xué)習(xí)以及核方法等進(jìn)行人臉識(shí)別。 2009年至2012年,稀疏表達(dá)(Sparse Representation)[3]因?yàn)槠鋬?yōu)美的理論和對(duì)遮擋因素的魯棒性成為當(dāng)時(shí)的研究熱點(diǎn)。
與此同時(shí),業(yè)界也基本達(dá)成共識(shí):基于人工精心設(shè)計(jì)的局部描述子進(jìn)行特征提取和子空間方法進(jìn)行特征選擇能夠取得最好的識(shí)別效果。Gabor[4]及LBP[5]特征描述子是迄今為止在人臉識(shí)別領(lǐng)域最為成功的兩種人工設(shè)計(jì)局部描述子。這期間,對(duì)各種人臉識(shí)別影響因子的針對(duì)性處理也是那一階段的研究熱點(diǎn),比如人臉光照歸一化、人臉姿態(tài)校正、人臉超分辨以及遮擋處理等。也是在這一階段,研究者的關(guān)注點(diǎn)開始從受限場景下的人臉識(shí)別轉(zhuǎn)移到非受限環(huán)境下的人臉識(shí)別。LFW人臉識(shí)別公開競賽在此背景下開始流行,當(dāng)時(shí)最好的識(shí)別系統(tǒng)盡管在受限的FRGC測(cè)試集上能取得99%以上的識(shí)別精度,但是在LFW上的最高精度僅僅在80%左右,距離實(shí)用看起來距離頗遠(yuǎn)。
2013年,MSRA的研究者首度嘗試了10萬規(guī)模的大訓(xùn)練數(shù)據(jù),并基于高維LBP特征和Joint Bayesian方法[6]在LFW上獲得了95.17%的精度。這一結(jié)果表明:大訓(xùn)練數(shù)據(jù)集對(duì)于有效提升非受限環(huán)境下的人臉識(shí)別很重要。然而,以上所有這些經(jīng)典方法,都難以處理大規(guī)模數(shù)據(jù)集的訓(xùn)練場景。
2014年前后,隨著大數(shù)據(jù)和深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)重受矚目,并在圖像分類、手寫體識(shí)別、語音識(shí)別等應(yīng)用中獲得了遠(yuǎn)超經(jīng)典方法的結(jié)果。香港中文大學(xué)的Sun Yi等人提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識(shí)別上[7],采用20萬訓(xùn)練數(shù)據(jù),在LFW上第一次得到超過人類水平的識(shí)別精度,這是人臉識(shí)別發(fā)展歷史上的一座里程碑。自此之后,研究者們不斷改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)擴(kuò)大訓(xùn)練樣本規(guī)模,將LFW上的識(shí)別精度推到99.5%以上。我們給出了人臉識(shí)別發(fā)展過程中一些經(jīng)典的方法及其在LFW上的精度,一個(gè)基本的趨勢(shì)是:訓(xùn)練數(shù)據(jù)規(guī)模越來越大,識(shí)別精度越來越高。