人臉識(shí)別技術(shù)這些年已經(jīng)發(fā)生了重大的變化。傳統(tǒng)方法依賴于人工設(shè)計(jì)的特征(比如邊和紋理描述量)與機(jī)器學(xué)習(xí)技術(shù)(比如主成分分析、線性判別分析或支持向量機(jī))的組合。人工設(shè)計(jì)在無(wú)約束環(huán)境中對(duì)不同變化情況穩(wěn)健的特征是很困難的,這使得過(guò)去的研究者側(cè)重研究針對(duì)每種變化類型的專用方法,比如能應(yīng)對(duì)不同年齡的方法、能應(yīng)對(duì)不同姿勢(shì)的方法、能應(yīng)對(duì)不同光照條件的方法等。近段時(shí)間,傳統(tǒng)的人臉識(shí)別方法已經(jīng)被基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)方法接替。深度學(xué)習(xí)方法的主要優(yōu)勢(shì)是它們可用非常大型的數(shù)據(jù)集進(jìn)行訓(xùn)練,從而學(xué)習(xí)到表征這些數(shù)據(jù)的最佳特征。網(wǎng)絡(luò)上可用的大量自然人臉圖像已讓研究者可收集到大規(guī)模的人臉數(shù)據(jù)集,這些圖像包含了真實(shí)世界中的各種變化情況。使用這些數(shù)據(jù)集訓(xùn)練的基于 CNN 的人臉識(shí)別方法已經(jīng)實(shí)現(xiàn)了非常高的準(zhǔn)確度,因?yàn)樗鼈兡軌驅(qū)W到人臉圖像中穩(wěn)健的特征,從而能夠應(yīng)對(duì)在訓(xùn)練過(guò)程中使用的人臉圖像所呈現(xiàn)出的真實(shí)世界變化情況。此外,深度學(xué)習(xí)方法在計(jì)算機(jī)視覺方面的不斷普及也在加速人臉識(shí)別研究的發(fā)展,因?yàn)?CNN 也正被用于解決許多其它計(jì)算機(jī)視覺任務(wù),比如目標(biāo)檢測(cè)和識(shí)別、分割、光學(xué)字符識(shí)別、面部表情分析、年齡估計(jì)等。
人臉識(shí)別系統(tǒng)通常由以下構(gòu)建模塊組成:
人臉檢測(cè)。人臉檢測(cè)器用于尋找圖像中人臉的位置,如果有人臉,就返回包含每張人臉的邊界框的坐標(biāo)。如圖 3a 所示。
人臉對(duì)齊。人臉對(duì)齊的目標(biāo)是使用一組位于圖像中固定位置的參考點(diǎn)來(lái)縮放和裁剪人臉圖像。這個(gè)過(guò)程通常需要使用一個(gè)特征點(diǎn)檢測(cè)器來(lái)尋找一組人臉特征點(diǎn),在簡(jiǎn)單的 2D 對(duì)齊情況中,即為尋找最適合參考點(diǎn)的最佳仿射變換。圖 3b 和 3c 展示了兩張使用了同一組參考點(diǎn)對(duì)齊后的人臉圖像。更復(fù)雜的 3D 對(duì)齊算法(如 [16])還能實(shí)現(xiàn)人臉正面化,即將人臉的姿勢(shì)調(diào)整到正面向前。
人臉表征。在人臉表征階段,人臉圖像的像素值會(huì)被轉(zhuǎn)換成緊湊且可判別的特征向量,這也被稱為模板(template)。理想情況下,同一個(gè)主體的所有人臉都應(yīng)該映射到相似的特征向量。
人臉匹配。在人臉匹配構(gòu)建模塊中,兩個(gè)模板會(huì)進(jìn)行比較,從而得到一個(gè)相似度分?jǐn)?shù),該分?jǐn)?shù)給出了兩者屬于同一個(gè)主體的可能性。