bio_rozpozn_twarzy-1.doc

(605 KB) Pobierz
Inżynieria Obrazu

Inżynieria Obrazu

Damian Gajewski, MiEPU 2004/2005

Temat: Rozpoznawanie osób na podstawie geometrii kształtu twarzy - przegląd metod

 

 

1. Wstęp

Systemy biometryczne można podzielić na dwie kategorie - fizjologiczne i behawioralne. Systemy fizjologiczne badają cechy różnych elementów ciała, zaś behawioralne - charakterystykę ruchu czy głosu osób. Rozpoznawanie osób na podstawie geometrii kształtu twarzy należy do rodziny systemów fizjologicznych. Inne systemy fizjologiczne bazują na weryfikacji na podstawie wzoru tęczówki oka, odcisku palca, geometrii dłoni, ucha.

              Cechy biologiczne funkcjonują jako środki identyfikacji tożsamości - np. fotografia, podpis itp., od czasów średniowiecza. Chińczycy używali odcisków kciuka do pieczętowania dokumentów już ponad 2000 lat temu. Fotografie znalazły zastosowanie w paszportach na początku ubiegłego wieku.

                           

              Wybór optymalnej technologii biometrycznej zależy przede wszystkim od jej zastosowania.

Spośród szerzej rozpowszechnionych metod identyfikacja na podstawie tęczówki oka uznawana jest na najbardziej pewną. Wymaga jednak wysokiej klasy kamery / zespołu kamer, odpowiedniego oświetlenia lub użycia promieniowania podczerwonego, co wiąże się z obawami użytkowników o wpływ urządzenia na ich stan zdrowia. Najbardziej rozpowszechniona jest identyfikacja na podstawie odcisku palca - czujniki i oprogramowanie są spotykane w komercyjnym sprzęcie, np. w klawiaturach, telefonach komórkowych z najwyższej półki. Metoda wymaga jednak kontaktu ciała z czujnikiem, powstają trudności z zastosowaniem tej metody w pewnych środowiskach (sygnalizowano już problemy z liniami papilarnymi chirurgów, którzy szorując intensywnie swoje ręce przed zabiegami chirurgicznymi rozmazywali relief linii papilarnych, co skutkowało trudnościami w ich identyfikacji). Badanie geometrycznych cech ludzkiej dłoni jest metodą wygodniejszą, ale wyraźnie mniej pewną. Najczęściej używa się jej jako metody identyfikacji przy dostępie do mniej ważnych pomieszczeń - duża popularność w budynkach rządowych w USA.

Przedmiotem niniejszego referatu jest przegląd metod bazujących na analizie twarzy jako całości lub jej fragmentach (oczy, nos, usta) i ich wzajemnych zależności.

 

2. Fizjonomia kluczem

 

              Badania wskazują, że twarz, z którą się urodziliśmy pozostaje identyfikowalna przez resztę życia. Zależności pomiędzy poszczególnymi częściami twarzy, kontury pozostają względnie stabilne od okresu dzieciństwa. Rozpoznawanie na podstawie geometrii kształtu twarzy jest metodą najmniej inwazyjną - nie wymaga kontaktu ciała z czujnikiem, tolerancja ustawienia głowy względem kamery pozwala na identyfikację po minimalnej liczbie prób. Metoda nie wymaga zaawansowanego sprzętu - wystarcza standardowa kamera przemysłowa CCTV lub nawet kamera typu webcam podłączona do komputera - resztę załatwia oprogramowanie. Jest to metoda komfortowa ze względu na psychikę użytkowników; dla osób nie obeznanych z techniką najlepiej stosować systemy jak najbardziej naturalne w obsłudze. Zalety metody okupione są mniejszą pewnością i niezawodnością (skuteczność oceniana na 85 %). Dla porównania skuteczność analizy linii papilarnych jest oceniana na 99%. Dodatkowo powstaje dyskusja o granice prywatności przy identyfikacji - tworzenie bazy i rozpoznawanie osób na podstawie geometrii kształtu twarzy może odbywać się bez wiedzy i współpracy ludzi poddawanych identyfikacji.

              Zasada działania, podobnie jak w przypadku daktyloskopii, została zapożyczona z kryminalistyki i wykorzystuje pomiary antropometryczne twarzy. Pewną wadą tego rozwiązania kłopoty z rozróżnianiem bliźniaków jednojajowych. Kłopoty mogą też sprawiać zmiany wyglądu przychodzące z wiekiem.

              Do weryfikacji tożsamości wykorzystać można również analizę ruchu ust - może ona być uzupełnieniem rozpoznawania rysów twarzy.

              Pojawia się pytanie o próby oszustwa i odporność systemu identyfikacji na podstawie kształtu twarzy na możliwość użycia zdjęcia. Bardziej zaawansowane systemy używają kamer pracujących w podczerwieni, badając rozkład temperatur na twarzy osoby - termiczna analiza twarzy pozwala tworzyć termogramy i zwiększa bezpieczeństwo metody. Należy jednak pamiętać, że połączenie wysokiej pewności i niezawodności z łatwością użycia skutkuje wysokimi cenami systemu, co przy wykorzystaniu kilkudziesięciu terminali ma duże znaczenie.

3. Trochę historii

              Początkowo systemy weryfikacji twarzy działały poprawnie wyłącznie w tzw. środowisku kontrolowanym, czyli posiadającym jednolite tło, łatwo odróżniające się od głowy, a fotografie były robione zawsze dla identycznej orientacji i odległości głowy od kamery. Pierwsze algorytmy wrażliwe były (w większym stopniu niż obecnie) na zmiany wyglądu twarzy spowodowane okularami, zmianą fryzury, obecnością wąsów, brody, itp. Dzisiejsze algorytmy są w większości przypadków inwariantne w stosunku do przytoczonych zakłóceń (orientacja głowy objęta jest pewną tolerancją), a głównym kierunkiem ich rozwoju jest czas przetwarzania, aby maksymalnie skrócić czas identyfikacji osoby w dużych bazach danych.

 

4. Przegląd metod

 

              Wszystkie systemy biometryczne zapisują w swojej pamięci określony wzór wybranej cechy i przechowują go jako plik lub szablon. Następnie, podczas procesu weryfikacji, system próbuje dopasować określoną cechę użytkownika do zapisanych wzorców. W procesie weryfikacji budowany jest matematyczny wzorzec twarzy, który jest następnie porównywany ze wzorcem zapisanym w trakcie rejestracji.

             

              Pierwszym i podstawowym elementem współczesnych metod weryfikacji twarzy jest detekcja i lokalizacja twarzy w obrazie otrzymywanym z kamery. Wycinek obrazu zawierający zlokalizowana twarz jest przekazywany do algorytmu weryfikacji / identyfikacji. Pierwsza grupa metod weryfikujących obraz twarzy traktuje obraz jako wektor jednakowo istotnych elementów (tu: pikseli). Następnie za pomocą znanych narzędzi statystycznych eliminowane są elementy silnie skorelowane, prowadząc do zestawu słabo zależnych liczb tworzących wektor cech twarzy. M. Turk i A. Pentland zaproponowali w roku 1991 tzw. metodę twarzy własnych (ang. eigenfaces), bazującą na transformacie Karhunena-Loevego (częściej określanej w literaturze mianem analizy składowej głównej - PCA, ang. Principal Component Analysis), która obecnie jest niemalże standardem w systemach weryfikacji twarzy. Metoda ta doczekała się licznych modyfikacji zwiększających jej niezawodność (np. metoda fisherfaces, analiza składowych niezależnych).

 

              Rysunek 1 przedstawia cztery kroki algorytmu detekcji twarzy w systemie budowanym w NASK i PW [2]. Algorytm ten oparty jest na powszechnie wykorzystywanej technice transformaty Hougha.

 

 

              Odmienną grupą metod weryfikujących obraz twarzy są metody wyznaczające punkty charakterystyczne twarzy, tj. oczy, nos, kąciki ust i wyznaczające geometryczne zależności

pomiędzy tymi elementami. Najbardziej rozpowszechnioną metodą jest tzw. metoda dopasowania grafu (EGM, ang. Elastic Graph Matching) pierwotnie zaproponowana przez M. Lades et al. w roku 1993, wraz z późniejszymi modyfikacjami. Metody te badają stopień dopasowania grafu rozpiętego na automatycznie wyznaczonych punktach charakterystycznych twarzy. Metody te są odporne na kilkunastostopniowe zmiany orientacji głowy i do pewnego stopnia na zmienne wietlenie. Metody oparte wyłącznie na geometrycznych cechach obiektów obrazu zawodzą, gdy w obrazie pojawiają się inne kształty, na które wrażliwy jest algorytm.

 

              Ciekawym pomysłem, wymagającej niestety specjalistycznego sprzętu, jest podejście oparte na detekcji położenia oczu [3], z wykorzystaniem efektu czerwonych oczu, tak niepożądanego w normalnej fotografii. Pierwszy półobraz (dotyczy wybierania międzyliniowego standard w telewizji przemysłowej) wykonywany jest przy oświetleniu interesującego obiektu światłem znajdującym się w osi obiektywu, zaś drugi półobraz światłem nie wspóliniowym. Porównując ona półobrazy największe różnice dostrzec można w okolicy źrenic oczu, gdzie dla pierwszego półobrazu widać będzie wyraźne odbicie światła od dna oka, a w drugim takiego efektu nie dostrzeżemy. Metoda taka lokalizuje również twarz obróconą o pewien kąt, co jest najpoważniejszym problemem większości algorytmów. Rysunek 2 obrazuje skuteczność detekcji opartej na tej metodzie.

 

rys. 2

 

              Do rozpoznawania twarzy na obrazach cyfrowych wykorzystuje się różnorodne metody, znane także z innych zastosowań takich jak: sieci neuronowe, uczenie maszynowe, dopasowywanie szablonów (ang. template matching), wspomniana transformata Hough’a czy wreszcie analiza kolorów. Jednak praktycznie najważniejsze znaczenie mają metody wykorzystujące sieci neuronowe oraz analizę kolorów bazujące na informacji o wartościach kolorów punktów na obrazie i barwie ludzkiej skóry w komputerowym modelu barw oraz sieciach neuronowych.

 

 

 

 

Przyjrzyjmy się bliżej pierwszemu etapowi identyfikacji - detekcji twarzy. Rein-Lien Hsu [4] zastosował wieloetapowy algorytm detekcji uzyskując na zbiorze 382 zdjęć (także grupowych, 1.72 twarzy na obrazek) skuteczność detekcji 80.35% oraz 10.41% błędnych detekcji. Kolejne etapy algorytmu:

- kompensacja światła na obrazie wejściowym w celu uniezależnienia wpływu oświetlenia na kolor ludzkiej skóry,

- detekcja obszarów skóry przy użyciu modelu barw YCbCr,

- weryfikacja obszarów skóry m.in. poprzez lokalizację linii oczu oraz ust (bazując na fakcie, że barwę pikseli w okolicach oczu cechują wysokie wartości składowej Cb oraz niskie składowej Cr, wysokie wartości Cr w okolicach ust oraz, że okolice oczu zawierają piksele zarówno o niskiej jak i wysokiej jasności – składowa Y),

- generacja elipsy zawierającej obszar twarzy, posiadającą orientację wyznaczaną przez wektor, którego końcem są usta a początkiem środek odcinka łączącego oczy.

Kolejne etapy przedstawiono graficznie na rys. 3.

                 

           rys. 3.  źródło oryginału: [4]

 

 

Przedstawiony algorytm działa dobrze dla obszaru twarzy wielkości od 13 * 13 pikseli, do około ¾ rozmiaru obrazu wejściowego.

              Należy zauważyć, że kwalifikacja obszarów skóry zależy silnie od warunków oświetlenia. W oparciu o nieliniową skalę luminancji wynikającą z korekcji gamma zliczane są piksele o luminancji z zakresu 95-100% skali. Jeżeli jest ich odpowiednio dużo (>100) oznaczane są jako „biel odniesienia”. Następnie składowe RGB poddawane są niezależnie regulacji, tak, aby uzyskać znormalizowaną skalę szarości do wartości 255. Obraz nie jest zmieniany, jeżeli wspomnianych pikseli „bieli odniesienia” jest zbyt mało. Na rys. 4 przedstawiono uzyskane wyniki.

 

rys. 4.    a - oryginał         b - po kompensacji       c - obszary skóry dla (a)   d - obszary skóry dla (b)

źródło: [4]

 

 

Rysunek 5 przedstawia przyjętą przestrzeń koloru skóry w podprzestrzeni barw CbCr. Zbiór jasnych punktów reprezentuje przestrzeń barw osiągalną na monitorze, ciemny obszar to model przestrzeni koloru ludzkiej skóry.

 

rys. 5.                       rys. 6

 

Kolejny etap to lokalizacja oczu, ust i owalu twarzy. Wykorzystywana jest informacja niesiona w luminancji i chrominancji.. Oczywiście uwzględniane są tylko obszary zakwalifikowane wcześniej jako obszary skóry. Najpierw tworzona jest „mapa oczu” będącą kombinacją dwóch map dla obu oczu. Dla chrominancji wykorzystano obserwację, że w okolicy oczu składowa Cb ma duże wartości a składowa Cr małe. Użyte wzory i założenia można znaleźć w [4]. W zakresie luminancji okolice oczu składają się zarówno z jasnych jak i ciemnych pikseli. Do lokalizacji i opisu obszaru oczu w zakresie luminancji wykorzystuje się typowo operacje morfologiczne (np. dylacja, erozja).

Dla obszaru ust można zauważyć zwiększoną obecność składowej czerwonej i osłabioną obecność składowej niebieskiej. Rysunek 6 przedstawia efekt lokalizacji oczu ust i owalu twarzy.

 

Rowley, Baluja i Kanade [5] prezentują algorytm bazujący na użyciu sieci neuronowych, którego skuteczność w zależności od stosowanej architektury (kilkanaście wariantów) wahała się od 86% do 97% poprawnych detekcji. Algorytm składa się z dwóch głównych etapów – najpierw obraz wejściowy poddawany jest działaniu filtrów bazujących na sieciach neuronowych, które badają każdą część obrazu wejściowego w kilku różnych skalach, szukając lokacji mogących zawierać twarz. Następnie uruchamiany jest mechanizm łączący uzyskane z indywidualnych filtrów wyniki i eliminujący błędne lub nadmiarowe obszary. W celu zmniejszenia błędu fałszywych identyfikacji, zastosowanych zostało kilka niezależnie uczonych sieci, a część wspólną ich odpowiedzi traktowano jako odpowiedź systemu.

 

Wśród algorytmów służących do identyfikacji twarzy często wykorzystywaną techniką jest technika dopasowywania grafu (ang. graph matching), w której obiekty przedstawia się w postaci grafów z wierzchołkami odpowiadającymi elementom twarzy oraz krawędziom obrazującym odległości między nimi, a proces identyfikacji polega na znalezieniu grafu najbardziej pasującego do zadanego. Ulepszoną wersję techniki dopasowywania grafu (ang. morphological elastic graph matching) prezentuje w swojej pracy C. Kotropoulos [6], proponując jako alternatywę do używanego w podstawowej metodzie wyznaczania wektora cech na bazie filtrów Gabora, zastosowanie wieloskalowych morfologicznych filtrów rozszerzających/erodują...

Zgłoś jeśli naruszono regulamin