Каталог Рефератов - Програма "Пошук обличчя людини у відеопотоках стандарту Mpeg-4"

	Информационно-образоательный портал
	Рефераты, курсовые, дипломы, научные работы,



МЕНЮ\|

поиск

Програма "Пошук обличчя людини у відеопотоках стандарту Mpeg-4"

ираз обличчя. Форма облич є безпосередньо пов'язаний з виразом обличчя персони.

Завади. Обличчя можуть бути частково приховані іншими об'єктами. У зображенні з групою людей, деякі обличчя можуть частково заховати інші.

Орієнтація зображення. Зображення обличчя безпосередньо видозмінюється у відповідності до обертання оптичної осі фотоапарата.

Умови зображення. Коли зображення сформоване, чинники, як наприклад освітлення (спектри, початкове розповсюдження і інтенсивність) і характеристики фотоапарата (сенсорна відповідь, лінзи) впливають на вираз обличчя.

Хоча розпізнавання обличчя - це високорівнева візуальна проблема, - в нашому методі залучається досить небагато структур. Ми скористаємося частиною цих структур, пропонуючи схему для розпізнавання, яке засноване на підході теорії інформації, прагнучи кодувати найдоречнішу інформацію в групі облич, які краще всього відрізнятимуть їх один від одного. Підхід перетворює зображення обличчя в малий набір характеристичних даних, які є головними компонентами учбового набору зображень облич. Схема функціонує за методом головних компонент, який показав себе як найбільш ефективний серед інших методів.

2.1.5 Метод головних компонент
В даній розробці вибраний метод розпізнавання обличчя, що називається метод головних компонент (Principal Component Analysis, PCA), що стискує простір облич без істотних втрат інформативності. Він полягає в лінійному ортогональному перетворенні вхідного вектора X розмірності N у вихідний вектор Y розмірності M < N. При цьому компоненти вектора Y є некорельованими і загальна дисперсія після перетворення залишається незмінною. Матриця X складається зі всіх зразків зображень навчального набору. Розв'язавши рівняння , одержуємо матрицю ортонормованих власних векторів , де - коваріаційна матриця для X, а - діагональна матриця власних значень. Вибравши з підматрицю , що відповідає найбільшим власним числам, одержимо, що перетворення , де - нормалізований вектор з нульовим математичним очікуванням, характеризує велику частину загальної дисперсії і відображає найістотніші зміни X. Вибір перших M головних компонент розбиває векторний простір на головний (власний простір) , що містить головні компоненти, і його ортогональне доповнення . Застосування цього методу для задачі розпізнавання людини по зображенню обличчя має наступний вигляд (рис.2.7). Вхідні вектори є центрованими і приведеними до єдиного масштабу зображеннями облич. Власні вектори, обчислені для всього набору зображень облич, називаються власними обличчями (eigenfaces) [3].

Рис 2.7 Приклад зображень власних векторів (власних облич)

Для кожного зображення обличчя обчислюються його головні компоненти. Звичайно береться від 5 до 200 головних компонент. Решта компонентів кодує дрібні відмінності між обличчями і шум. Процес розпізнавання полягає в порівнянні головних компонент невідомого зображення з компонентами решти зображень.

Метод головних компонент так само застосовується для виявлення обличчя на зображенні. Для облич значення компонент у власному просторі мають великі значення, а в доповненні власного простору - близькі до нуля. По цьому факту можна знайти, чи є вхідне зображення обличчям. Для цього перевіряється величина помилки реконструкції: чим більше помилка, тим більше ймовірність, що це не обличчя.

При зміні ракурсу зображення, наступає момент, коли цей метод при розпізнаванні починає реагувати більше на ракурс зображення, ніж на міжкласові відмінності. Класи при цьому більше не є кластерами у власному просторі. Це розв'язується додаванням в навчальну вибірку зображень в різних ракурсах. При цьому власні вектори втрачають обличчеподібну форму. При зміні кута повороту голови, головні компоненти викреслюють криві у власному просторі, які однозначно ідентифікують обличчя людини і по яких можна провести розпізнавання. Ці криві були названі власними сигнатурами (eigensignatures). По максимумах власних сигнатур було так само відмічено, що найбільшу інформативність має зображення обличчя в напівпрофіль [4].

Основна перевага застосування аналізу головних компонент - це зберігання і пошук зображень у великих базах даних, реконструкція зображень. Основний недолік - високі вимоги до умов зйомки зображень. Зображення повинні бути одержані в близьких умовах освітленості, однаковому ракурсі і повинна бути проведена якісна попередня обробка, що приводить зображення до стандартних умов (масштаб, поворот, центрування, вирівнювання яскравості, відсікання фону). Небажана наявність таких чинників, як окуляри, зміни в зачісці, виразі обличчя і інших внутрішньокласових варіацій.

2.1.6 Гнучкі контурні моделі обличчя
У даних методах розпізнавання проводиться на основі порівняння контурів обличчя. Контури, звичайно, витягуються для ліній голови, вух, губ, носа, брів і очей (рис.2.7). Контури представлені ключовими позиціями, між якими положення точок, що належать контуру, обчислюється інтерполюванням. Для локалізації контурів в різних методах використовується як апріорна інформація, так і інформація, одержана в результаті аналізу навчального набору.

Ключові точки розміщуються вручну на наборі тренувальних зображень. Потім витягується інформація про інтенсивність пікселів, що лежать на лінії, перпендикулярній контуру для кожної точки контура. При пошуку контурів нового обличчя використовувався метод симуляції відпалу з цільовою функцією з двох складових. Перша із них максимізовувалася при відповідності інтенсивностей пікселів, витягнутих на перпендикулярній контуру лінії аналогічним пікселям з навчальної вибірки. Друга - при збігу контура з формою контурів тренувальних прикладів. Таким чином, витягувався не просто контур, а контур рис обличчя. Як повинен виглядати типовий контур рис обличчя, процедура пошуку знає з тренувальних прикладів. Для порівняння зображень використовуються значення головних компонент, обчислених на наборі векторів, що є координатами ключових точок [2].

Рис 2.8 Контури зображення створені за допомогою перетворення Хау

Головною задачею при розпізнаванні по контурах є правильне виділення цих контурів. У загальному випадку ця задача по складності порівнянна безпосередньо з розпізнаванням зображень. Крім того, використання цього методу самого по собі для задачі розпізнавання недостатньо.

Функція подібності з одним джетом у фіксованій позиції і іншим із змінною позицією є достатньо гладкою, для того, щоб одержати швидку і надійну збіжність при пошуку із застосуванням простих методів, таких як дифузія або градієнтний спуск. Досконаліші функції подібності залучають інформацію про фазу.

Для різних ракурсів відповідні ключові точки відмічені вручну на навчальному наборі. Крім того, щоб для одного і того ж обличчя представити різні варіації його зображення в одному і тому ж графі, для кожної точки використовуються декілька джетів, кожний з яких може відповідати різним локальним характеристикам даної точки, наприклад розплющеному і закритому оку.

Майже аналогічинм є метод еластичного графу. В цьому випадку відмінність між двома графами d (Q,R) обчислюється за допомогою деякої функції, що враховує як значення ознак - вага вершин, так і ступінь деформації ребер графа.

Рис.2.9 Еластичний граф, що покриває зображення обличчя

Деформація графа відбувається шляхом зсуву кожної з його вершин на деяку відстань в певних напрямах щодо її початкового положення і вибору такої позиції, при якій різниця у вазі вершин графа, що деформується, і відповідній їй вершині еталона буде мінімальною (рис.2.9). Дана операція виконується по черзі для всіх вершин графа до тих пір, поки не буде досягнуте найменше (для даної пари графів) значення d (Q,R) [5].

2.1.7 Методи, засновані на геометричних характеристиках обличчя
Один з найперших методів - це аналіз геометричних характеристик обличчя. Спочатку застосовувався в криміналістиці і був там детально розроблений. Потім з'явилися комп'ютерні реалізації цього методу. Суть його полягає у виділенні набору ключових точок (або областей) обличчя і подальшому виділенні набору ознак. Кожна ознака є або відстанню між ключовими точками, або відношенням таких відстаней. На відміну від методу порівняння еластичних графів тут відстані вибираються не як дуги графів. Набори найбільш інформативних ознак виділяються експериментально (рис.2.10).

Ключовими точками можуть бути кути очей, губ, кінчик носа, центр ока і т.п. Як ключові області можуть бути прямокутні області, що включають очі, ніс, рот [13].

Рис 2.10 Ідентифікаційні точки і відстані

В процесі розпізнавання порівнюються ознаки невідомого обличчя з ознаками, що зберігаються в базі. Задача знаходження ключових точок наближається до трудомісткості безпосередньо розпізнавання, і правильне знаходження ключових точок на зображенні багато в чому визначає успіх розпізнавання. Тому зображення обличчя людини повинне бути без шумів, що заважають процесу пошуку ключових точок. До таких завад відносять окуляри, бороди, прикраси, елементи зачіски і макіяжа. Освітлення бажане рівномірне і однакове для всіх зображень. Крім того, зображення обличчя повинно мати фронтальний ракурс, можливо з невеликими відхиленнями. Вираз обличчя повинен бути нейтральним. Це пов'язано з тим, що в більшості методів немає моделі врахування таких змін [14].

Таким чином, даний метод пред'являє строгі вимоги до умов зйомки, потребує надійного механізму знаходження ключових точок для загального випадку. Крім того, потрібне застосування досконаліших методів класифікації або побудови моделі змін. У загальному випадку цей метод не найоптимальніший, проте, для деяких специфічних задач перспективний. До таких задач можна віднести документарний контроль, коли вимагається порівняти зображення обличчя, одержаної у нинішній момент з фотографією в документі. При цьому інших зображень цієї людини немає, і, отже, механізми класифікації, засновані на аналізі тренувального набору, недоступні.

2.1.8 Порівняння еталонів
Порівняння еталонів (Template Matching) полягає у виділенні областей обличчя на зображенні, і подальшому порівнянні цих областей для двох різних зображень [11]. Кожна область, що співпала, збільшує міру схожості зображень. Це також один з історично перших методів розпізнавання людини по зображенню обличчя. Для порівняння областей використовуються прості алгоритми, наприклад, попіксельне порівняння [15].

Рис.2.11 Області-еталони обличчя

Недолік цього методу полягає у тому, що він вимагає багато ресурсів, як для зберігання ділянок, так і для їх порівняння. З причини того, що використовується простий алгоритм порівняння, зображення повинні бути отримані в строго встановлених умовах: не допускається помітних змін ракурсу, освітлення, емоційного виразу.

2.1 9. Основи кодування відео
MPEG-4 - це стандарт для запам'ятовування і доставки мультимедійного вмісту. Він був розроблено як наступник для стандартів MPEG-1 і MPEG-2. Первинна мета була зробити стандарт для додатків низького бітрейту, але у фазі специфікації MPEG-4 був розширений для роботи із сильною компресією, що покриває як низькі, так і високі бітрейти.

MPEG-4 - це не тільки кодек відео, використовуваний для стиснення DVD. Фактично кодування/декодування відео - це тільки одна частина стандарту. На додаток до кодування відео, ще є звукове кодування, синтезоване відео і звук, інтерактивність, доставка контенту.

Стандарт MPEG-4 відкритий, що означає, що будь-хто може отримати специфікації і реалізувати їх. Це приводить до змагання реалізацій, які теоретично повинно знизити ціни і збільшити якість продукції. Відкритий стандарт також дозволяє усунути пастки єдиного коду, як наприклад, відсутність модифікацій і усунення дефектів.

Файл відео складається з серій послідовних зображень - фреймів, або візуальних об'єктних площин (VOP) в термінах MPEG-4. Сьогодні більшість кодеків відео, зокрема, MPEG-4 - блочні. У блочних кодах, VOP діляться на блоки одної розмірності - квадрати, наприклад 8x8 або 16x16 пікселів. Вони називаються макроблоками, і різні методи кодування застосовуються до цих макроблоків замість цілого VOP.

Відео може бути стиснене, маніпулюючи індивідуальними фреймами. Цей метод називається інтра-кодуванням, і стислий індивідуальний фрейм називається intra VOP (I-VOP). Через природу відео, два послідовні фрейми часто виглядають подібно один одному за вийнятком деякого руху об'єктів між двома фреймами. Замість стиснення індивідуальних послідовних фреймів, сучасний кодек використовує різні методи кодування, які враховують цю схожість в серіях фреймів. Це інтеркодування використовується для досягнення вищої компресії. Наприклад, в прогнозованому кодуванні, тільки різниця між двома зображеннями запам'ятовується. Це приводить до сильної компресії, коли фрейми більш подібні один одному. Прогнозоване кодування не працює ефективно в ситуаціях, де великі частини зображення перемістилися між двома фреймами як при панорамній зйомці. В даному випадку використовується техніка, яка називається прогноз компенсування руху. Прогноз компенсування руху призначає вектор руху кожному макроблоку і пробує знайти краще можливе представлення фрейма з макроблоками від довідкового фрейма, який перемістився в напрямі вектору руху. Фрейм, який використовує попередній фрейм як довідковий, називається передбаченим VOP (P-VOP) У цьому прикладі більшість даних фрейма може бути представлене тільки одним вектором руху і попереднім фреймом як довідковим (рис.2.12).

Рис.2.12. Прогноз компенсації руху

Прогноз компенсування руху може також бути застосований двома шляхами. Фрейм, який використовує попередній фрейм, як довідковий називається реверсивно передбачений VOP (B-VOP). Декодування B-VOP вимагає більшої пам'яті і обробки, ніж декодування P-VOP, тому що дешифратору доведеться утримувати два довідкові фрейми в пам'яті замість одного.

Блочні кодеки в загальному використовують дискретне косинусне перетворення (DCT) в об'єднанні з квантуванням для стиснення природних даних. DCT - це математичний метод для перетворення статичного зображення в частотний домен. Це означає, що замість представлення зображення як серії кольорових значень, зображення представляється серією коефіцієнтів дійсного значення функції косинуса. Скорочуючи кількість біт для представлення кожного коефіцієнту, кодек може досягти сильної компресії. Цей метод називається квантуванням, і впливає на якість. Різні методи квантування можуть зробити наголос на різних областях (наприклад, дрібні деталі) [17].

2.2 Опис алгоритму
Методом детекції обличчя у відеопотоці в даній програмі було обрано апарат штучних нейронних мереж, розпізнавання облич реалізовано методом "власні вектори". Дані методи забезпечують високу продуктивність при мінімальних витратах ресурсів комп'ютера. Алгоритм програми поданий на рис.2.13.

2.3 Опис і обґрунтування вибору методу організації вхідних і вихідних даних
Згідно технічного завдання вхідними параметрами для програми повинен бути відеопоток і база відомих облич, з якими необхідно співставити знайдені. В зв'язку з описаними вимогами до вхідних даних, в програмі реалізовано модуль роботи з веб-камерою.

Згідно технічного завдання на розробку вихідними даними є знайдені у відеопотоці зображення облич та їх класифікація згідно вхідної бази даних. Тому було вирішено не не зберігати вихідні дані, а детекцію і розпізнавання проводити інтерактивно.

2.4 Опис і обґрунтування вибору складу технічних і програмних засобів
Основною вимогою до складу технічних засобів є наявність веб-камери в складі ЕОМ. Вибір веб-камери зумовлений в першу чергу постановкою задачі. Перевагами даного пристрою відеовведення порівнянні з іншими є:

стандартизованість обміну даними;

наявність великої кількості інформації по організації роботи з данимпристроєм;

порівняно невисока ціна;

відносна швидкість отримання відеопотоку.

Вимоги до параметрів ЕОМ визначаються загалом вимогами операційної системи до характеристик ЕОМ. Сама програма вимагає 1 Мб вільного місця на жорсткому диску та 5 Мб оперативної пам'яті.

Вимоги до об'єму оперативної пам'яті - мінімум 128 Мб зумовлені вимогами операційної системи.

Вимоги до об'єму жорсткого диску - мінімум 1Гб зумовлені вимогами операційної системи.

Обов'язковою вимогою до програмних засобів є наявність встановленої операційної системи Windows XP. Операційна система Windows XP була обрана в зв'язку з тим, що вона містить багато системних об'єктів для доступу до апаратних ресурсів.

В якості середовища розробки програми було обрано інтегроване середовище розробки додатків Microsoft Visual C++, оскільки воно забезпечує швидку та зручну розробку графічних додатків, дозволяє проводити збереження даних у файли, має засоби для інтеграції коду на мові асемблер в код програми на мові C++, містить зручну систему налагодження програм.

3. Очікувані техніко-економічні показники
Розрахуємо витрати праці, виходячи з того, що розмір вихідного тексту програми в основному визначає затрати праці і та час розробки програмного продукту:

, (3.1)

де - кількість вихідних команд в тисячах.

В якості вихідної команди приймаємо рядок програми. Загальний об'єм вихідного тексту програми-додатка складає приблизно 2000 рядків. Тоді:

Продуктивність праці розробників програмного забезпечення визначається наступним чином:

(3.2)

Тоді ми отримуємо, що продуктивність праці розробників:

Час необхідний для розробки програмного продукту, можна визначити за формулою:

, (3.3)

де - період розробки програмного продукту; - коефіцієнт вірності постановки завдання; - час розробки алгоритму; - час настройки та тестування; - час на підготовку тексту; - час на розробку документації.

Зазначені величини обчислюються по наступним формулам:

, (3.4), , (3.5)

, (3.6), , (3.7)

, (3.8), , (3.9)

де К - залежить від ступеня підготовки програміста;

- кількість рядків програми.

Підставляємо значення в останні формули враховуючи, що К=0,8 (стаж роботи до 2-х років).

Тоді час, який необхідний для розробки програмного продукту дорівнює:

Визначимо собівартість години роботи ПК. Для цього розраховуються поточні витрати на експлуатацію ПК. До їх складу включаються витрати на електроенергію і амортизаційні відрахування від вартості ПК та інше.

Витрати на електроенергію визначають множенням витрати електроенергії за одну годину на вартість 1 кВт/год електроенергії і на час роботи ПК за рік. Час роботи комп'ютера за рік визначається множенням кількості робочих днів у рік на час роботи комп'ютера за день:

, (3.10)

де - середня кількість робочих днів у рік.

Таким чином:

Тоді, час роботи ПК за рік дорівнює

Витрати енергії визначаються за формулою:

, (3.11)

де - витрати електроенергії за одну годину;

- вартість 1 кВт/год електроенергії;

- час роботи комп'ютера за рік.

Тоді витрати енергії складають:

Амортизаційні відрахування визначаються множенням вартості комп'ютера на норму амортизаційних відрахувань 10%:

Річна заробітна плата обслуговуючого персоналу (інженера з місячним посадовим окладом 600 грн.) складає:

Відрахування на соціальне страхування складають 3% від загальної заробітної плати за рік:

Вартість витрачених матеріалів складає 2% від вартості обчислювальної техніки:

Утримання на ремонт приміщень, в яких знаходяться засоби обчислювальної техніки, складає 3% від вартості обчислювальної техніки:

Кількість комп'ютерів, на яких працюватиме програма: .

Собівартість години роботи на комп'ютері визначається співвідношенням:

. (3.12)

Підставляємо значення в останню формулу й отримаємо:

Розраховуємо прямі витрати на виконання магістерської роботи, які визначаються добутком:

, (3.13)

де - собівартість години роботи на комп'ютері; - час необхідний для розробки програмного продукту. Підставляємо значення й одержуємо:

Накладні витрати, що включають витрати на освітлення, опалення і т.п., приймаються в розмірі 40-50% від суми прямих витрат:

Загальні витрати на виконання магістерської роботи:

. (3.14)

Підставляємо дані й одержуємо:

Ціна програмного продукту визначається співвідношенням:

, (3.15)

де В - витрати на виконання дипломного проекту;

P - рівень рентабельності, в нашому випадку P = 10;

K - коефіцієнт, що залежить від науково-технічного рівня, в нашому випадку К = 1,3.

Підставляємо ці значення й отримаємо ціну програмного продукту, яка дорівнює:

Річний економічний ефект визначається таким чином:

, (3.16)

де - витрати на розв'язання задачі традиційними методами;

- періодичність розв'язку задачі, для нашого випадку T=100;

- приведені витрати.

Для визначення параметру використовується формула:

, (3.17)

де - трудомісткість на складання документу, вимірюється в годинах;

- заробітна плата виконавця за одну годину.

Підставляємо значення в останню формулу й одержуємо:

Для визначення параметру використовується формула:

, (3.18)

де - загальний об'єм вихідного тексту програмного додатка;

- собівартість години роботи на комп'ютері;

- продуктивність праці розробників програмного забезпечення;

- нормативно-галузевий коефіцієнт ();

- ціна програмного продукту.

Отже, приведені витрати дорівнюють:

Таким чином, річний економічний ефект рівний:

Джерела, використані при розробці
1. Головко В.В. Нейроинтеллект: Теория и применения. Книга 1. Организация и обучение нейронных сетей с прямыми и обратными связями. - Брест: БПИ, 1999. - 260 с.

2. Sung K.,Poggio T. Learning Human Face Detection in Cluttered Scene // Computer Analysis of Images and Patterns. - 1995. - №4. - P.432-439.

3. Graham D.,Allinson N. Face Recognition Using Virtual Parametric Eigenspace

Signatures // Image Processing and its Applications. - 1997. - №21. - P.123-129.

4. Belhumeur P., Hespanha J. Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - №19. - P.711-720.

5. Hallinan P.,Gordon G. Two - and Three-Dimensional Patterns of the Face. - Natick: A. K. Peters Ltd., 1999. - 260 p.

6. Lanitis A.,Taylor C. Automatic Interpretation and Coding of Face Images Using Flexible Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - №19. - P.743-756.

7. Wiskott L.,Fellous J. - M. Face Recognition by Elastic Bunch Graph Matching // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - №19. - P.775-779.

8. Duc B.,Fischer S. Face Authentication with Gabor Information on Deformable Graphs // IEEE Trans. on Pattern Analysis and Machine Intelligence. - 1999. - №8. - P.504-516.

9. Wurtz R. Object Recognition Robust Under Translations, Deformations, and Changes in Background // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - №19. - P.769-775.

10. Grudin M.,Lisboa P.compact Multi-level Representation of Human Faces for Identification // Image Processing and its Applications. - 1997. - №4. - P.111-115.

11. Самаль Д. B., Старовойтов В. K. Выбор признаков для распознавания на основе статистических данных // Цифровая обработка изображений. - 1999. - №3. - P.100-114.

12. Gutta S.,Wechsler H. Face Recognition Using Hybrid Classifiers // Pattern

Recognition. - 1997. - №30. - P.539-553.

13. Самаль Д. B., Старовойтов В. K. Методика автоматизированного распознавания людей по фотопортретам // Цифровая обработка изображений. - 1999. - №4. - P.81-85.

14. Самаль Д. B. Построение систем идентификации личности на основе антропометрических точек лица // Цифровая обработка изображений. - 1998. - №2. - P.72-79.

15. Brunelli R.,Poggio T. Face Recognition: Features Versus Templates // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1993. - №15. - P.235-241.

16. Хорн Б. Зрение роботов. -М.: Мир, 1989. - 488 c.

17. Кейт Д. Видео без секретов, 4-е изд. -М.: Вильямс, 2005. - 953 с.

18. Люгер Л., Джордж Ф. Искусственный интелект: стратегии и методы решения сложных проблем, 4-е изд. -М.: Вильямс, 2005. - 864 с.

19. Viola P.,Jones M. Object Robust Real-Time Face Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2004. - №26. - P.435-440.

Страницы: 1, 2

© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.