Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/8479| Title: | Вдосконалення системи керування безпілотного автомобіля |
| Authors: | Топтун, Анна Володимирівна Шимко, Олексій Григорович |
| Issue Date: | 15-Dec-2024 |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/8479 |
| Appears in Collections: | 174 Автоматизація, комп'ютерно-інтегровані технології та робототехніка (Робототехнічні системи та автоматизація) |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| КМР-Шимко О.pdf Restricted Access | КРМ Шимко О. | 13.87 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
3
ЗМІСТ
ВСТУП 5
РОЗДІЛ 1. Аналітичний огляд сучасних методів
оброблення й аналізу відеоданих у системах безпілотного
керування автомобілів 8
1.1 Математична модель просторової орієнтації об'єкта 8
1.2 Аналіз стереозображень 11
1.3 Аналіз монокулярних зображень 15
Висновки до розділу 1 23
РОЗДІЛ 2. Локалізація об'єктів на зображенні в системах
безпілотного керування автомобілів 25
2.1 Структура запропонованого підходу 25
2.2 Локалізація об'єктів на зображенні 29
2.3 Аналіз руху автомобіля 30
2.4 Аналіз зовнішніх ознак автомобіля 31
2.5 Нейромережеві методи 35
2.6 Вибір методу локалізації об'єктів 41
Висновки до розділу 2 43
РОЗДІЛ 3. Метод сегментації локалізованих об'єктів на
зображенні 44
3.1 Загальні відомості 44
3.2 Виявлення контурів 45
3.3 Порогова сегментація 45
3.4 Сегментація за регіонами 46
3.5 Сегментація на основі кластеризації 47
3.6 Сегментація на основі розрізу графа 48
3.7 Нейромережеві методи сегментації 50
3.8 Вимоги до методу 51
4
3.9 Сегментація зображень на основі полярного перетворення
та пошуку найкоротшого шляху у зваженому графі 52
3.10 Експериментальне дослідження точності методу
автоматичної сегментації зображення 58
Висновки до розділу 3 69
РОЗДІЛ 4. Локалізація ключових точок об'єкта на
зобразанні для системи безпілотного водіння 70
4.1 Аналіз методів локалізації ключових точок об'єкта на
зображенні 70
4.2 Вимоги до методу 73
4.3 Локалізація ключових точок на основі аналізу внутрішніх
шарів згорткової нейронної мережі 74
4.4 Порівняння розробленого методу та наявних рішень 81
Висновки до розділу 4 88
ВИСНОВКИ 90
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 91
ДОДАТОК А Акт впровадження
ДОДАТОК Б Публікація
ДОДАТОК В Презентація кваліфікованої роботи
5
ВСТУП
Актуальність теми дослідження За даними Всесвітньої організації охорони
здоров'я на 2020 рік дорожньотранспортні пригоди (ДТП) є головною причиною
смертності серед дітей і молодих людей віком від 5 до 29 років у всьому світі.
Близько 1,35 мільйона людей помирають щороку внаслідок ДТП. Крім того,
близько 50 мільйонів осіб отримують несмертельні травми, багато з яких
призводять до інвалідності [1]. У Російській Федерації за 2020 рік було зафіксовано
понад 145 тисяч ДТП, в яких загинуло понад 16 тисяч осіб і понад 183 тисяч осіб
дістали травми [2]. Як правило, причинами аварій є порушення правил дорожнього
руху та недостатня кваліфікація водіїв. Одним із найефективніших способів
розв'язання проблем, спричинених впливом «людського фактора», є широке
впровадження технологій автономного водіння. Нині практично всі великі
автовиробники реалізують проекти, спрямовані на створення безпілотних
транспортних засобів (ТЗ). Значний обсяг робіт зі створення безпілотних ТЗ
проводиться в рамках оборонних замовлень, і з цієї причини результати досліджень
мало публікуються у відкритому друці.
Система технічного зору є одним з основних модулів безпілотних ТЗ.
Головним завданням такої системи є аналіз навколишнього простору безпілотного
ТЗ як 3D-сцени, що дає змогу оцінювати взаємодію об'єктів і передбачати їхню
можливу поведінку у фізичному просторі сцени. Як правило, аналіз 3D-об'єктів
здійснюється на основі камер у сукупності з активними датчиками, такими як
лідари та радари. Кожен датчик аналізує певні властивості об'єктів. Наприклад,
локалізація і класифікація об'єктів здійснюється на основі камер, а дані про
відстань до об'єкта, його габарити і швидкість руху визначаються на основі лідарів
і радарів. Обладнання, яким до оснащують ТЗ, можна порівняти з ціною самого
автомобіля, що в свою чергу ускладнює повсюдне застосування цих технологій.
Сучасний розвиток обчислювальної та телевізійної техніки в сукупності з
останніми дослідженнями в галузі штучного інтелекту дають змогу розробляти
6
нові методи оброблення й аналізу відеоінформації. Таким чином, стає можливим
створення телевізійної системи аналізу навколишнього простору ТЗ як 3D-сцени.
Для аналізу реальної взаємодії тривимірних об'єктів у відео потоці
необхідно визначати й аналізувати інформацію про їхню траєкторію та просторової
орієнтації. Складність траєкторних вимірювань полягає в тому, що на відміну від
активних датчиків відео потік монокулярної камери не надає інформацію про
просторову орієнтацію об'єктів.
Переважною більшістю об'єктів, що оточують безпілотний транспорт, є інші
ТЗ. У цій роботі під об'єктами інтересу маються на увазі ТЗ (автомобілі та
автобуси). З урахуванням того, що ТЗ має жорстку структуру і рухається по
площині дорожнього полотна, для оцінки просторової орієнтації 3D-об'єкта у відео
потоці необхідно локалізувати і класифікувати цей об'єкт, визначити його
габаритні розміри і ракурс.
Для аналізу відеоданих безпілотного ТЗ поширене використання глибоких
нейромережевих моделей (Deep Learning). У переважній більшості випадків
згорткові нейронні мережі (СНМ) для завдання оцінки просторової орієнтації ТЗ
навчаються наскрізним способом для розв'язання відразу декількох завдань, таких
як локалізація, класифікація, сегментація, оцінювання ракурсу тощо. Методи
визначення ракурсу об'єкта на основі зображення вивчено слабко в порівнянні з
такими завданнями, як локалізація, класифікація та сегментація. Основними
проблемами в задачах оцінювання ракурсу ТЗ є: складність анотування ракурсу і
відсутність широкомасштабних наборів даних, що враховують різні умови
спостереження. Необхідний набір даних можна бути отриманий із проекцій
тривимірних моделей об'єктів (синтетичних зображень). Однак з урахуванням того,
що особливості синтетичних і реальних зображень різні, необхідно
використовувати дескриптори, які будуть однаковими на обох вибірках. До таких
дескрипторів можна віднести зовнішню форму і розташування ключових точок
об'єкта.
Сучасні методи аналізу зображень мають низку суттєвих недоліків:
7
- класичні методи не забезпечують достатньої точності сегментації і
локалізації ключових точок для завдання оцінки просторової орієнтації;
- нейромережеві методи вимагають великих наборів анотованих даних і є
неефективними через повільну швидкість аналізу.
Таким чином, актуальним є завдання розроблення каскадного підходу до
аналізу відеоданих, що забезпечує автоматичну оцінку просторової орієнтації
об'єкта, заснованого на накопичених знаннях просторової орієнтації об'єкта,
заснованого на накопичених знаннях і досвіді, а також володіє можливістю до
розвитку відповідно до об'єктивних змін умов функціонування. Процес аналізу
зображення розроблюваного каскадного підходу має здійснюватися послідовно,
включаючи кроки локалізації об'єкта, сегментації зображення, локалізації
ключових точок і оцінки ракурсу. Для цього також необхідно розробити нові
методи сегментації зображення, локалізації ключових точок об'єкта інтересу,
визначення ракурсу, заснованого на зіставленні дескрипторів цільового об'єкта і
тривимірної моделі.
Мета роботи: Вдосконалення системи керування безпілотного автомобіля,
що дають змогу підвищити точність оцінки просторової орієнтації транспортних
засобів.
Об'єкт дослідження: Системи керування безпілотними автомобілями,
орієнтовані на забезпечення безпечного та ефективного автономного руху в умовах
складної дорожньої обстановки.
Предмет дослідження: Методи та алгоритми аналізу відеоданих для оцінки
просторової орієнтації транспортних засобів, зокрема методи локалізації,
сегментації, визначення ракурсу та ключових точок об'єктів на основі нейронних
мереж.
Методи дослідження
У роботі використано методи цифрового оброблення зображень,
математичної статистики, машинного навчання, регресійного аналізу, методи
моделювання на ЕОМ, експериментальні дослідження.
8
РОЗДІЛ 1
АНАЛІТИЧНИЙ ОГЛЯД СУЧАСНИХ МЕТОДІВ
ОБРОБЛЕННЯ Й АНАЛІЗУ ВІДЕОДАНИХ У СИСТЕМАХ
БЕЗПІЛОТНОГО КЕРУВАННЯ АВТОМОБІЛІВ
1.1 Математична модель просторової орієнтації об'єкта
Для того, щоб система комп'ютерного зору описувала об'єкти і передбачала
їхню фізичну взаємодію, необхідно інтерпретувати навколишній простір
автономного ТЗ як 3D-сцену. Для отримання проекції 3D моделі на площині
зображення необхідно знайти відповідність між двома системами координат:
системою координат камери (екранна система координат) і системою координат
об'єкта, а потім виконати центральне проектування.
Центр системи координат об'єкта відповідає точці прицілювання камери,
координата Z відображає висоту. Відомі координати розташування камери (0, 0,
0) кути азимута і місця (рис. 1.1). Початок системи координат камери (, , )
прив'язано до центру кадру камери.
Рисунок 1.1 - Розташування відеокамери в просторі
9
За допомогою методу однорідних координат отримано матрицю
перетворення, що зв'язує систему координат камери та об'єкта. Вона являє собою
добуток чотирьох матриць:
- поєднання центру системи координат камери з центром системи системи
координат об'єкта
- суміщення осі z системи координат камери з віссю Z системи координат
об'єкта поворотом на кут відносно осі Z і поворотом на кут відносно осі X
- перехід із лівосторонньої в правосторонню систему координат
Результуюча матриця перетворення має вигляд:
де кут азимута; кут місця; A=X0 cos - Y0 sin ; B = -Z0 cos + sin
(X0 sin + Y0 cos ); C=Z0 sin + cos (X0 sin + Y0 cos ).
10
яка відповідає випадку, коли центр проекції розташований між об'єктом і
картинною площиною.
Таким чином, координати точок проекції 3D моделі на картинній
площині визначені виразом
Положення твердого тіла в будь-який момент часу повністю визначено
вектором параметрів: = (0, 0, , , , ), де 0, 0 - координати точки проекції
об'єкта, що знаходиться на відстані від початку координат XYZ пропорційній
масштабу m; , , - кути нишпорення, тангажу і крену відповідно. Знайдений
вектор параметрів описує поточне положення об'єкта, а в сукупності з параметром
часу дає адекватну оцінку тривимірної траєкторії (траєкторії руху об'єкта і його
еволюції в тривимірному просторі).
З урахуванням того, що ТЗ має жорстку структуру і рухається по площині
дорожнього полотна, його положення параметризовано як
p = (0, 0, , ) (рисунок 1.2).
Рисунок 1.2 - Положення ТЗ відносно камери спостереження
11
Традиційно для оцінки траєкторних рухів використовуються положення
центрів ваги об'єктів. Оцінка траєкторії на основі центру ваги ТЗ без урахування
параметрів ракурсу урахування параметрів ракурсу і масштабу має низку
серйозних недоліків:
- за різного ракурсу ТЗ положення його центру ваги не має істотних
відмінностей, що не дає змоги миттєво оцінювати зміну напрямку руху ТЗ, а тільки
через певний проміжок часу. В свою чергу несвоєчасне визначення напрямку руху
ТЗ є вкрай небезпечним і може призвести до аварійної ситуації;
- без урахування масштабного коефіцієнта та ракурсу неможливо оцінити
відносне положення між кількома об'єктами та їхню віддаленість від автономного
транспорту [3].
Необхідні параметри ТЗ можуть бути визначені на основі обмежувальної
рамки об'єкта інтересу на зображенні та його ракурсу [3, 4].
Таким чином, для оцінювання просторової орієнтації 3D-об'єкта у відео
потоці необхідно локалізувати та класифікувати цей об'єкт, визначити його
габаритні розміри та ракурс.
Література з оцінювання просторової орієнтації об'єктів на основі відео
потоку може бути розділена на дві категорії: з використанням одного зображення
або монокулярного відео та на основі стереозображень. Далі буде розглянуто
останні роботи, націлені на розв'язання задачі визначення ракурсу ТЗ у відео
потоці.
1.2 Аналіз стереозображень
Оцінка просторової орієнтації об'єктів на основі стереозображень є
складним завданням, особливо в реальних умовах спостереження, таких як міські
вуличні сцени. Наразі провідні методи визначення ракурсу об'єктів для
автономного водіння значною мірою покладаються на дані активних мірою
покладаються на дані активних оптичних систем (лідарів) для отримання точної
12
інформації про віддалені об'єкти (глибину). Однак у зв'язку з високою вартістю
лідарів і їхнім відносно невеликим робочим діапазоном (зазвичай близько 100 м
для автономного водіння), стерео камери, які на порядок дешевші за лідари,
слугують багатообіцяючою альтернативою і набувають широке застосування в
промисловості. Стерео камери, які функціонують аналогічно бінокулярному зору
людини, можуть працювати з більш високою швидкістю сканування і
забезпечувати більшу роздільну здатність для аналізу віддалених об'єктів.
Далі буде представлено короткий огляд сучасних методів виявлення 3D-
об'єктів на основі стереозображень.
У роботі «3D Object Proposals for Accurate Object Class Detection» [6] автори
запропонували метод визначення 3D-об'єктів на основі аналізу стереозображень.
стереозображень. У цій роботі проводилося обчислення карти глибини на основі
стереозображень за допомогою алгоритму, представленого в роботі [7]. Карта
глибини використовується, щоб обчислити хмару точок і сформувати припущення
про знаходження об'єктів на основі особливостей кандидатів (розміру, площини
землі, вільного простору, щільності точок і видимості). Оцінка ракурсу об'єкта
інтересу визначається на основі СНС Fast RCNN [8]. Архітектура мережі Fast R-
CNN розширюється додаванням додаткової гілки після останнього згорткового
шару. Об'єкти, визначені з вихідної та додаткової гілок, об'єднуються і подаються
на модуль прогнозування, заснований на нейронній мережі (НС) OxfordNet [9].
Оцінювання ракурсу запропонованим методом здійснювалася на наборі даних
KITTI [10], який містить у собі 15000 зображень. Оцінювання виконували в трьох
режимах:
1) легкому (мінімальна висота прямокутника, що обмежує об'єкт
прямокутника становить 40 пікселів, оклюзія об'єктів не перевищує 15%);
2) помірному (мінімальна висота прямокутника, що обмежує об'єкт
прямокутника, що обмежує об'єкт, становить 25 пікселів, оклюзія об'єктів не
перевищує 30%);
3) складному (мінімальна висота прямокутника, що обмежує об'єкт
прямокутника, що обмежує об'єкт, становить 25 пікселів, оклюзія об'єкта не
13
перевищує 50%).Як метрику точності використовують середню схожість ракурсу
(AOS):
де: - кількість істинно позитивних передбачень; - кількість хибно
негативних передбачень; D(R) - набір усіх виявлених об'єктів; ∆()- різниця в куті
між оціночним і істинним ракурсом i-го виявленого об'єкта. = 1, якщо виявлений
об'єкт i перекривається не менше ніж на 50% з істинним обмежувальним
прямокутником, інакше = 0. У цій роботі об'єкт був виявленим, якщо він
перекривався не менш ніж на 50% з істинним обмежувальним паралелепіпедом
(3 ≥ 0.5)
де А - визначений паралелепіпед, що обмежує об'єкт, B - істинний
паралелепіпед, що обмежує об'єкт. У тривимірному просторі повернутий
обмежувальний об'єкт паралелепіпед A визначається, як (x; y; z; l; h; w; r), де (x; y;
z), (l; h; w) і r представляють центр об'єкта, розмір прямокутника, що обмежує
об'єкт прямокутника, що обмежує об'єкт, і поворот навколо осі z (рискання)
відповідно.
Метрика AOS на наборі даних KITTI для трьох випадків спостереження
легкого, помірного і складного становить: 91.44%, 86.10%, 76.52%.
Точність сучасних методів оцінки просторової орієнтації об'єктів на основі
стереозображень об'єктів на основі стереозображень порівнянна з точністю методів
на основі даних хмари точок отриманих з лідарів. Наприклад, у роботі «Stereo
RCNN based 3D Object Detection for Autonomous Driving» [11] Пейлян Лі, Сяочжі
14
Чен і Шаожжі Шен запропонували Stereo R-CNN - метод виявлення тривимірних
об'єктів для автономного водіння. Stereo R-CNN розширює можливості Faster R-
CNN [12] для стереозображень, даючи змогу одночасно виявляти і пов'язувати
об'єкт на лівому і правому зображеннях. В архітектуру СНС було додано додаткові
гілки для прогнозування, локалізації та об'єднання блоків. об'єднання блоків.
Об'єднання особливостей лівого і правого зображень використовується для
локалізації ключових точок і обчислень паралелепіпеда, що обмежує об'єкт
паралелепіпеда, що обмежує.
Середня точність визначення паралелепіпедів, що обмежують об'єкти на
наборі даних KITTI при ступені перетину між двома обмежувальними рамками
3 ≥ 70% для трьох випадків спостереження легкого, помірного і складного
становить: 54.11%, 36.69% і 31.07% відповідно.
У роботі «DSGN: Deep Stereo Geometry Network for 3D Object Detection» [13]
Ілунь Чен, Шу Лю, Сяоен Шень і Цзяя Цзя запропонували метод визначення
паралелепіпеда, що обмежує об'єкт, на основі нової СНС Deep Stereo Geometry
Network (DSGN). Запропонований метод спільно оцінює глибину сцени і виявляє
тривимірні об'єкти на основі стереозображень. Основний внесок цієї роботи в тому,
що автори розробили повністю диференційовану НС, яка навчається наскрізним
методом. Середня точність визначення паралелепіпедів, що обмежують об'єкти, на
наборі даних KITTI для трьох випадків спостереження легкого, помірного та
складного становить: 73.50%, 52.18% і 45.14% відповідно.
Методи визначення тривимірних об'єктів на основі стереозображень є
перспективними. є перспективними. Більш ранні методи використовують
інформацію про глибину, як правило, для припущення місця розташування об'єкта,
однак, ракурс об'єкта визначається з одного зображення. Останні і найбільш точні
методи, засновані на глибоких СНС, дають змогу досягти середньої точності
визначення тривимірних об'єктів більш ніж 73%, а також середню схожість
ракурсів понад 91%.
Основною проблемою таких методів є відсутність широкомасштабних
анотованих наборів стерео зображень. Це в свою чергу чергу сильно обмежує вибір
15
відповідних стереокамер до конкретних моделей, а також не дає змоги
масштабувати методи, засновані на СНС, до реальних умов спостереження.
1.3 Аналіз монокулярних зображень
Аналіз відеопотоку стаціонарної камери
Як правило фон відео потоку, отриманого з камери, встановленої на
автономному ТЗ, є динамічним. Однак у деяких випадках, наприклад, під час під
час зупинки ТЗ, фон є статичним, що може бути використано для аналізу
навколишнього простору. До того ж статичне тло у відео потоці дає змогу
накопичувати дані з автоматичною розміткою для навчання і тестування систем
аналізу зображень. Далі буде розглянуто сучасні методи визначення ракурсу ТЗ на
основі відео потоку, отриманого стаціонарною камерою. стаціонарною камерою.
Маркета Дубська, Якуб Сохор і Адам Хераут у роботі «Automatic Camera
Calibration for Traffic Understanding» [14] запропонували метод автоматичного
визначення паралелепіпеда, що обмежує ТЗ. Метод орієнтований на двонаправлену
ділянку проїжджої частини без розвилок і складних ділянок дороги.
Запропонований метод розроблено для стаціонарних камер спостереження
дорожнього руху і складається з декількох кроків:
1) Першим кроком запропонованого методу є калібрування камери. На
основі статистичних даних про рух автомобілів у відео потоці, сформованих за
проміжок часу в кілька хвилин, проводиться визначення трьох точок сходження
(точки, в яких сходяться на перспективному зображенні паралельні лінії), що
визначають потік ТЗ. Ґрунтуючись на припущенні, що більшість ТЗ рухаються за
приблизно прямими взаємно паралельними траєкторіями, можна виявити два
ортогональних напрямки. Перший у напрямку руху ТЗ і другий перпендикулярний
до першому. Припускаючи, що основна точка камери розташована в центрі
площини проекції, розраховується 3-й ортогональний напрямок.
16
2) Після калібрування камери відбувається витяг «силуету» автомобіля на
основі оцінки фону і виявлення об'єктів переднього плану [15, 16]. Припускаючи,
що ТЗ, які цікавлять, рухаються від(до) першої точки сходу, проводиться
фільтрація виявлених об'єктів, що призводить до зменшення помилок 2-го роду під
час локалізації об'єктів. На основі виділення фону визначається маска ТС, з якої
виділяється зовнішній контур. Виходячи з отриманого контуру, передбачається
паралелепіпед, що обмежує ТС, який проходить по дотичних до кордонів ТС
паралельно кожній нормалі.
Автори не наводять значення точності запропонованого методу. Приклад
визначення обмежувального паралелепіпеда наведено на рисунку 1.3.
Рисунок 1.3 - а) дотичні лінії та їхні відповідні перетини A; B; C; б)
похідні прямі та їхні перетини E; D; F; в) похідні лінії та перетин H
Пізніше в роботі «BoxCars: Improving Fine-Grained Recognition of Vehicles
Using 3-D Bounding Boxes in Traffic Surveillance» Якуб Сохор, Якуб Шпанхель і
Адам Хероут [17] запропонували новий метод визначення паралелепіпеда, що
обмежує ТЗ паралелепіпеда. Скориставшись описаним раніше методом [14], автори
здійснили збір інформації з відеопотоків спостереження за дорожнім рухом. Цей
метод дав змогу зібрати великомасштабну базу зображень ТЗ із різних точок
спостереження. На відміну від попередніх робіт автори запропонували отримувати
зовнішній контур автомобіля на основі СНС [18] для більш точного визначення ТЗ.
Отриманий набір зображень було використано для навчання СНС на базі ResNet50
[19], до якої було додано три окремих повнозв'язних шари з активацією
логістичною функцією (по одному для кожної точки сходу).
17
Цей метод дає змогу визначати обмежувальний паралелепіпед у випадках,
коли статистичні дані спостереження за дорожнім рухом недоступні.
Методи аналізу зображень на основі відео потоку, отриманого статичною
камерою, як правило, повністю залежать від обраного методу оцінки фону, що
може призводити до серйозних помилок в умовах оклюзії, близькому розташуванні
автомобілів тощо.
У зв'язку з тим, що фон відео потоку отриманого з камер автономного ТЗ є
динамічним за винятком моментів повної зупинки, методи аналізу зображень,
засновані на оцінці фону, можуть використовуватися лише в рідкісних випадках
автономного руху.
Класичні методи
У цьому розділі буде розглянуто сучасні класичні методи визначення
ракурсу ТЗ на основі аналізу монокулярних зображень, отриманих із камери, що
рухається.
У роботі «Jointly Optimizing 3D Model Fitting and Fine-Grained Classification»
[20] автори запропонували метод, який спільно локалізує ключові точки об'єкта
інтересу і зіставляє тривимірну модель об'єкта з зображенням. Спочатку до
вихідного зображення застосовується модель деформованих деталей (DPM) [21],
щоб визначити місця розташування окремих частин автомобіля. Після чого на
основі алгоритму Support Vector Regression (SVR) [20] проводиться локалізація
ключової точки для кожної локалізованої частини. На основі ключових точок
автомобіля відновлюється його тривимірна форма. Потім обчислюються
дескриптори ознак (гістограма спрямованих градієнтів (HOG) [22] або вектор
Фішера [23]) для кожного місця розташування деталей. Класифікатори на основі
методу опорних векторів (SVM) [24] використовуються для визначення класу
деталі. Потім прогнозовані класи використовують для уточнення тривимірної
форми. Запропонований метод дає змогу отримати ракурс попередньо
локалізованого автомобіля.
18
Як тестовий набір автори використовують тривимірний набір даних
FG3DCar [20], який складається з 300 зображень із 30 різними моделями
автомобілів під різним ракурсом. Середня відстань між пікселями ключових точок
об'єкта інтересу на зображенні та проекції тривимірної моделі (APD) [20] становить
18.8 від загальної кількості ключових точок на тестовій вибірки.
У роботі «Model-Based Vehicle Pose Estimation and Tracking in Videos Using
Random Forests» [25] автори запропонували навчити ансамбль випадкових лісів
(RF) [25] на наборі 3D-моделей і використовувати для визначення можливих
ракурсів і місць розташування ТЗ на реальних кадрах. А також використовувати
марковські випадкові поля (MRF) [25], щоб забезпечити тимчасову узгодженість
між ракурсами послідовних кадрів, як запропоновано в [26]. Запропонований метод
дає змогу локалізувати автомобіль на зображенні та оцінити його ракурс. Для
тестування запропонованого методу автори використовували п'ять
відеопослідовностей із роботи [27]. Середня помилка визначення ракурсу з кроком
5 градусів склала 17.6°.
У роботі «Parameterizing Object Detectors in the Continuous Pose Space» [28]
Кун Хе, Леонід Сігал і Стен Скалофф запропонували метод поліпшеної оцінки
ракурсу ТС. Автори запропонували моделювати локалізацію і ракурс об'єкта
спільно, використовуючи алгоритм SVM для локалізації та визначення ракурсу ТЗ.
Спільне визначення локалізації та ракурсу об'єкта дало змогу збільшити точність
оцінки ракурсу ТЗ. На наборі даних EPFL Cars [29], який містить в себе 2299
зображень, середня точність визначення ракурсу (MPPE) склала 64,0% для 16
ракурсів.
де Q - кількість прикладів, P = 1 у разі коректного визначення ракурсу,
інакше P = 0.
У роботі «Hierarchical Sliding Slice Regression for Vehicle Viewing
AngleEstimation» [30] Дан Ян, Янлін Цянь, Ке Чен і Елені Беркі запропонували
19
метод ієрархічної регресії для визначення ракурсу ТЗ (HSSR). Спочатку цільовий
простір розділяється на кілька частин, що перетинаються, для грубого визначення
ракурсу об'єкта. Після чого відбувається уточнення ракурсу. Навчання
проводилося на зображеннях, перетворених у відтінки сірого, з яких витягували
гістограму спрямованих градієнтів. Як класифікатор використовувався SVM. Для
уточнення ракурсу об'єкта автори використовували Kclusters Regression Forest [31].
Запропонований метод дав змогу збільшити точність оцінки ракурсу автомобіля на
зображенні, а також зменшити помилку під час аналізі дзеркально відображених
об'єктів (180°). На наборі даних EPFL Cars середня абсолютна помилка (MAE)
визначення ракурсу склала 20.3°.
де Q - кількість тестових прикладів, y - прогнозоване значення, ′ - істинне
значення.
У роботі «Hierarchical regression learning for car pose estimation» [32] Дан Янг
запропонував метод Part-Aware Target Coding (PATC), на відміну від попереднього
методу PATC під час навчання моделі визначення ракурсу вводить проміжнийетап
визначення видимих частин автомобіля. Передбачені ймовірності видимих частин
автомобіля подаються на вхід моделі регресії на основі SVM разом із дескриптором
HOG як вхідні дані. На наборі даних EPFL Cars середня абсолютна помилка
визначення ракурсу склала 22.2% від кількості прикладів тестової вибірки.
У роботі «Data-Driven 3D Voxel Patterns for Object Category Recognition» [33]
автори запропонували новий підхід до представлення об'єктів, 3D Voxel Pattern
(3DVP), який спільно кодує ключові властивості об'єктів, включно з зовнішній
вигляд, тривимірну форму, точку огляду та оклюзію. Методи на основі 3DVP здатні
виявляти об'єкти за допомогою певних шаблонів і переносити метадані на виявлені
об'єкти, такі як маска двомірної сегментації, ракурс, а також оклюзії. Автори
навчили групу вирішальних дерев на комбінації різних особливостей (Aggregate
Channel Features) [34]. детекторів, використовуючи 3DVP, за допомогою якого
20
кожен детектор навчається на основі інформації про зовнішній вигляд. Середня
схожість ракурсів (AOS) на наборі даних KITTI для трьох випадків спостереження
легкого, помірного і складного становить: 78.99%, 65.73% и 54.67%.
Перекладений метод дав змогу отримати вражаючі результати на
відкритому наборі зображень KITTI і перевершити більшість класичних, а також
деякі нейромережеві методи визначення ракурсу ТЗ. Однак представлення об'єктів
у 3DVP вкрай складний процес, що займає багато часу.
Новітні підходи на основі класичних методів дають змогу визначати ракурс
ТЗ із середньою абсолютною помилкою менше 22%. Однак у випадках, коли
дослідники мають великі набори різнорідних даних, класичні методи поступаються
нейромережевим. Розглянуті в параграфі 1.2 нейромережеві методи визначення
ракурсу ТЗ на основі стереозображень більш ніж на 12% перевершують класичні
методи аналізу монокулярних зображень.
Нейромережеві методи
У 2012 році вперше в історії в конкурсі з класифікації зображень виграла
СНС AlexNet. Авторам вдалося перевершити всі класичні методи комп'ютерного
зору в ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [35]. На тлі цієї
події, а також завдяки загальнодоступності цифрових камер, одним із напрямів у
галузі машинного зору, який найширше розвивається, став аналіз зображень. галузі
машинного зору став аналіз зображень на основі СНС. Нейромережеві методи
аналізу зображень, в даний час є найбільш точними.
У цьому розділі буде представлено короткий огляд сучасних методів
визначення ракурсу на основі СНС.
У роботі «Subcategory-aware Convolutional Neural Networks for Object
Proposals and Detection» [36] автори представили метод виявлення паралелепіпедів
SubCNN, що паралелепіпедів SubCNN, що обмежують об'єкти. Цей метод дає змогу
виявляти об'єкт, сегментувати межі, а також оцінювати ракурс і ступінь оклюзії
об'єкта. Для цього автори модифікували СНС Fast R-CNN таким чином чином, щоб
вона виявляла об'єкт і класифікувала його підкатегорію. В даному випадку в якості
21
підкатегорій автори використовували описаний раніше підхід представлення
об'єктів 3DVP, який спільно кодує ключові властивості об'єктів, включно із
зовнішнім виглядом, тривимірною формою, точкою огляду іоклюзію. Метрика
AOS на наборі даних KITTI для трьох випадків спостереження легкого, помірного
і складного становить: 94.55%, 85.03% и 72.21%.
Детальна анотація об'єктів на зображенні, необхідна для вирішення
завдання просторової орієнтації наскрізними методами, є трудомістким і дорогим
процесом. Через це в даний час найактуальнішими є методи, засновані на
каскадному аналізі зображень.
У роботі «3D Bounding Box Estimation Using Deep Learning and Geometry»
[3] Арсалан Мусавян, Драгомир Ангуелов і Джон Флінн запропонували НС
MultiBin для визначення ракурсу об'єкта та його розмірів. Також автори
запропонували метод побудови паралелепіпеда, що обмежує об'єкт, на основі
ракурсу і розмірів об'єкта в поєднанні з геометричними обмеженнями на
переміщення, накладеними детектором об'єкта. Цей метод працює з частиною
зображення, що містить об'єкт інтересу. Метрика AOS на наборі даних KITTI для
трьох випадків спостереження легкого, помірного і складного становить: 92.90%,
88.75% и 76.76%.
У роботі «Monocular 3D Object Detection for Autonomous Driving» [4] автори
запропонували метод визначення ракурсу об'єктів на основі каскаду СНС. Оцінка
ракурсу об'єкта інтересу визначається на основі СНС Fast R-CNN. Архітектура
мережі Fast R-CNN розширюється додаванням додаткової гілки після останнього
згорткового шару. Об'єкти, що виводяться з вихідної та додаткової гілок,
об'єднуються і подаються на модуль прогнозування, заснований на НС OxfordNet
[9]. Після чого на основі повністю згорткової мережі SegNet [37] відбувається
пропозиція паралелограмів, що обмежують об'єкти. Отримані об'єкти додатково
оцінюються СНС. Метрика AOS на наборі даних KITTI для трьох випадків
спостереження легкого, помірного і складного становить: 91.01%, 86.62% и 76.84%.
У роботі «6-DoF Object Pose from Semantic Keypoints» [38] автори
представили каскадний підхід до оцінки ракурсу об'єкта на основі об'єднання
22
ключових точок об'єкта, локалізованих СНС, із тривимірною моделлю. Цей підхід
складається з трьох етапів:
1) локалізація об'єктів інтересу здійснюється на основі СНС Faster R-CNN
[12], яка повертає місце розташування прямокутника, що описує об'єкт інтересу на
зображенні;
2) для локалізації ключової точки використовується нейромережева
архітектура «stacked hourglass» [39];
3) оцінки ракурсу об'єктів здійснюються шляхом максимізації геометричної
узгодженості між параметризованою деформованою моделлю та двовимірними
семантичними ключовими точками.
Приклад роботи підходу зображено на рисунку 1.4. Середня помилка точки
огляду [38] на базі зображень PASCAL3D+ для класу автомобіль становила 5.5
градуси.
Представлений каскадний підхід дає змогу оцінити просторову орієнтацію
ТЗ з високою точністю, однак через використання каскаду СНС аналіз одного кадру
на графічному обчислювачі (NVIDIA GeForce GTX Titan X)займає 0.3 секунди без
урахування методу локалізації об'єкта, що ускладнює використання цього методу в
реальних умовах.
Рисунок 1.4 - Приклад роботи підходу «6-DoF Object Pose from
Semantic Keypoints»
У роботі «Part-level Car Parsing and Reconstruction from a Single Street View»
[40] автори запропонували метод для одночасної оцінки форми, ракурсу
ісемантичної сегментації частин автомобілів. Для визначення паралелепіпедів, що
обмежують ТЗ, мережа пророкує 4 параметри: центр, форму, ракурс і відстані до
центру автомобіля. Запропонований метод дав змогу авторам перевершити
23
більшість сучасних методів визначення паралелепіпедів, що паралелепіпедів, що
обмежують ТЗ, на наборі даних ApolloCar3D [41]. Метрика AOS на наборі даних
ApolloCar3D становить 77.89%.
Останні методи на основі СНС дають змогу досягти значущих результатів
визначення ракурсу об'єкта на зображенні. Точність таких методів здебільшого
залежить від наборів даних. Наявні набори даних, як правило, не містять умови
різної погоди, часу доби, ракурсів спостереження, через що є слабо
масштабованими в реалії російських доріг.
Висновки до розділу 1
На підставі проведеного огляду та аналізу сучасних методів оброблення та
аналізу відеоданих у системах автономного керування автомобілів зроблено такі
висновки:
- Актуальним завданням аналізу відеоданих у системі автономного
керування автомобілів є оцінка просторової орієнтації об'єктів, базою для якої є
визначення ракурсу об'єктів інтересу.
- Сучасні методи аналізу зображень сфокусовані на наскрізному навчанні
СНС для вирішення одночасно завдань локалізації, класифікації, сегментації,
визначення ракурсу тощо. Як правило, розв'язання кількох задач однією моделлю
є доцільним, оскільки в разі використання ансамблю СНС для розв'язання різних
завдань істотно зменшується швидкість аналізу зображень. Наскрізні методи на
основі СНС дають змогу досягти значних результатів оцінки просторової орієнтації
об'єктів у відео потоці, проте, точність таких методів здебільшого залежить від
наборів навчальної вибірки, їхнього обсягу тощо.
- Для масштабування методів, заснованих на СНС, необхідні великі набори
анотованих даних, що покривають різноманіття умов спостереження. Наявні
набори даних не містять докладної анотації необхідної для розв'язання задачі
24
просторової орієнтації наскрізними методами. Через це наразі актуальними є
методи оцінювання просторової орієнтації на основі каскадного аналізу інформації.
- Аналіз жорстких об'єктів, як сукупності взаємно розташованих частин, дає
змогу докладніше описати поведінку об'єкта в просторі, зрозуміти ступінь оклюзії
об'єкта, оцінити ракурс об'єкта тощо. Однак унаслідок відсутності
широкомасштабних і різнорідних анотованих баз даних, такі методи не поширені.
25
РОЗДІЛ 2
ЛОКАЛІЗАЦІЯ ОБ'ЄКТІВ НА ЗОБРАЖЕННІ В СИСТЕМАХ
БЕЗПІЛОТНОГО КЕРУВАННЯ АВТОМОБІЛІВ
2.1 Структура запропонованого підходу
Сучасні методи визначення ракурсу на основі відеоданих, як правило,
ґрунтуються на навчанні глибоких нейромережевих моделей. правило, засновані на
навчанні глибоких нейромережевих моделей. Однак для масштабування методів,
заснованих на СНС, необхідні великі набори анотованих даних, що покривають
анотованих даних, що покривають різноманіття умов спостереження.
Наявні набори даних, як правило, не включають у себе умови різної погоди,
часу доби і ракурсів спостереження. Відсутність широкомасштабних наборів
зображень з відомими ракурсами об'єктів, що враховують різні умови
спостереження, є основною проблемою оцінки ракурсу ТЗ. Необхідний набір даних
може бути отримано з проекцій тривимірних моделей об'єктів (синтетичних
зображень). Однак з урахуванням того, що особливості синтетичних і реальних
зображень різні, необхідно використовувати дескриптори, які будуть однаковими
на обох вибірках. Оскільки ТЗ є жорстким об'єктом, зовнішній вигляд якого
залежить від марки і точки спостереження, необхідно виділити ключові
особливості, пов'язані з ракурсом і видалити нерелевантну інформацію, що
ускладнює аналіз зображення. Груба оцінка ракурсу ТЗ може бути проведена на
основі аналізу видимих ключових частин (колеса, фари, габаритні сигнали,
номерний знак). Наприклад, на рисунку 2.1 зображено автомобіль із набору
зображень CARVANA [42].
Більш інформативною особливістю є форма об'єкта. На рисунку 2.2
представлено приклад розподілу зовнішніх контурів ТЗ для різних ракурсів
отриманих на основі набору даних CARVANA (кожен об'єкт точно описаний
контуром і масштабований до одного розміру). Розподіл зовнішнього контуру
26
відрізняється для різних ракурсів і має схожість для різних типів кузова
автомобілів.
Рисунок 2.1 - ракурс ТЗ залежно від видимості ключових точок
Рисунок 2.2 – Розподіл зовнішніх контурів набору зображень
CARVANA
Таким чином, завдання класифікації ракурсу ТЗ можна звести до завдання
вимірювання подібності між елементами зображення, що класифікується, та
еталонного. Для цього потрібно локалізувати ТС, виділити зовнішній контур і
ключові точки об'єкта.
27
У загальному вигляді функціональна схема розробленого методу зображена
на рисунку 2.3.
Рисунок 2.3 - Функціональна схема каскадного підходу оцінки
ракурсу ТЗ
Спочатку проводиться аналіз зображення СНС, яка надає інформацію про
місцезнаходження ТЗ на зображенні. інформацію про місцезнаходження ТЗ на
зображенні (рис. 2.4-б, 2.4-в). На основі запропонованого методу аналізу
внутрішніх згорткових шарів НС проводиться зміна архітектури цієї НС, що дає
змогу локалізувати не тільки об'єкт інтересу, а й ключові точки, що належать цьому
об'єкту (рис. 2.4-г). На основі апріорної інформації про місцезнаходження ТЗ на
зображенні, проводиться сегментація зображення (рис. 2.4-д). З маски ТС
витягуються сигнатури як залежності відстані від ключової точки до меж об'єкта у
вигляді функції кута. Фур'є образ таких сигнатур є ключовою ознакою, на основі
якої проводиться визначення ракурсу ТС.
На основі тривимірних (3D) моделей проводиться витяг шаблонів для
кожного ракурсу ТЗ. Визначення цільового ракурсу ТЗ відбувається за рахунок
зіставлення ознак вихідного об'єкта і шаблонів, отриманих на основі 3D-моделей.
Ракурс цільового ТС визначається, як ракурс шаблону, що має найбільшу схожість
(рис. 2.4-е).
28
Рисунок 2.4 - Приклад роботи каскадного підходу оцінювання ракурсу
ТЗ: а) вихідне зображення; б) локалізація ТС на зображенні; в) частина
зображення, що містить об'єкт інтересу; г) локалізація ключових точок; д)
сегментація зображення; е) поєднання маски об'єкта і 3D моделі ТС
29
2.2 Локалізація об'єктів на зображенні
Системи виявлення об’єктів здатні виконувати пошук певних класів
об’єктів і вказувати їхнє місцезнаходження на зображенні. Завдання локалізації
об’єкта в загальному вигляді можна розглянути таким чином. Спочатку
відбувається вилучення інформації про об’єкт, що цікавить, із зображення на основі
функцій вилучення (дескрипторів). Потім, аналізуючи дескриптори, виділяється
область, що належить об’єкту інтересу.
Витягнутий дескриптор може бути трьох типів:
- Низького рівня: рух, колір, градієнт тощо.
- Середнього рівня: ребра, кути, точки інтересу, регіони тощо.
- Високого рівня: центр ваги, весь об’єкт тощо.
Залежно від витягнутої інформації локалізувати об’єкт можна різними
способами, наприклад:
- Однією, або кількома точками. Точкове представлення об’єкта, що
цікавить, актуальне в тих завданнях відстеження, де мета сама по собі мала. Собі
мала.
- Геометричною формою. За допомогою кола, еліпса, прямокутника і т. д.
- Контуром. Межа об’єкта визначається, як контурне уявлення (форма
об’єкта).
- Моделлю із зчленованою формою. Композиція частин об’єкта інтересу.
Автомобіль являє собою зчленовані предмети: колеса, номерний знак, лобове скло,
фари тощо. Переважна більшість сучасних методів локалізації об’єктів ґрунтується
на визначенні прямокутника, що описує об’єкт інтересу. Прямокутник
параметризовано, як (x_min; x_max; y_min; y_max), де (x_min; y_min) – координати
верхнього лівого кута, а (x_max; y_max) – координати нижнього правого кута (рис.
2.5).
30
Рисунок 2.5 – Приклади локалізації об’єкта інтересу на зображенні
2.3 Аналіз руху автомобіля
Методи, засновані на аналізі руху, використовують часову інформацію для
виявлення ТЗ. Поля оптичного потоку від рухомого ТЗ можуть бути розраховані
шляхом зіставлення пікселів або характерних точок між двома кадрами відео
послідовності. Метод розрахунку щільного оптичного потоку, запропонований
Хорном і Шунком [43], зіставляє всі пікселі зображень на основі їхньої
інтенсивності. Цей метод вимагає великих обчислювальних зусиль і ускладнює
застосування методу в реальному часі. Для зменшення обчислювального
навантаження було запропоновано розріджений оптичний потік. Цей метод
відстежує низку специфічних особливостей ТЗ, таких як кути [44] або кольорові
плями [45]. Після обчислення полів оптичного потоку рухомі об'єкти можуть бути
локалізовані на зображенні шляхом кластеризації полів.
У роботі [44] Сміт і Бреді запропонували систему виявлення руху ТЗ на
основі оптичного потоку «Scene Segmenter Establishing Tracking (ASSET-2)».
Система використовує розріджений оптичний потік для оцінки руху. Особливості
кутів на зображенні витягуються на основі «Smallest Univalue Segment Assimilating
Nucleus» [46] або алгоритму Гарріса [47]. Потім об'єкти відстежуються за кількома
кадрами для створення полів оптичного потоку. «Сегментер потоку»
використовується для кластеризації полів. Нарешті, обмежувальні прямокутники і
31
центроїди отриманих кластерів обчислюються і використовуються як покажчики
місця розташування ТЗ. Система вимагає високого обчислювального
навантаження, і тому автори використовували спеціальне апаратне прискорення
для виявлення ТЗ у реальному часі.
Аналогічна система виявлення ТЗ, запропонована в роботі [48]
використовує функції «Smallest Univalue Segment Assimilating Nucleus» для оцінки
розріджених полів оптичного потоку. Автори запропонували методику для
поліпшення розрахунку потоків з використанням НС з імпульсним зв'язком. Цей
метод не дає змоги аналізувати ТЗ із невеликою відносною швидкістю (<10 км/год).
Для визначення ТЗ з невеликою відносною швидкістю автори використовували
техніку, засновану на зовнішньому вигляді (тінь під ТЗ і краї) при виявлення.
Метод групування кластерів оптичного потоку в окремі рухомі об'єкти, що
рухаються, було запропоновано в роботі [49]. Спочатку виявлені вектори
оптичного потоку проектуються в площину паралельну поверхні дороги. Область
пошуку встановлюється на основі очікуваної мінімальної та максимальної ширини
ТЗ. Якщо пошук виконано успішно, координата розраховується з використанням
координат усіх сумісних потокових кластерів, знайдених у цій області. Ця
координата використовується для оцінювання ширини та центральної точки ТС.
Методи, засновані на русі, ефективні для виявлення рухомих об'єктів, проте
вимагають значних обчислювальних ресурсів. рухомих об'єктів, однак, вимагають
значних обчислювальних ресурсів і аналізу декількох кадрів, перш ніж об'єкт може
бути виявлений. Такі методи чутливі до руху камери і можуть не виявляти об'єкти
з повільним відносним рухом. Це є серйозним недоліком, оскільки бортова камера
може вібрувати, коли ТЗ рухається.
2.4 Аналіз зовнішніх ознак автомобіля
Методи локалізації об'єктів на основі зовнішніх ознак, як правило,
сфокусовані на аналізі одного зображення. Виходячи з особливостей об'єкта
32
інтересу та умов, у яких він спостерігається, можливо сформувати припущення про
місце розташування об'єкта на зображенні. Далі будуть розглянуто деякі ознаки,
що належать автомобілям, на основі яких можливо зробити припущення про
наявність об'єкта та його місцезнаходження.
Однією з найпоширеніших ознак є тінь під ТЗ, яка зазвичай темніша, ніж
поверхня дорожнього полотна. Тінь може слугувати сигналом для визначення
місця розташування ТЗ. У [50] Христос Цомакас і Вернер фон Зелен оцінили
гістограму яскравості зображення асфальтованої дороги, щоб знайти поріг для
сегментування затінених ділянок на дорозі. Розташування затінених областей
разом з інформацією про межі використовується для припущення місця
розташування ТЗ. Однак цей метод не стійкий у таких ситуаціях: якщо колір
дорожнього покриття не рівномірний; якщо на дорожньому полотні також присутні
тіні від інших об'єктів; вранці або ввечері тінь зосереджена не по центру ТЗ.
Іншою не менш актуальною ознакою є краї ТЗ. Більшість ТС мають
характерні вертикальні та горизонтальні краї. Ці характеристики можуть бути
використані для припущення про наявність ТС. Група горизонтальних і
вертикальних країв, які утворюють прямокутну форму зі співвідношенням сторін
від 0.4 до 1.6, є хорошими кандидатами для потенційних ТЗ для виду ззаду або
спереду. Можуть використовуватися різні методи виявлення країв, наприклад,
Canny [51], Sobel або морфологічне [52] виявлення краю тощо.
Джин і співавтори [53] використовували як початковий сигнал для
припущення знаходження ТС горизонтальні та вертикальні краї. Бетке [54]
запропонував грубу і точну техніку пошуку для виявлення віддалених ТС. Грубий
пошук шукає групи горизонтальних і вертикальних країв на зображенні. Коли такі
групи знайдено, у навколишній їхній ділянці виконується більш точний пошук,
щоб знайти об'єкти прямокутної форми. Одна з основних труднощів при виявленні
ТЗ за горизонтальними і вертикальними краями пов'язана з перешкодами від
зовнішніх країв, створюваних фоновими об'єктами, такими як будівлі, ліхтарні
стовпи тощо. Також важко вибрати оптимальний поріг для виявлення краю, щоб
захопити більшість країв ТЗ і не захопити краї фону.
33
Наступною поширеною ознакою є симетрія. Симетрія є однією з визначних
візуальних характеристик ТЗ. Вид ззаду або спереду більшості ТЗ симетричний по
центральній лінії. Отже, можна висунути гіпотезу про місцезнаходження ТЗ на
зображенні, виявивши області з високою горизонтальною симетрією [55-60].
Т. Зелке та ін. [55] запропонували метод виявлення ТС на основі симетрії
інтенсивності центральної лінії об'єкта. Обмежувальна рамка ТС оцінюється
шляхом виконання виявлення країв і знаходження пар ребер, які взаємно
симетричні щодо виявленої осі симетрії. Андреас Куенле [59] запропонував
систему, яка використовує три різні критерії симетрії для визначення місця
розташування ТС: симетрія контуру, рівня сірого та горизонтальної лінії.
Гістограми, згенеровані з цих критеріїв, використовуються для визначення
центральної лінії ТЗ.
Загальна форма автомобіля - прямокутна з чотирма кутами. Ця
характеристика може бути використана для припущення про наявність ТЗ. В
[61]автори використовували чотири різні шаблони зображення, щоб виявити всі
можливі кути автомобіля на зображенні. Можливий ТЗ виявляється, якщо є чотири
кути з достатньою кількістю крайових пікселів у положеннях, що відповідають
сторонам ТЗ. У [62] процес виявлення кутів прискорюється за рахунок
використання загальної маски подвійного кола для виявлення усіх типів кутів.
Виявлені кути потім групуються на основі їхніх типів і місць розташування.
Нарешті, особливості кутів у кожному кластері витягуються і використовуються як
вхідні дані для класифікатора SVM [24], щоб визначити приналежність до ТС.
Більшість ТЗ мають однорідний колір, відмінний від дорожнього покриття і
фонових об'єктів. Цей факт використовується в [63] для сегментування ТЗ на
зображенні. Автори запропонували модель перетворення кольору, щоб знайти
«колір ТЗ» для визначення можливих кандидатів на ТЗ.
Пара червоних стоп-сигналів і жовтих габаритних вогнів також може бути
сигналом для виявлення ТЗ. У [64] Цин Мін і Кан Хьон Джо
використовували метод колірної сегментації для визначення задніх ліхтарів
автомобіля.
34
Текстура ТЗ відрізняється від навколишньої дорожньої поверхні. За
допомогою статистичного аналізу текстури зображення, наприклад ентропії, місце
розташування ТЗ на зображенні може бути сегментовано. Однак виявлення об'єкта
на основі кольору дуже чутливе до зміни освітлення і властивостей відбиття
об'єкта. Ці властивості можуть змінюватися за різних погодних умов або в різний
час дня, що збільшить складність виявлення ТЗ залежно від кольору.
У нічний час задні ліхтарі є основним сигналом для виявлення ТЗ, коли інші
функції є невизначеними. Йен і співавтори [65] запропонували систему виявлення
ТЗ у нічний час. ТС визначаються шляхом виявлення яскравих об'єктів, які
відносяться до фар або задніх ліхтарів ТЗ. Яскраві об'єкти витягуються з
використанням просторової кластеризації та сегментації.
В основному для виявлення ТЗ на зображенні використовуються множинні
дескриптори об'єкта. Наприклад, у [66] Ван Леувен і Гроен використовували метод,
який об'єднує функції тіней, ентропії та симетрії для відстеження ТС. Їхня
процедура починається з ідентифікації всіх областей зображення, які потенційно
належать тіні під ТС. Потім усі рядки з низькою ентропією у виявленій області
видаляються і перевіряється її горизонтальна симетрія інтенсивності, щоб
визначити, чи належить вона ТС.
Виявлення ТЗ з використанням декількох дескрипторів є більш надійнішим,
оскільки один дескриптор може компенсувати слабкість іншого. Виявлення ТЗ на
основі зовнішніх ознак є простим і швидким методом. Однак таким методам
притаманні свої недоліки. Морфологічне різноманітність зовнішнього вигляду,
різноманітність змін освітлення та різноманітність фону ускладнюють створення
надійних ознак об'єктів вручну, з чого випливає великий відсоток помилок першого
і другого роду.
35
2.5 Нейромережеві методи
В останні роки методи аналізу зображень на основі СНС по праву посіли
лідируючі позиції у вирішенні різних завдань. Сучасні методи аналізу зображень
зрівнялися і навіть у деяких завданнях перевершили можливості людини. У цьому
розділі буде представлено короткий огляд сучасних методів локалізації об'єктів на
основі СНС.
Незважаючи на відмінність архітектур СНС, вони мають спільні
компоненти:
1) Backbone (базова структура) - це частина, яка витягує із зображення
абстрактні ознаки (feature extractor). Як базову структури часто використовують
такі СНС, як ResNet [19], EfficientNet [67], VGGG [68], MobileNet [69] тощо,
призначені для класифікації зображень без останніх повнозв'язних шарів. Як
правило, мережеві структури, розроблені спеціально для класифікації зображень,
безпосередньо використовуються як базовою структурою за замовчуванням для
інших завдань, включно з виявленням і сегментацію.
2) Neck - це та частина, яка виконує деякі уточнення або реконфігурації на
основі абстрактних ознак, отриманих з Backbone. Прикладом є Feature Pyramid
Network (FPN) [70].
3) DenseHead - це частина, яка визначає місця розташування об'єктів на
зображенні аналізуючи локальні властивості ознак об'єктів, включаючи
AnchorHead [71] та AnchorFreeHead [72].
4) RoIExtractor - це частина, яка витягує об'єкти з однієї або декількох карт
ознак. Прикладом, який витягує об'єкти RoI з відповідного рівня пірамід об'єктів, є
SingleRoIExtractor [73].
5) RoIHead (BBoxHead/MaskHead) - це та частина, яка приймає функції RoI
як вхідні дані і робить прогнози для конкретних завдань, таких як
класифікація/регресія обмежувального прямокутника, сегментація.
Основні архітектури виявлення об'єктів, засновані на СНС, можна розділити
на дві категорії:
36
1) Одноступеневі, які безпосередньо визначають імовірності класів і
координати місця розташування об'єкта.
2) Двоступеневі, які відокремлюють регіони, в яких можуть перебувати
об'єкти, а потім класифікують їх.
Основною перевагою двоступеневих архітектур є висока точність
виявлення, а основним недоліком - низька швидкість виявлення.
Одноступенева архітектура виявлення об'єктів може безпосередньо
визначати ймовірності класів і координати місця розташування об'єкта. Така
архітектура не потребує процесу пропозиції регіону, як у двоетапній. Основною
перевагою є висока швидкість виявлення, але точність виявлення зазвичай нижча,
ніж у двоступеневої архітектури виявлення об'єктів.
З урахуванням вищенаведених абстракцій структура одноступеневих і
двоступеневих детекторів проілюстровано на рисунку 2.6.
Рисунок 2.6 - Структура одноступеневих і двоступеневих детекторів об'єктів
на основі згорткових нейронних мереж
37
Далі буде розглянуто найпоширеніші одноступінчасті та двоступеневі
архітектури СНС для завдання локалізації об'єктів на зображенні.
Шаоцін Рен, Каймін Хе, Росс Гіршик і Цзянь Сунь у роботі «Faster R-CNN:
Towards Real-Time Object Detection with Region Proposal Networks» запропонували
новий метод локалізації об'єктів на зображенні під назвою Faster R-CNN [12].
Виявлення об'єктів у Faster R-CNN відбувається у два етапи. Спочатку на основі
СНС Region Proposal Network (RPN) проводиться витяг ознак і припущення
регіонів. RPN видає тільки пропозиції для регіонів-кандидатів. Потім ті регіони, які
мають високу ймовірність вмісту будь-якого об'єкта, передаються далі в модуль
локалізації об'єктів Fast RCNN [8].
Каймінг Хе, Джорджія Гкіоксарі, Петро Доллар і Росс Гіршик у роботі [74]
запропонували новий метод виявлення об'єктів на зображенні Mask R-CNN. Mask
R-CNN, розширює Faster R-CNN, додаючи гілку для прогнозування маски об'єкта
паралельно з наявною гілкою локалізації об'єктів. Завдяки цьому Mask R-CNN
точніше локалізує об'єкти на зображенні, ніж Faster RCNN.
Чжаовей Кай і Нуно Васконселос у роботі «Cascade R-CNN: Delving into
High Quality Object Detection» [75] запропонували багатоетапну архітектуру СНС
для локалізації об'єктів на зображенні під назвою Cascade R-CNN. Cascade R-CNN
складається з послідовності НС, навчених зі збільшенням порогових значень
ступеня перетину між обмежувальними рамками локалізованого об'єкта і його
істинного місця розташування. СНС навчаються поетапно, використовуючи
висновки СНС як вхідний сигнал наступної СНС.
Вей Лю та ін. у роботі «SSD: Single Shot MultiBox Detector» [76]
запропонували СНС SSD, що дає змогу локалізувати та визначити класи об'єктів на
зображенні без другого етапу класифікації. НС формує кілька тисяч прогнозів для
можливих регіонів розташування об'єктів різної форми на різних масштабах, потім
за допомогою алгоритму придушення не максимумів (NMS) [77] відбувається вибір
кількох найімовірніших областей. Така єдина структура забезпечила методу SSD
найбільш високі показники швидкості виявлення об'єктів порівняно з методами, що
38
використовують додатковий етап класифікації, при тому зберігаючи
конкурентоспроможну точність.
Цунг-І Лін, Прія Гойал, Росс Гіршик, Каймінг Хе і Петро Доллар у роботі
«Focal Loss for Dense Object Detection» [78] представили нову функцію втрат що
дає змогу зменшити вплив дисбалансу об'єктів і фону, який виникає під час
навчанні СНС для завдання локалізації об'єктів на зображенні. Автори
запропонували усунути цей класовий дисбаланс, змінивши крос-ентропійну
функцію втрат так, щоб вона знизила вагу втрат, привласнюваних добре
класифікованим об'єктам. Для оцінки ефективності запропонованої функції втрат
автори розробили і навчили СНС RetinaNet. Результати експериментів показали,
що при навчанні НС із втратою Focal Loss точність локалізації збільшується.
Незважаючи на те, що в загальному вигляді основні архітектури виявлення
об'єктів, засновані на СНС, можна розділити на дві категорії, існує величезна
кількість функцій, які покращують точність СНС. Деякі функції працюють
виключно з певними моделями і виключно для певних завдань або тільки для
невеликих наборів даних. Інші ж функції, як-от пакетна нормалізація і залишкові
з'єднання, застосовні до більшості моделей, завдань і наборів даних. У роботі
«YOLOv4: Optimal Speedand Accuracy of Object Detection» [79] Олексій
Бочковськийб Цзянь-Яо Ван і ХунЮань Марк Ляо запропонували нову архітектуру
СНС YOLOv4. Автори застосували такі універсальні функції, як: зважені
залишкові сполуки (WRC)[80], між етапні часткові з'єднання (CSP) [81], крос-міні-
пакетну нормалізацію (CmBN) [82], самозмагальне навчання (SAT) [83] і активацію
Mish [84], збільшення даних Mosaic, регуляризацію DropBlock [85] і втрату CIoU
[86]. На час публікації роботи YOLOv4, дана СНС перевершила всі відомі
альтернативні методи локалізації об'єктів на зображенні.
Більшість сучасних архітектур СНС для завдання локалізації об'єктів, такі
як RetinaNet, SSD, YOLOv4, Faster R-CNN тощо, покладаються на заздалегідь
визначені якірні блоки. У роботі «FreeAnchor: Learning to MatchAnchors for Visual
Object Detection» [87] Сяосун Чжан, Фанг Ван, Чанг Лю, Жунжун Цзі та Цисян Е.
запропонували новий метод, що дає змогу коригувати створене вручну якірні блоки
39
в процесі навчання СНС. Оскільки масштаби та співвідношення сторін якірних
блоків змінюються в процесі навчання СНС методика основі FreeAnchor дають
змогу точніше локалізувати об'єкти з великими варіаціями форми.
Чжі Тянь, Чуньхуа Шень, Хао Чен і Тонг Хе в роботі «FCOS:
FullyConvolutional One-Stage Object Detection» [88] запропонували повністю
згорткову архітектуру НС FCOS. FCOS не містить якірних блоків і здійснює
локалізацію об'єктів на зображенні методом попіксельного передбачення,
аналогічно семантичній сегментації. За рахунок виключення зумовленого набору
якірних блоків FCOS уникає обчислень усіх параметрів, пов'язаних з якірними
блоками.
Сучасні методи локалізації, як правило, визначають рамку, що обмежує
об'єкт. Обмежувальна рамка зручна у використанні, але забезпечує тільки грубу
локалізацію об'єктів і відповідно призводить до грубого вилучення ознак об'єкта. У
роботі «RepPoints: Point SetRepresentation for Object Detection» [89] Цзе Ян,
Шаохуей Лю, Хан Ху, Лівей Ван і Стівен Лінь запропонували новий метод
локалізації об'єктів на зображенні під назвою RPDet. Основна ідея методу RPDet
полягає в описі об'єктів на зображенні не тільки як прямокутник, що обмежує
об'єкт, а й опис вибіркових точок, що дають змогу обмежувати просторову
протяжність об'єкта і вказувати семантично значущі локальні області .
У таблиці 2.1 наведено порівняння поширених архітектур СНС для завдання
локалізації об'єктів на зображенні. Метрики було отримано на основі наборів
інструментів для локалізації зображень MMDetection [73]. Усі дані були отримані
на графічному процесорі NVIDIA Tesla V100 для відкритого набору зображень
COCO 2017 [90]. Як метрика точності використовується mean average precision
(mAP) - стандартна метрика вимірювання точності методів локалізації об'єктів на
зображенні для набору даних COCO [90].
40
Таблиця 2.1 - Тестування методів локалізації
Метод Базова Середня точність Час обробки
структура (mAP) одного кадру
(мс)
Faster R-CNN ResNet-50 37.4 46.6
ResNet-101 39.4 64.1
Cascade R-CNN ResNet-50 40.3 62.1
ResNet-101 42.0 74.0
SSD300 VGG16 25.6 22.8
SSD512 VGG16 29.4 32.5
RetinaNet ResNet-50 37.4 52.6
ResNet-101 38.9 66.7
FCOS ResNet-50 36.6 44.1
ResNet-101 39.1 57.8
Mask R-CNN ResNet-50 38.2 62.1
ResNet-101 40.0 74.1
RepPoints ResNet-50 37.0 54.1
ResNet-101 40.5 72.9
FreeAnchor ResNet-50 38.7 54.3
ResNet-101 40.3 67.1
YOLOv4 CSPDarknet53 43.5 15.3
Сучасні методи аналізу зображень, засновані на СНС, швидко
розвиваються. розвиваються і показують вражаючі результати. Однак такі методи
не позбавлені недоліків. Одним із вразливих місць таких методів є високе
обчислювальне навантаження. однак, сучасні обчислювальні технології поряд з
одноступеневими архітектурами дають змогу проводити аналіз зображень у
реальному часі. Ще одним вразливим місцем є необхідність великих наборів
анотованих даних для навчання СНС.
41
2.6 Вибір методу локалізації об'єктів
Оскільки ТЗ є одним з основних об'єктів, присутніх у багатьох класичних
наборах даних виявлення і розпізнавання, таких як PASCAL-VOC [91], ImageNet
[35] та COCO 2017, тому доцільно не навчати нейромережеву модель з нуля, а
використовувати відомі моделі для виявлення ТЗ, обравши їх з урахуванням
кількох критеріїв. З одного боку, необхідна висока швидкість обробки зображення,
з іншого боку, необхідна висока точність, оскільки будь-який виявлений ТЗ буде
піддано подальшому аналізу. Відповідна точність локалізації визначає точність
наступних кроків.
Розгортання моделей, навчених на загальнодоступних наборах зображень у
великомасштабній мережі реальних камер, може призвести до зниження
продуктивності через недостатнє різноманіття цільового набору даних. Для оцінки
узагальнювальної здатності до зовнішніх чинників кожен представлений метод
було протестовано на незалежному наборі зображень. В як тестову множину
використовують новий набір даних (ФВФ), що містить понад 49000 зображень, на
яких присутні понад 61000 автомобілів. Дані були отримані з камери
фотовідеофіксації на дорогах. Роздільна здатність кожного зображення 2448x2048.
Зображення отримано за різної освітленості, різних погодних умов. Приклади
зображень подано на рисунку 2.7.
Таким чином, для вибору методу локалізації ТЗ було проведено
кросвалідаційне тестування сучасних методів локалізації об'єктів, розроблених
спеціально для практичних завдань, що аналізують відеопотік у
реальному часі: YOLOv4[92], MobileNetV2_SSD [93], RetinaNet_ResNet50
[94], FCOS_ResNet-50 [95], MobileNetV1_SSD [96]. На етапі виявлення ТЗ не було
внесено жодних змін або уточнень в обрані моделі, методи використовувалися, як
чорні скриньки, об'єднуючи вихідні дані, пов'язані з ТЗ (тобто автомобілями та
автобусами), та ігноруючи інші класи об'єктів на зображенні. Результати крос-
валідаційного тестування представлені в таблиці 2.2.
42
Рисунок 2.7 - Приклади зображень набору даних
Таблиця 2.2 - Крос-валідаційне тестування методів локалізації
Метод Середня
точність (mAP)
YOLOv4 0.97
YOLOv3 0.94
MobileNetV2_SSD 0.85
RetinaNet_ResNet50 0.83
FCOS_ ResNet-50 0.81
MobileNetV1_SSD 0.74
43
Висновки з розділу 2
На основі результатів крос-валідаційного тестування методів локалізації
об'єктів на зображенні для першого кроку каскадного підходу оцінювання ракурсу
об'єкта інтересу було обрано одноступеневу СНС YOLOv4, що забезпечує метрику
якості локалізації ТЗ на зображенні (AP) 97%, перевершуючи аналоги більш ніж на
12%. Архітектура СНС YOLOv4 розроблена спеціально для практичних завдань,
що аналізують відеопотік у реальному часу. Виходячи з отриманих результатів,
СНС YOLOv4 стійко працює за різних умов спостереження. СНС YOLOv4 дає
змогу відрізняти легкові, вантажні автомобілі, а також автобуси.
44
РОЗДІЛ 3
МЕТОД СЕГМЕНТАЦІЇ ЛОКАЛІЗОВАНИХ ОБ'ЄКТІВ НА
ЗОБРАЖЕННІ
3.1 Загальні відомості
Розбиття зображення на множину зв'язних областей, що не перетинаються
дає змогу більш детально проводити аналіз зображення. Сегментація зображень дає
змогу перейти до опису сцени як композиції об'єктів, що мають форму, площу,
взаємне розташування, яскравісні та текстурні ознаки.
Формально постановку завдання сегментації можна описати так чином.
Нехай R - уся просторова область, яку займає зображення, тоді сегментація - процес
розбиття R на n підобластей (частин) R1, R2, ..., Rn так, що:
1) Кожен піксель повинен належати одній із підобластей ⋃ =1 =
2) Точки в області Ri мають бути пов'язані, i=1, 2, ..., ..., n
3) Області мають бути такими, що не перетинаються Ri∩Rj=∅ для будь-яких
i і j, i≠j, де ∩ - операція перетину множин, ∅ - порожня множина.
4) Q(Ri)=TRUE для i = 1, 2, ..., ..., n, де Q(Ri) - логічний предикат, визначений
на точках множини Ri, що набуває істинного або хибного значення.
5) Q(Ri∪Rj)=FALSE для будь-яких суміжних областей Ri і Rj де ∪ - операція
об'єднання множин.
Нині існує безліч методів сегментації зображень. Далі будуть розглянуті
широко використовувані методи сегментації зображень зображень, засновані як на
класичних методах, так і на основі НС.
45
3.2 Виявлення контурів
Методи виявлення контурів - це методи сегментації, засновані на виявленні
різких локальних змін яскравості зображення. Контур - це набір пов'язаних
пікселів, який лежить на межі між двома областями зображення. Контури можна
витягти, проаналізувавши зображення за яскравістю, кольором, текстурою тощо.
Для виявлення контурів використовують різні методи [97]. Найбільш
популярними є методи:
1) на основі градієнта, які виконують сегментацію зображення аналізуючи
різку зміну інтенсивності;
2) на основі гістограми яскравості зображення, що відокремлюють передній
план від фону шляхом вибору порогового значення.
В основі градієнтних методів виявлення контурів лежать оператори: Собеля,
Кенні, Лапласа тощо. Ці методи безпосередньо залежать від рівня шуму на
зображенні. Шум може викликати визначення численних нерелевантних контурів.
Такі методи корисні для виявлення контурів на зображенні і підходять для
зображень із високим відношенням сигнал-шум.
На практиці методи виділення контурів для завдання сегментації
використовуються з подальшою обробкою [98], наприклад, пошук замкнутих
контурів, простежування контурів, аналіз на основі графів тощо.
3.3 Порогова сегментація
Під час сегментації на основі порогів вхідне зображення розділяється на дві
або більше частин шляхом порівняння з попередньо визначеним пороговим
значенням. Операція порогового поділу полягає в зіставленні значення яскравості
кожного пікселя зображення із заданим значенням порога. Розрізняють три типи
порогових методів: локальний, глобальний і адаптивний [99].
46
Метод порогової сегментації використовують для зображень, що мають
світлий об'єкт на темному тлі або темний об'єкт на світлому тлі.
3.4 Сегментація за регіонами
Методи на основі регіонів поділяють зображення на області за принципом
однорідності. Розбиття здійснюється з урахуванням однорідності сусідніх пікселів
усередині області та відмінності з пікселями, що знаходяться в інших областях. Цей
метод ділить зображення на різні області на основі попередньо визначених
критеріїв, включно з кольором, яскравістю тощо. Різні типи сегментації на основі
регіонів включають в себе вирощування, поділ, об'єднання і методи на основі
графів.
Метод вирощування регіону сегментує зображення на основі подібності
кожного пікселя із сусіднім пікселем шляхом порівняння різних властивостей
зображення, таких як яскравість, колір тощо. Основна ідея цього методу полягає в
тому, щоб згрупувати пікселі на зображенні зі схожими властивостями для
формування області. Для початку відбувається вибір початкової точки, званої
початковим пікселем. Потім область збільшується шляхом додавання аналогічних
сусідніх пікселів відповідно до певного критерію однорідності, поступово
збільшуючи розмір області. На основі критерію однорідності визначається, чи
належить піксель до зростаючої області чи ні [100].
У методі поділу та об'єднання регіонів зображення розділяється на набір
довільних не пов'язаних між собою областей. Метод рекурсивно розділяє вхідне
зображення на кілька менших областей. Основною метою є виявлення однорідності
зображення. Спочатку зображення розглядається, як одна окрема область, після
чого відбувається поділ на чотири квадранти на основі визначених попередньо
критеріїв однорідності. Після чого для кожного з отриманих квадрантів
повторюється процес поділу. Процес триває доти, доки критерії не будуть виконані
або подальший поділ буде неможливим [101].
47
Недоліком методів сегментації за регіонами є складність підбору критеріїв
однорідності, оскільки занадто суворі критерії створюють фрагментовані області,
а м'які не враховують розмиті області.
3.5 Сегментація на основі кластеризації
Алгоритми кластеризації використовують схожі властивості зображення,
такі як як-от: відстань між пікселями, їхній колір, яскравість тощо. Алгоритми
кластеризації ділять зображення на регіони схожих властивостей, включно зі
значеннями відстані, яскравості тощо. Критерії схожості визначаються між
пікселями, а потім подібні пікселі групуються разом для формування кластерів.
Групування пікселів у кластери ґрунтується на принципі максимізації
внутрішньокласових подібностей і міжкласових відмінностей. Алгоритми
кластеризації не використовують навчальні дані, замість цього вони дають змогу
виконати завдання сегментації зображення без учителя [102].
Методи кластеризації можна розділити на дві категорії: жорстка і м'яка
кластеризації. У жорсткій кластеризації дані діляться на кілька унікальних
кластерів, де кожен компонент даних належить одному кластеру. Одним із
найбільш популярних і широко використовуваних алгоритмів жорсткої
кластеризації є алгоритм кластеризації к-середніх [103]. К-середніх – алгоритм
кластерного аналізу, метою якого є поділ n спостережень (зокрема множини
пікселів зображення) на заздалегідь визначене число кластерів k, мінімізуючи
середньоквадратичне відхилення на точках кожного кластера.
У м'якій кластеризації елементи зображення можуть належати більш ніж
одному кластеру з певним ступенем відношення. Кластеризація з середніх [104] -
це тип м'якого алгоритму кластеризації, який можна використовувати в ситуаціях,
коли немає певних меж між різними об'єктами в зображенні. Нечітка кластеризація
розділяє вхідні пікселі на кластери або групи на основі різних критеріїв подібності,
таких як відстань, зв'язність і яскравість.
48
3.6 Сегментація на основі розрізу графа
Методи, засновані на поданні зображення у вигляді зваженого
неорієнтованого графа, можуть неорієнтованого графа, можуть бути ефективно
застосовані для завдання сегментації [104-109]. Зазвичай як вершини графа
виступають пікселі зображення, а ваги ребер визначають відмінність сусідніх
пікселів. Граф, отриманий на основі зображення, розрізається згідно з критерієм,
створеним для отримання кластерів. Кожна частина вершин, вважається об'єктом
на зображенні.
Одним із широко поширених методів сегментації зображення на основі
розрізу графа є GrabCut [110]. основі розрізу графа є GrabCut [110]. GrabCut являє
собою розширення алгоритму GraphCut [111] для ітеративної сегментації
кольорових зображень і спрощення взаємодії з користувачем, необхідної для
заданої якості результатів сегментації. Алгоритм GrabCut вивчає колірні розподіли
переднього плану і фону, присвоюючи кожному пікселю ймовірність
приналежності до групи інших пікселів. Виходячи з колірного розподілу всередині
і зовні локалізованого об'єкта, моделлю гаусової суміші будується початковий
розподіл кольору цільового об'єкта і фону, що використовується для побудови
марковського випадкового поля з енергетичною функцією, яка віддає перевагу
з'єднаним пікселям, які мають один і той самий клас. Після чого запускається
оптимізаційний метод, заснований на мінімальному розрізі графа.
Кольорове зображення I розглянемо як масив = ( 1......) з пікселів,
де = (1, 2, 3) - значення інтенсивності пікселя в кожному каналі колірного
простору, ∈ [1...]. Для відокремлення об'єкта від фону визначається значення
елементів прозорості як масив = (1...), ∈ {0, 1}, де -четверта колірна
складова у використовуваному колірному просторі що вказує, чи належить він
фону або передньому плану.
Кроки алгоритму:
1) Ініціалізація. Новизна технології GrabCut полягає в «неповному
маркуванні», яке дає змогу знизити ступінь взаємодії з користувачем. Взаємодія з
49
користувачем полягає просто у зазначенні тільки пікселів фону шляхом вказівки
прямокутника навколо об'єкта інтересу. Процес ініціалізації GrabCut працює таким
чином. На основі вказаного прямокутника навколо об'єкта інтересу формується
попередня сегментація = {TB, TU, TF}. Дві області TB і TU містять початковий
фон і невизначені пікселі відповідно, тоді як TF = 0. Початковий TB визначається
як пікселі навколо зовнішньої сторони позначеного прямокутника. Пікселі, що
належать TB, розглядаються як фіксований фон, тоді як пікселі, що належать TU,
будуть позначені алгоритмом, як невизначені.
2) Створюється початкова сегментація зображення = (1... ), ∈ {0,
1}, де всі невідомі пікселі попередньо розміщені в класі переднього плану ( = 1
для ∈ TU) і всі відомі фонові пікселі поміщаються у клас фону ( = 0 для ∈ TB).
3) Визначено дві моделі повної коваріаційної гаусової суміші (GMM), кожна
з яких складається з = 5 компонентів, одна для фонових пікселів ( =
0), а інша для передніх (спочатку невідомих) пікселів ( = 1). Компоненти
GMM ініціалізуються з класів переднього плану і фону з використанням техніки
кластеризації Орчарда і Бумана. Остаточна сегментація сегментація виконується з
використанням ітеративного алгоритму мінімізації енергії Graph Cut.
4) Кожен піксель у класі переднього плану призначається найбільш
ймовірному компоненту в GMM. Точно так само кожен піксель у фоновому класі
призначається найімовірнішому фоновому гауссовському компоненту.
5) Нові GMM витягуються з наборів пікселів, які були створені на
попередньому кроці.
6) Будується зважений граф і запускається алгоритм Graph Cut, щоб знайти
новий пріоритет і класифікувати пікселі фону та переднього плану.
7) Кроки 4-6 повторюються, поки класифікація не сходиться.
50
3.7 Нейромережеві методи сегментації
Методи сегментації зображень на основі СНС можна розділити на три
категорії: на основі регіонів, повносверткові НС і слабо контрольована сегментація.
Методи на основі регіонів спочатку витягують області довільної форми із
зображення й описують їх, після чого проводять класифікацію на основі регіонів.
Маркування пікселя проводиться відповідно до області найвищої оцінки, яка його
містить [112].
Основна ідея методів, заснованих на повнопівнічних НС [113-115], полягає
в тому, що вони дають змогу здійснювати сегментацію зображення без вилучення
пропозицій за регіонами. Конвеєр повнопівнічних НС є продовженням класичних
СНС. Основна ідея полягає в тому, щоб змусити класичну СНС приймати як вхідні
дані зображення довільного розміру. Обмеження СНС на аналіз зображень строго
заданого розміру походить із повністю пов'язаних шарів, які за визначенням є
фіксованими. На відміну від них повносверткові НС мають лише згортувальний та
об'єднувальний шари, які дають їм можливість робити прогнози на входах
довільного розміру. Розмір виведення повносверткових НС залежить від розміру
вихідного зображення, а не завжди призводить до виведення фіксованого розміру.
Таким чином, ці типи мереж зазвичай використовуються для локальних, а не
глобальних завдань (тобто семантична сегментація [113] або виявлення об'єкта
[116] замість класифікації об'єкта [117]).
Більшість нейромережевих методів семантичної сегментації в процесі
навчання НС покладаються на велику кількість зображень з анотованими
піксельними масками сегментації. піксельними масками сегментації. Однак ручна
розмітка таких масок є досить трудомістким і комерційно дорогим процесом. Тому
останнім часом час були запропоновані деякі слабо контрольовані методи,
призначені для виконання семантичної сегментації з використанням анотованих
обмежувальних рамок або навіть міток рівня зображення(класів об'єктів, присутніх
на зображенні). Наприклад, у методі [118] автори використовували анотації
обмежувального прямокутника як контролю для навчання мережі та ітеративно
51
поліпшили оціночні маски для семантичної сегментації. Папандреу і співавтори
[119] запропонували метод очікування-максимізації для навчання моделей
семантичної сегментації зі слабко анотованими даними, тобто анотації на рівні
зображення або рамки, що рамки, що обмежує об'єкт, і виявили, що використання
тільки анотації на рівні зображення було недостатньо для навчання високоякісної
моделі сегментації. У разі використання як анотації прямокутні рамки, що
обмежують об'єкти, можна отримати конкурентну модель з анотацією на рівні
пікселів. Для вирішення завдання семантичної сегментації зі слабким контролем
Хорєва та співавтори [120] запропонували новий метод навчання СНС при
використанні анотації обмежувального прямокутника. Використавши методи
сегментації класичного комп'ютерного зору та рекурсивне навчання, за якого
передбачення СНС попередньої ітерації навчання використовують як контролю для
наступної ітерації. Ретельно розробивши вхідні мітки із заданих обмежувальних
рамок, вони досягли ∼ 95% якості повністю контрольованої моделі з тією ж
процедурою навчання.
3.8 Вимоги до методу
У результаті огляду сучасних методів сегментації зображень було
встановлено, що сучасні класичні методи не забезпечують достатньої точності
сегментації для завдання оцінювання ракурсу, а нейромережеві методи вимагають
великих наборів анотованих даних і є неефективними через повільної швидкості
аналізу. Таким чином, для створення телевізійної системи аналізу навколишнього
простору безпілотного транспорту потрібно розробити новий метод сегментації
зображень на основі апріорних знань про місцезнаходження об'єкта на зображенні.
Розроблений метод має забезпечувати вилучення інформації, необхідної для
визначення ракурсу автомобіля. У результаті обробки зображення має бути
видалено нерелевантну інформацію навколо об'єкта інтересу для подальшого
аналізу.
52
3.9 Сегментація зображень на основі полярного перетворення та
пошуку найкоротшого шляху у зваженому графі
Результатом локалізації є інформація про місце розташування об'єктів на
зображенні (x, y, w, h, c, p), де (x, y) - координати центру прямокутника, що обмежує
об'єкт прямокутника, що обмежує об'єкт, (w, h) - ширина і висота об'єкта на
зображенні відповідно, c - клас об'єкта (обраний метод дає змогу відрізняти легкові
і вантажні автомобілі, а також автобуси), p - імовірність правильного передбачення
класу об'єкта. Ґрунтуючись на даних, отриманих методом локалізації об'єктів,
розроблено новий метод автоматичної сегментації зображень.
Основні кроки методу:
Крок 1. Масштабування зображення.
Вихідне зображення (рис. 3.1, а) масштабується за допомогою методу
білінійної інтерполяції [121] таким чином, щоб співвідношення сторін становило
1:1 (рис. 3.1, б).
Рисунок 3.1 - а) вихідне зображення; б) масштабоване зображення
Крок 2. Перетворення зображення з декартової системи координат у
полярну.
Нехай масштабоване зображення локалізованого об'єкта має роздільну
здатність (W, H). Кожен піксель зображення перетворюється в полярну систему
координат, використовуючи центр зображення як початок координат
53
3.1
3.2
Скориставшись рівняннями 3.1 і 3.2, перетворимо зображення з декартової
системи координат у полярну. Перетворення зображення в полярну систему
координат дає змогу описати зовнішній контур об'єкта в усьому діапазоні
полярного кута (0 < ≤ 2). Представимо результат полярного перетворення в
прямокутній системі координат з роздільною здатністю (; ℎ) (рис. 3.2).
Рисунок 3.2 - Результат полярного перетворення, представлений у
декартовій системі координат
Крок 3. Формування контурного препарату зображення.
Для подальшого аналізу формується контурний препарат зображення,
зробивши операцію згортання зображення оператором Собеля () з ядром
розміру13×13. Фільтрація зображення ядром великого розміру дає змогу
аналізувати велику область, що забезпечує стійкість до шумів
54
Унаслідок того, що контур об’єкта, перетвореного в полярну систему
координат, розташований у діапазоні (0 < ≤ 2), для формування контурного
препарату зображення необхідно провести операцію згортання зображення
оператором Собеля за однією координатою (координатою полярного радіуса)
На рисунку 3.3 представлено приклад результату формування контурного
препарату зображення.
Рисунок 3.3 – контурний препарат зображення
Крок 4. Пошук найкоротшого шляху у зваженому графі.
Уявімо контурний препарат конт.(φ, r) у вигляді орієнтованого зваженого
графа G. Як множину вершин графа будемо використовувати множину пікселів
контуру. Ребрами з’єднані тільки сусідні пікселі, при тому два пікселі q і p, є
сусідніми, якщо задовольняють умові:
де ′, ′; ′, ′ - координати пікселів q і p у поданні графа в прямокутній
системі координат, відповідно.
55
Розгляд ребер тільки між найближчими сусідами виправданий тим, що під
час сегментації ставиться мета виділення однозв’язних областей зображення. Під
однозв’язною областю розумітимемо фрагмент зображення між будь-якими двома
пікселями якого існує шлях, складений з відрізків, що з’єднують найближчих
сусідів і не перетинають межі сегмента. Таким чином, кожен піксель,
розташований не на межі зображення, має вісім найближчих сусідів, з якими він
з’єднаний ребрами. Чотири точки по кутах зображення мають усього по три
найближчих сусіда. Точки, розташовані на межі зображення, мають по п’ять
найближчих сусідів.
Значний вплив на результати сегментації має вибір функції, що визначає
вагу ребра, яка характеризує міру схожості двох найближчих сусідів. Виходячи з
того, що локалізований об’єкт займає більшу частину зображення, тобто зовнішній
контур об’єкта розташований поблизу найбільшого радіуса, ваги ребер, що
розділяють два пікселі, в точці з координатами q і p, представимо як:
Виходячи з того, що зовнішній контур об’єкта розташований у всьому
діапазоні полярного кута від 0 до 2π, задачу виділення зовнішнього контуру об’єкта
() на зображенні можна уявити, як пошук найкоротшого шляху у зваженому
графі. За початкову і кінцеву вершини графа беруть пікселі з координатами (0,ℎ/2)
і (,ℎ/2), відповідно. Таким чином, щоб знайти зовнішній контур об’єкта,
необхідно знайти шлях найменшої ваги. З наявного розмаїття методів, що
використовують теорію графів, було обрано алгоритм пошуку найкоротшого
шляху «A-star» (A*) [122]. A* знаходить шлях найменшої ваги від заданої
початкової вершини до цільової вершини. A* слідує шляхом найменших відомих
евристичних витрат:
56
де g(v) – найменша відстань від стартової вершини до поточного положення,
h(v) – евристична функція (манхеттенська відстань), наближення відстані від
поточного місця розташування до кінцевої мети.
На рисунку 3.4 представлено результуючий шлях із найменшою вагою,
знайдений алгоритмом A*.
Рис. 3.4 – результат виділення найкоротшого шляху по графу
Крок 5. Формування маски об'єкта.
Використовуючи зворотне перетворення рівнянь 3.1 і 3.2, перетворимо
отриманий шлях у декартову систему координат з подальшою заливкою області
всередині контуру і зіставленням з вихідним зображенням. Результат операції
представлений на рисунку 3.5.
Рисунок 3.5 - Результат роботи методу сегментації
57
У таблиці 3.1 представлено результат застосування розробленого методу
сегментації зображень до різних класів об'єктів бази Pascal VOC [91].
Таблиця 3.1 - Приклад сегментації об'єктів
Вихі Сегментоване
зображення бази даних Результат
дне
VOC Сегментоване роботи
зображення зображення
запропонованого
методу
58
3.10 Експериментальне дослідження точності методу автоматичної
сегментації зображення
Для оцінки розробленого методу та порівняння з наявними рішеннями було
використано набір даних CARVANA [42]. Набір даних CARVANA містить 5088
зображень ТЗ різних класів, а також маски для кожного зображення.
Локалізація ТС проводилася на основі СНС YOLOv4 (рис. 3.6). Зображення,
всередині обмежене прямокутною рамкою, використовували як вхідні дані для
алгоритмів сегментації.
Рисунок 3.6 - а) приклад зображення з набору даних CARVANA б)
приклад локалізації ТЗ СНС YOLOv4
Як міру подібності отриманих масок сегментованих об'єктів
використовується коефіцієнт Жаккара, що оцінює схожість між сегментованим і
розміченим зображеннями:
де, TP - вірно сегментований об'єкт, TN - вірно сегментований фон, FP -
невірно сегментований об'єкт.
Для порівняння розробленого методу з аналогами, було обрано три широко
поширених методи сегментації зображень: K-Means, GrabCut іDEEPLABv3.
Отримані результати представлені в таблиці 3.2. У таблиці 3.3 подано
приклади роботи методів сегментації.
59
Таблиця 3.2 - Порівняння методів сегментації
Метод сегментації Міра подібності Жаккара
k-means 0.55
GrabCut 0.79
DEEPLABv3 0.83
Запропонований метод 0.89
Таблиця 3.3 - Приклади сегментації зображень
Запропонований k-means GrabCut DEEPLABv3
метод
Однією з важливих властивостей методу сегментації є здатність аналізувати
віддалені об'єкти, що мають низьку деталізацію. У таблиці 3.4 подано результати
60
розробленого методу сегментації за різної роздільної здатності роздільній здатності
вихідного зображення.
Таблиця 3.4 - Результати сегментації зображень за різної роздільної
здатності
Роздільна здатність
50×50 100×100 200×200 300×300 400×400 500×500
аналізованого
зображення
0.82 0.86 0.88 0.88 0.89 0.87
Міра подібності
Жаккара
Для надійного функціонування методу сегментації зображень, важливими
параметрами є його стійкість до шуму та величина помилки вимірювань,
спричинена шумами різного виду та інтенсивності. На роботу методу сегментації
зображення можуть впливати шуми різного виду. Вони можуть бути спричинені
різними факторами роботи системи.
До кожного із зображень тестової вибірки було додано шум різного виду
(імпульсний, мультиплікативний та адитивний білий гауссовський шум).
Експериментальна перевірка запропонованого методу проводилася для значень
пікового відношення сигнал-шум (ПВСШ) складових (20, 30, 40, 50) дБ.
ПВСШ для двох зображень I і K розміру m×n рахується таким чином
чином:
Для дослідження впливу шуму на розроблений метод сегментації до вхідних
зображень було додано шуми таких моделей:
- Адитивний білий гауссовський шум (АБГШ).
61
де f(x, y) - вихідне зображення, (x, y) - не залежний від зображення шум із
рівномірною спектральною щільністю і нормально розподіленим значенням
амплітуди. У таблиці 3.5 наведено значення міри подібності Жаккара для
зображень із додаванням АБГШ.
Таблиця 3.5 - Результати сегментації при додаванні АБГШ
Методи ПВСШ, дБ
20 30 40 50
Розроблений метод 0.79 0.82 0.85 0.87
GrabCut 0.59 0.65 0.76 0.79
DEEPLABv3 0.76 0.78 0.82 0.83
- Мультиплікативний шум:
У таблиці 3.6 наведено значення міри подібності Жаккара для зображень з
додаванням мультиплікативного шуму.
Таблиця 3.6 - Результати сегментації при додаванні мультиплікативного
шуму
Методи ПВСШ, дБ
20 30 40 50
Розроблений метод 0.80 0.84 0.86 0.87
GrabCut 0.53 0.66 0.76 0.79
DEEPLABv3 0.74 0.76 0.78 0.81
- Імпульсний шум типу «сіль». Заміна значення n випадкових пікселів на
максимальне значення, що приймається пікселем зображення. У таблиці
3.7наведено значення міри подібності Жаккара для зображень із додаванням шуму
типу «сіль».
62
Таблиця 3.7 - Результати сегментації при додаванні шуму типу «сіль»
Методи ПВСШ, дБ
20 30 40 50
Розроблений метод 0.79 0.82 0.86 0.87
GrabCut 0.63 0.75 0.77 0.78
DEEPLABv3 0.65 0.71 0.79 0.81
- Імпульсний шум типу «перець». Заміна значення n випадкових пікселів на
0. У таблиці 3.8 наведено значення міри подібності Жаккара для зображень із
додаванням шуму типу «перець».
Таблиця 3.8 - Результати сегментації при додаванні шуму типу «перець»
Методи ПВСШ, дБ
20 30 40 50
Розроблений метод 0.78 0.79 0.84 0.86
GrabCut 0.75 0.78 0.79 0.79
DEEPLABv3 0.65 0.75 0.80 0.81
- Шум «сіль і перець» видається виразом:
де i(x, y) - модель імпульсного шуму, p - бінарний параметр зі значеннями 1
і 0, який і відображає максимальні та мінімальні значення пікселя - «сіль» і
«перець». У таблиці 3.9 наведено значення міри подібності Жаккара для зображень
із додаванням шуму типу «сіль і перець».
63
Таблиця 3.9 - Результати сегментації при додаванні шуму типу «сіль і
перець»
Методи ПВСШ, дБ
20 30 40 50
Розроблений метод 0.79 0.80 0.84 0.86
GrabCut 0.73 0.77 0.78 0.78
DEEPLABv3 0.71 0.75 0.80 0.80
На рисунках 3.7 і 3.8 наведено приклади зображень із додаванням шуму та
результати роботи розробленого методу автоматичної сегментації ТЗ.
Рисунок 3.7 - Приклади сегментації зображень. ПВСШ ( 20 дБ)
64
Рисунок 3.8 - Приклади сегментації зображень. ПВСШ ( 30 дБ)
Для оцінювання ефективності роботи методів сегментації на реальних
відеопослідовностях систем відеоспостереження використовувалася тестова
множина CDnet2014. Ця множина являє собою типовий набір даних, що містять
реальні відеопослідовності систем відеоспостереження з масками об'єктів
65
переднього плану. Ці послідовності отримано в 69 різних умовах спостереження:
динамічний фон, джиттер камери, тіні, різна погода, нічний час, PTZ тощо.
Отримані результати наведено в таблиці 3.10. У таблиці 3.11 наведено
приклади сегментації зображень розробленим методом на наборі даних CDnet2014.
Приклади сегментації зображень розробленим методом в умовах часткової оклюзії
та низької роздільної здатності на наборах даних KITTI і ФВФ подано в таблицях
3.12 і 3.13 відповідно.
Таблиця 3.10 - Порівняння методів сегментації
Умови спостереження (назва
використовуваної підвибірки) Запропонов GrabCut DEEPLABV3
анийметод
Коефіцієнт Жаккара
winterStreet 0.66 0.60 0.52
blizzard 0.66 0.67 0.65
intermittentPan 0.56 0.60 0.52
twoPositionPTZCam 0.66 0.64 0.58
bungalows 0.54 0.50 0.52
winterDriveway 0.64 0.60 0.62
streetLight 0.75 0.66 0.65
parking 0.69 0.68 0.62
abandonedBox 0.47 0.52 0.45
bridgeEntry 0.63 0.59 0.52
busyBoulvard 0.63 0.46 0.64
fluidHighway 0.65 0.57 0.59
streetCornerAtNight 0.64 0.54 0.63
tramStation 0.55 0.45 0.45
66
Таблиця 3.11 - Результати сегментації розробленим методом на наборі
даних CDnet2014
67
Таблиця 3.12 - Результати сегментації розробленим методом на наборі
даних ФВФ
68
Таблиця 3.13 - Результати сегментації розробленим методом на наборі
даних KITTI
69
Висновки за розділом 3
На підставі дослідження розробленого методу автоматичної сегментації
зображень зроблено такі висновки:
- Розроблений метод сегментації зображень на основі апріорної інформації
про місцезнаходження об'єкта інтересу забезпечує точність сегментації 89%,
перевершуючи аналоги більш ніж на 6%.
- На відміну від сучасних нейромережевих методів сегментації зображень,
розроблений метод не вимагає трудомістких обчислень і ручного анотування
даних.
- У складних умовах спостереження, таких, як вплив шумів різного виду,
розроблений метод сегментації зображення за ПЗЗШ, що становить 20 Дб,
забезпечує міру схожості Жаккара 79%, 80% і 79% при впливі імпульсного,
мультиплікативного й адитивного білого гауссівського шуму відповідно.
- Видалення нерелевантної інформації дає змогу перейти до аналізу ракурсу
жорстких об'єктів на основі такої ключової особливості, як форма об'єкта.
70
РОЗДІЛ 4
ЛОКАЛІЗАЦІЯ КЛЮЧОВИХ ТОЧОК ОБ'ЄКТА НА ЗОБРАЗАННІ
ДЛЯ СИСТЕМИ БЕЗПІЛОТНОГО ВОДІННЯ
4.1 Аналіз методів локалізації ключових точок об'єкта на зображенні
Задача локалізації безлічі ключових точок ТЗ не має широкої популярності
у сфері оброблення зображень. Як правило, визначення місця розташування
ключових точок ТЗ вирішуються в рамках таких завдань, як визначення ракурсу
або ідентифікації ТЗ. Однак існує окрема добре вивчена задача локалізації
ключової точки ТЗ - задача локалізації номерних знаків. Завдяки інтересу до
завдань локалізації та розпізнавання номерних знаків, розроблено безліч різних
методів, а також сформовано набори зображень з анотацією місця розташування
номерного знака. Це завдання вирішували як класичними, так і нейромережевими
методами.
У роботі «Robust Real-time Object Detection» Пол Віола і Майкл Джонс
запропонували метод виявлення об'єктів на зображенні, здатний швидко обробляти
зображення при досягненні високих показників виявлення. Автори запропонували
нове «інтегральне» представлення зображення, яке дає змогу підвищити швидкість
оцінювання ознак об'єкта на зображенні. Запропонований метод використовує
каскад простих класифікаторів на основі ознак, які нагадують функції базису
Хаара. Автори використовували алгоритм навчання, заснований на AdaBoost, який
обирає невелику кількість найбільш важливих функцій для класифікації, після чого
відбувається об'єднання класифікаторів у «каскадну структуру», що дає змогу
швидко відкидати фонові області зображення, витрачаючи більше обчислень на
перспективні об'єктно-подібні області. Ідея методів фокусування уваги полягає в
тому, що часто можна швидко визначити, де на зображенні може перебувати об'єкт
71
[125, 126]. Складніша обробка призначена тільки для цих багатообіцяючих
регіонів.
Незважаючи на те, що метод був запропонований у 2001 році, він досі
залишається актуальним і часто використовується в системах автоматичного
виявлення та розпізнавання номерних знаків.
У роботі «A Dual-Path ModelWith Adaptive Attention For Vehicle
ReIdentification» [129] автори представили метод повторної ідентифікації ТЗ
(AAVER). Весь конвеєр пропонованого методу AAVER складається з трьох
основних модулів: витяг ознак; оцінка ключових точок і ракурсу; вибір ключових
точок і витяг характеристик. Для локалізації ключових точок ТЗ у цій роботі
пропонується двоетапна СНС. На першому етапі на основі СНС VGG-16 [9]
проводиться груба оцінка місця розташування 20 ключових точок ТС. На другому
етапі відбувається уточнення результатів грубої оцінки місця розташування
ключових точок. Мережа уточнення ґрунтується на архітектурі пісочного
годинника, представленої в [39], яку зазвичай використовують для уточнення
теплових карт і зменшення шуму. Поряд з уточненням оцінених ключових точок,
ракурс ТС також прогнозується через паралельну гілку, що складається з двох
повністю пов'язаних шарів, призначених для класифікації ракурсу на вісім класів.
Для оцінки продуктивності пропонованої двоетапної СНС виявлення ключових
точок автори використовують набір зображень VeRi-776 [130], середня точність
локалізації ключових точок на якому становить 97.1%.
У роботі «Vehicle pose estimation via regression of semantic points of interest»
[131] Х-Г. Лопес, А. Агудо і Ф. Морено-Ногер представили метод, що дає змогу
визначати тривимірні координати 20 заздалегідь визначених ключових точок ТЗ на
основі двовимірного зображення. Представлений метод використовує
нейромережеву архітектуру «Stack-Hourglass» [132], розроблену для оцінки
ключових точок людини. Для тестування запропонованого методу автори
використовували набір даних, що складається з понад 12077 зображень
автомобілів. Середня точність локалізації 20 ключових точок ТЗ склала 83.67%.
72
У роботі «License Plate Detection and Recognition in Unconstrained Scenarios»
[133] С.-М. Сільва і К.-Р. Юнг запропонували нову СНС WPOD-NET (Warped
Planar Object Detection Network), яка дає змогу виявляти номерні знаки на
зображенні й оцінювати їхнє спотворення. Також автори запропонували
використання синтетично деформованих версій реальних 76 зображень для
розширення набору навчальних даних, що дало змогу навчити мережу з нуля,
використовуючи менш ніж 200 зображень, позначених вручну.
СНС WPOD-NET передбачає 8-канальну карту ознак, яка кодує ймовірності
наявності об'єкта і параметри афінного перетворення, щоб вирівняти номерний
знак по вертикалі і горизонталі. Архітектура мережі має загалом 21 згортковий шар.
Кожна згортковий фільтр має розмір (3×3). Активації ReLU використовуються у
всій мережі, за винятком блоку виявлення. Блок виявлення має два паралельні
згорткові шари: один для визначення ймовірності, що активується функцією
SoftMax, та інший для регресії афінних параметрів без функції активації. Автори
не оцінювали метод локалізації номерного знака окремо від усієї системи пошуку
та розпізнавання номерного знака. Однак оцінка системи з точки зору відсотка
правильно розпізнаних номерних знаків довела ефективність запропонованого
методу. Середня точність розпізнавання номерного знака склала 92.3% на наборі
даних OpenALPR.
У роботі «DELP-DAR System for License Plate Detection and Recognition»
[135] автори запропонували систему виявлення та розпізнавання номерних знаків
DELP-DAR. Система DELP-DAR розроблена на основі сучасної НС MaskRCNN
[74]. Оскільки номерний знак є невеликим об'єктом, автори модифікували мережу
MaskRCNN, у якій скоротили початковий модуль і використовували згортку з
розміром кроку 2, завдяки чому результуючі карти ознак мають розмір в одну
восьму від вихідного вхідного зображення. Це дає змогу визначати номерний знак
навіть для невеликих пластин. А спеціально підібрані, відповідно до масштабів і
співвідношення сторін, якірні блоки дозволяють накласти додаткові обмеження на
локалізовані НС об'єкти. Для набору даних AOLP, запропонований метод
забезпечує точність і специфічність 99,1% і 99,1% відповідно.
73
Сучасні методи локалізації ключових точок об'єкта на зображенні мають
низку суттєвих недоліків: 77
- класичні методи не забезпечують достатньої точності локалізації
ключових точок для задачі оцінювання просторової орієнтації;
- нейромережеві методи потребують великих обчислювальних потужностей
і наборів анотованих даних у процесі навчання.
4.2 Вимоги до методу
Наразі системи аналізу зображень, що базуються на СНС, є найточнішими
в задачах виявлення і класифікації об'єктів дорожньої сцени. Одним із важливих
чинників для подальшого прогресу є розуміння уявлень, які вивчаються
внутрішніми шарами НС. Наразі існують методи, призначені для спроб візуальної
інтерпретації роботи СНС. Як показано в [17], ядра згорток у ранніх шарах схожі
на маски фільтрів, які використовують у багатьох популярних низькорівневих
дескрипторах об'єктів, як-от HOG [22] тощо. Глибші шари чутливі до дедалі
абстрактніших візерунків на зображенні й часто можуть бути пов'язані із
семантичними частинами об'єктів. Ці шаблони можуть навіть відповідати цілим
об'єктам або частинам об'єктів. У роботі [14] показано, що детектори об'єктів
з'являються після навчання CNN для завдання класифікації сцен. Одна й та сама
мережа може виконувати як класифікацію сцени, так і локалізацію об'єктів в
одному прямому проході без будь-якого явного навчання поняттю об'єктів
згорткових шарів НС.
Оскільки першим кроком розроблюваного каскадного підходу оцінки
просторової орієнтації ТЗ є СНС YOLOv4, необхідно розробити новий метод
локалізації ключових точок об'єкта інтересу, що базується на аналізі внутрішніх
шарів СНС. Розроблюваний метод має забезпечувати локалізацію об'єктів і
ключових точок в одному прямому проході без будь-якого явного додаткового
навчання НС. У результаті аналізу зображень мають бути виконані такі процедури:
74
- Локалізація ключових точок об'єкта - визначення на зображенні областей,
що належать до окремих частин об'єкта. 78
- Аналіз внутрішніх шарів СНС має здійснюватися без великих витрат на
анотацію даних.
Реалізація наведених етапів оброблення зображень дає змогу підвищити
інформативність методу локалізації об'єктів і уникнути потреби додаткового
аналізу.
4.3 Локалізація ключових точок на основі аналізу внутрішніх шарів
згорткової нейронної мережі
Нині багато нейромережевих архітектур, розроблених спеціально для
класифікації зображень, використовуються як базова структура (Backbone) за
замовчуванням для інших завдань, включно з виявленням і сегментацією. Базова
структура - це частина, яка перетворює зображення на абстрактні карти ознак.
Прикладом поширених базових структур є такі архітектури, як MobileNet [69],
ResNet [19], VGG [9], Darknet [79], призначені для класифікації зображень, які
використовуються без останніх повнозв'язних шарів [73]. Базову структуру СНС у
загальному вигляді можна уявити як багатоступеневий каскад послідовно
об'єднаних операцій згортки та нелінійної функції активації (рис. 4.1).
Згортковий шар є аналогом застосування декількох фільтрів до поточного
зображення, де під зображенням мається на увазі вихід попереднього шару. Кожен
згортковий шар являє собою ядро розміру M×N×C× F. F - кількість каналів
вихідного зображення, тобто кількість фільтрів. M×N×C - розмір кожного фільтра,
де M і N - відповідно ширина і висота вікна фільтра, а C - кількість каналів вхідного
зображення. Таким чином, результат самої згортки формується таким чином:
75
Рисунок 4.1 - Базова структура згортувальної нейронної мережі
В результаті кожен канал вихідного шару є свого роду картою, що
відображає наявність певної ознаки в областях значень попереднього шару. Після
згортання зазвичай також проводиться додавання деякого зміщення. Останнім
етапом згортання є застосування функції активації до всіх значень отриманої
матриці.
Як показано в [137], проміжні виходи СНС часто пов'язані із семантичними
частинами об'єктів, до того ж кілька проміжних згорткових шарів можуть бути
асоційовані з однією й тією самою частиною [141]. В останньому випадку
передбачається, що об'єднання вихідних сигналів таких шарів дає змогу
локалізувати ключову точку об'єкта інтересу.
Щоб провести аналіз кожного шару СНС, необхідно змінити її архітектуру.
Кожен шар СНС може бути потенційно значущим і нести інформацію про цікаву
семантичну частину об'єкта. Для аналізу 80 внутрішніх шарів додається вихід до
кожного згорткового шару, з подальшим масштабуванням вихідної матриці до
роздільної здатності вхідного зображення (рис. 4.2).
76
Рисунок 4.2 — Додавання вихідного каналу до базової структури
Для візуалізації запропонованого методу буде використано базову
структуру СНС VGG16, призначеної для класифікації зображень (рис. 4.3 а).
Перетворивши базову структуру СНС VGG16 запропонованим методом,
отримаємо нову архітектуру (рис. 4.3 б).
Таким чином, змінена базова структура VGG16 на виході матиме додаткову
матрицю розмірністю × × , де W і H – висота і ширина вхідного зображення
відповідно; N – кількість проміжних згорток.
77
а) б)
Рисунок 4.3 – Базова структура СНС VGG16: а – оригінальна; б –
після перетворення
78
Візуалізуючи проміжні шари, можна підтвердити припущення, зроблені в
[137] про те, що проміжні виходи СНС часто можуть бути 82 пов'язані із
семантичними частинами об'єктів. На рисунку 4.4 зображено приклади набору
зображень CARVANA [42] для двох різних ракурсів. На рисунку 4.5 зображено
деякі проміжні виходи згорткових шарів, активація яких зосереджена на різних
частинах автомобіля, отримані на основі СНС VGG16.
Рисунок 4.4 - Приклад зображень набору даних CARVANA
Рисунок 4.5 - Приклад візуалізації проміжних виходів згортувальних
шарів нейронної мережі VGG16
Як можна побачити з рисунка 4.5 різні згортки можуть активуватися на
семантично однакові частини об’єкта. З огляду на поширені функції активації,
можна агрегувати виходи найстійкіших згортків і використовувати їх для
локалізації ключових точок об’єкта інтересу.
79
Для подальшого аналізу необхідний набір анотованих даних X – множина
зображень (I) і масок (A). Набір має містити інформацію про місце розташування
k-ї частини об’єкта, що цікавить. Приклад анотації наведено на рисунку 4.6.
Рисунок 4.6 – Приклад анотації: а – вихідне зображення; б – маски частин ТЗ
Для визначення ключової точки необхідно виокремити згортувальні шари
та канали, частка зосередження активації в ділянці інтересу, в яких задовольняє
двом умовам:
- ті, що активуються в ділянці, яка цікавить
- які не активуються в області, що цікавить
де W і H - висота і ширина вхідного зображення відповідно; () - результат
функції активації i-го шару, j-го каналу, масштабований до розміру вхідного
зображення; пороги ℎ1 і ℎ2 визначаються видом функції активації, яка
використовується в аналізованій архітектурі. а б 84
80
Розгляньмо найпоширеніші функції активації, які використовуються в СНС
для задач класифікації, сегментації та локалізації об'єктів. До таких функцій
активації належать:
1) [142] = max (0, )
2) 6[69] y = min(max(x, 0), 6)
3) [142] = max (0. 1, )
Таким чином, у разі використання функції активації RelU, ℎ2 = 0
вказуватиме на повну відсутність активації нейрона в області інтересу. Елементи,
що не входять у множини ̂ і ?̃?, видаляються з додаткового вихідного шару
модифікованої архітектури СНС.
Агрегуючи дані з виходу базової структури СНС, отримано нове
зображення ′ , елементи якого, локалізовані в частині об'єкта, що цікавить, мають
найбільші значення інтенсивності (рис. 4.7):
Рисунок 4.7 - Приклад візуалізації агрегованих виходів базової
структури
81
СНС YOLOv4 приймає на вхід зображення та видає координати
прямокутника, що обмежує об'єкт: лівого верхнього кута xmin, ymin і правого
нижнього кута xmax, ymax. Для отримання координат ключової точки об'єкта на
зображенні, проводять пошук максимуму в ділянці прямокутника, що обмежує
об'єкт:
4.4 Порівняння розробленого методу та наявних рішень
Локалізація номерного знака автомобіля - одна з найпоширеніших задач
визначення частини автомобіля. Для розв'язання задачі локалізації номерного знака
розроблено багато різних методів, а також сформовано набори зображень з
анотацією місця розташування номерного знака. Цю проблему вирішували як
класичними, так і нейромережевими методами. Як наявні методи локалізації
номерних знаків розглядаються три найпоширеніші аналоги:
1) Метод Віоли - Джонса. Використовувана модель в експерименті [43].
2) WPOD-NET (Warped Planar Object Detection Network). Використовувана
модель в експерименті [44].
3) Mask-RCNN. Використовувана модель в експерименті [45].
Розв'язання задачі пошуку номерного знака на зображенні прийнято ділити
на два випадки: 1) пошук номерного знака на зображенні, що містить тільки
автомобіль; 2) пошук номерного знака на всьому кадрі без попередньої локалізації
автомобіля. У рамках дослідження в роботі будуть розглянуті обидва випадки. Як
тестовані базові структури будуть використані дві поширені архітектури СНС,
призначених для класифікації зображень VGG16 і SQEEZNET [46], а також
Darknet53 - базова структура СНС YOLOv4. Моделі VGG16 і SQEEZNET були
82
попередньо навчені для розв'язання задачі класифікації зображень на базі даних
ImageNet [35].
Експериментальна перевірка запропонованого методу проводилася з
використанням двох баз зображень:
1) ФВФ - база зображень, що містить понад 49000 зображень, на яких
присутні більш ніж 61000 ТЗ з докладною анотацією. В анотації міститься 4 точки
кутів номерного знака. Приклад зображення з розміченою анотацією наведено на
рисунку 4.8 а.
2) CCPD [47] (Chinese City Parking Dataset) - набір зображень від міської
компанії з управління паркуваннями в одній із провінційних столиць Китаю. CCPD
надає понад 250 тисяч унікальних зображень, на яких присутні номерні знаки з
докладними анотаціями. Роздільна здатність кожного зображення становить 720
(ширина) × 1160 (висота) × 3 (канали). В анотації міститься 4 точки кутів номерного
знака. CCPD має зображення при різній освітленості, навколишньому середовищі
та в різну погоду. Зображення в CCPD взяті з різних позицій і кутів. Приклад
зображення з розміченою анотацією подано на рисунку 4.8 б.
а)
б)
Рисунок 4.8 - Приклад візуалізації анотацій: а - набір зображень ФВФ;
б - набір зображень CCPD
83
Нехай А - точна маска номерного знака, B - обчислена маска номерного
знака, для визначення точності локалізації номерного знака використовується
метрики якості precision і recall:
Номерний знак вважається локалізованим, якщо значення перетину за
об'єднанням (IoU) перевищує фіксований поріг:
Для визначення точності локалізації ключової точки номерного знака
використовується метрики якості accuracy:
при тому ключова точка вважається локалізованою, якщо її координати (кл,
кл) належать області маска номерного знака.
1. Пошук номерного знака на частині зображення, що містить тільки ТЗ.
Експеримент було проведено на обох базах зображень. Для порівняння
запропонованого методу з поширеними аналогами було використано такі методи
локалізації номерного знака, як: MaskRCNN, WPOD-NET і метод Віоли - Джонса.
У таблиці 4.1 наведено точність локалізації номерного знака на базі зображень
CCPD. У таблиці 4.2 наведено точність локалізації номерного знака на базі
зображень ФВФ. У таблиці 4.3 наведено точність локалізації ключової точки на базі
зображень ФВФ.
84
Таблиця 4.1 - Точність локалізації номерних знаків на базі CCPD
IoU
Метод 0.1 0.3 0.5 0.7
precision recall precision recall precision recall precision recall
Mask- 0.98 0.76 0.98 0.76 0.98 0.75 0.86 0.66
RCNN
Віоли 0.75 0.25 0.67 0.24 0.26 0.09 0.02 0.01
—
Джонса
Sqeez-net 0.93 0.93 0.91 0.91 0.83 0.83 0.7 0.7
VGG19 0.93 0.93 0.93 0.93 0.85 0.85 0.75 0.75
WPOD- 0.99 0.97 0.99 0.97 0.92 0.9 0.39 0.39
NET
Таблиця 4.2 - Точність локалізації номерних знаків на базі зображень ФВФ
IoU
Метод 0.1 0.3 0.5 0.7
precision recall precision recall precision recall precision recall
Mask- 0.92 0.91 0.92 0.91 0.92 0.91 0.91 0.91
RCNN
Віоли - 0.89 0.71 0.87 0.71 0.65 0.66 0.49 0.49
Джонса
Sqeez- 0.93 0.93 0.91 0.91 0.83 0.83 0.7 0.7
net
VGG19 0.95 0.95 0.95 0.95 0.91 0.91 0.80 0.80
WPOD- 0.96 0.77 0.96 0.77 0.95 0.77 0.89 0.72
NET
85
Таблиця 4.3 - Точність локалізації ключової точки
Методи Accuracy
WPOD-NET 0.87
Розроблений метод (VGG19) 0.97
Розроблений метод (Sqeeznet) 0.95
Розроблений метод (Darknet53) 0.97
2. Пошук номерного знака на всьому кадрі.
Експеримент було проведено на базі зображень ФВФ. Кожне зображення
було масштабовано до роздільної здатності 512×512. Для порівняння
запропонованого методу з аналогами було використано поширений метод Mask-
RCNN. Як метрику точності локалізації номерного знака використовували метрики
precision і recall. У таблиці 4.4 наведено точність локалізації номерного знака.
Таблиця 4.4 - Точність локалізації номерних знаків на базі зображень ФВФ
IoU
Методи 0.1 0.3 0.5 0.7
precision recall precision recall precision recall precision recall
Mask-RCNN 0.95 0.68 0.95 0.68 0.95 0.68 0.90 0.64
Розроблений 0.92 0.90 0.89 0.88 0.84 0.80 0.65 0.64
метод (YoloV4)
У таблицях 4.5 і 4.6 наведено приклади локалізації номерного знака
розробленим методом на частині зображення, що містить тільки ТЗ. У таблиці 4.7
наведено приклади локалізації номерного знака розробленим методом на базі
зображень ФВФ на всьому кадрі.
86
Таблиця 4.5 - Приклад локалізації номерного знаку розробленим методом
87
Таблиця 4.6 - Приклад локалізації номерного знака розробленим методом
88
Таблиця 4.7 - Приклад локалізації номерного знака розробленим методом
Висновки за розділом 4
На підставі дослідження розробленого методу локалізації ключових точок
об'єкта на зображенні зроблено такі висновки:
- метод забезпечує частку коректної локалізації ключової точки об'єкта
інтересу 97% для базової структури Darknet53 СНС YOLOv4, у середньому
перевершуючи аналоги на 10%, такі як MaskRCNN і WPODNet. 93
- метод не потребує великих наборів анотованих даних і навчання
нейромережевої моделі.
89
- метод є інваріантним до кута між камерою та об'єктом інтересу і
забезпечує однакову точність визначення ключових точок за різних умов
спостереження.
- Широкі експерименти показують надійність і ефективність
запропонованого методу для різних базових структур СНС, частка коректної
локалізації ключової точки об'єкта інтересу для базових структур СНС VGG19 і
SqeezNet становить 97% і 95% відповідно.
90
ВИСНОВОКИ
У роботі розглянуто актуальну проблему вдосконалення систем керування
безпілотними автомобілями, зокрема, покращення методів оцінки просторової
орієнтації транспортних засобів. З огляду на статистику ДТП і значення
"людського фактора", в роботі обґрунтовано необхідність розвитку автономних
транспортних систем.
Основні завдання роботи були спрямовані на розробку каскадного підходу
аналізу відеоданих, створення нових методів автоматичної сегментації, локалізації
ключових точок та оцінки ракурсу об'єктів на основі глибоких нейронних мереж.
Проведений аналітичний огляд сучасних методів обробки відеоданих підтвердив
необхідність комплексного підходу до вирішення цих завдань.
Запропоновані методи включають ефективні алгоритми локалізації,
сегментації та аналізу руху об'єктів, які дозволяють підвищити точність і надійність
роботи систем автономного керування. Особлива увага приділена аналізу
відеопотоків у складних умовах, що є критичним для забезпечення безпеки на
дорогах.
Застосування розроблених підходів дозволяє поліпшити функціональні
можливості безпілотних автомобілів, зокрема в умовах недостатньої кількості
навчальних даних і змінних умов спостереження. Це робить вагомий внесок у
розвиток технологій автономного водіння, забезпечуючи зниження ризику ДТП та
покращення загальної безпеки дорожнього руху.