Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/5842| Title: | Інтеграція комп'ютерного зору в робототехнічні системи з використанням платформи Yolo |
| Authors: | Палагін, Володимир Васильович Самсоненко, Вадим Дмитрович |
| Keywords: | комп'ютерний зір;машинне навчання;ідентифікація;голосовий асистент |
| Issue Date: | 2024 |
| Abstract: | Метою роботи є інтеграція технологій комп'ютерного зору в робототехнічні системи з використанням платформи YOLO для розпізнавання об'єктів. Розроблено систему комп'ютерного зору, яка поєднує алгоритми YOLO для виявлення об'єктів та LBPH для розпізнавання облич, що дозволяє створювати ефективні робототехнічні платформи для автоматизованої взаємодії з навколишнім середовищем. Реалізовано моделювання сценаріїв застосування системи в робототехніці, що показало високу ефективність цієї інтеграції для вирішення завдань з автономної навігації та управління безпекою. Проєкт спрямований на вирішення важливих проблем інтеграції комп'ютерного зору в робототехнічні системи, зокрема на підвищення ефективності та зменшення навантаження на обчислювальні ресурси, що є важливим для мобільних і автономних роботизованих платформ. Зниження вимог до апаратного забезпечення дозволить застосовувати запропоновані рішення на малопотужних пристроях, що є ключовим для розробки доступних та мобільних рішень у сфері робототехніки. |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/5842 |
| Appears in Collections: | 172 Електронні комунікації та радіотехніка (Радіотехніка та робототехнічні системи) |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| М_172_Самсоненко_Палагін.pdf Restricted Access | 2.78 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
ФАКУЛЬТЕТ ЕЛЕКТРОННИХ ТЕХНОЛОГІЙ, АВТОТРАНСПОРТУ ТА
МАШИНОБУДУВАННЯ
КАФЕДРА РОБОТОТЕХНІЧНИХ І ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМ ТА
КІБЕРБЕЗПЕКИ
До захисту допущено
завідувач кафедри РТСК
д.т.н., професор
_______________ Володимир ПАЛАГІН
"_____" _____________ 2024 року
Пояснювальна записка
до дипломного роботи
магістра
(освітньо-кваліфікаційний рівень)
на тему “Інтеграція комп'ютерного зору в робототехнічні системи з
використанням платформи Yolo”
Виконав: студент 2 курсу, групи мРТ-36
напряму підготовки (спеціальності)
172 – електронні комунікації та радіотехніка
(шифр і назва напряму підготовки, спеціальності)
Самсоненко В.Д.
(прізвище та ініціали)
Керівник Палагін В.В.
(прізвище та ініціали)
Рецензент Гальченко В.Я.
(прізвище та ініціали)
Черкаси – 2024 року
Форма № Н-9.01
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Факультет електронних технологій, автотранспорту та машинобудування
Кафедра робототехнічних і телекомунікаційних систем та кібербезпеки
Освітньо-кваліфікаційний рівень магістр
Спеціальність 172 – електронні комунікації та радіотехніка
ЗАТВЕРДЖУЮ
Завідувач кафедри Володимир ПАЛАГІН
“_____” ___________________ 2024 року
ЗАВДАННЯ
НА ВИПУСКНУ РОБОТУ СТУДЕНТУ
Самсоненка Вадима Дмитровича _______________
(прізвище, ім’я, по батькові)
1. Тема проекту (роботи) Інтеграція комп'ютерного зору в робототехнічні системи з
використанням платформи Yolo
керівник проекту (роботи) Палагін Володимир Васильович
(прізвище, ім’я, по батькові, науковий ступінь, вчене звання)
затверджені наказом вищого навчального закладу від «16» вересня 2024 року № 272/04
2. Термін здачі студентом закінченої роботи “ 29” листопада 2024 року
3. Вихідні дані до роботи: Інтегровано комп’ютерний зір з використанням платформи
Yolo в голосового асистента, що є допоміжним модулем роботехнічної системи
4. Зміст розрахунково-пояснювальної записки (перелік питань, що їх належить розробити)
Аналіз існуючих рішень у сфері комп'ютерного зору, проектування системи
комп'ютерного зору з використанням yolo та lbph, практична реалізація та
тестування системи комп'ютерного зору
5. Перелік графічного матеріалу (з точним зазначенням обов’язкових креслень, плакатів)
Презентація-слайди _
.
КАЛЕНДАРНИЙ ПЛАН
№ Назва етапів дипломного проекту Термін
з/п (роботи) виконання етапів Примітка
проекту (роботи)
1. Аналіз технічного завдання та
пошук літератури 1.09.24 – 18.09.24
2. Аналіз існуючих рішень у сфері
комп'ютерного зору 19.10.24 – 24.10.24
3. Проектування системи комп'ютерного зору
з використанням yolo та LBPH 25.10.24– 06.11.24
4. Практична реалізація та тестування
системи комп'ютерного зору 07.11.24 – 18.11.24
5. Оформлення пояснювальної записки 19.11.24 – 25.11.24
6. Оформлення слайдів 26.11.24– 28.11.24
Студент___________________________________________Вадим САМСОНЕНКО
( підпис ) (прізвище та ініціали)
Керівник проекту (роботи) Володимир ПАЛАГІН
( підпис ) (прізвище та ініціали)
ЗМІСТ
ВСТУП 5
РОЗДІЛ 1. АНАЛІЗ ІСНУЮЧИХ РІШЕНЬ У СФЕРІ
КОМП'ЮТЕРНОГО ЗОРУ 7
1.1. Огляд методів комп'ютерного зору: традиційні алгоритми та сучасні
підходи 7
1.2. Класичний підхід розпізнавання облич комп’ютерним зором його
недоліки та вирішення альтернативним підхідом 11
1.3. Особливості платформи YOLO: переваги, недоліки, застосування 14
1.4. Алгоритм LBPH для розпізнавання облич: принцип роботи,
ефективність, використання з OpenCV 18
1.5. Використання комп'ютерного зору в робототехнічних системах 21
1.6. Проблематика інтеграції комп'ютерного зору в системи з обмеженими
ресурсами 27
1.7. Висновки 29
РОЗДІЛ 2. ПРОЕКТУВАННЯ СИСТЕМИ КОМП'ЮТЕРНОГО ЗОРУ З
ВИКОРИСТАННЯМ YOLO ТА LBPH 31
2.1. Архітектура системи: поєднання YOLO та LBPH 31
2.2. Алгоритм роботи системи для розпізнавання об’єктів та облич 33
2.3. Моделювання сценаріїв використання системи в робототехніці 37
2.4. Інтеграція з голосовим асистентом як допоміжним модулем 40
2.5. Висновки 43
РОЗДІЛ 3. ПРАКТИЧНА РЕАЛІЗАЦІЯ ТА ТЕСТУВАННЯ СИСТЕМИ
КОМП'ЮТЕРНОГО ЗОРУ 45
3.1. Реалізація алгоритмів YOLO та LBPH у програмному забезпеченні 45
3.2. Налаштування та навчання моделей для розпізнавання облич 47
мРТ36024409.000 ПЗ
Змн. Арк. № докум. Підпис Дата
Розроб. Самсоненко В
Інтеграція комп'ютерного зору Літ. Арк. Акрушів
Перевір. Палагін В.В. в робототехнічні системи з 3 66
Реценз. використанням платформи
Н. Контр. Палагін В.В. Yolo ЧДТУ
Затверд.
3.3. Розробка голосового асистента з інтеграцією компютерного зору 50
3.4. Тестування системи на реальних сценаріях та оцінка ефективності 59
3.5. Висновки 61
ВИСНОВКИ 63
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 65
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 4
ВСТУП
Сучасний розвиток технологій штучного інтелекту та комп'ютерного
зору відкриває нові можливості для впровадження цих інновацій в
автоматизовані системи, зокрема в робототехніку. Одним із найбільш
перспективних напрямків є інтеграція можливостей комп'ютерного зору в
роботизовані платформи, що дозволяє значно підвищити їх автономність та
ефективність. Завдяки таким технологіям, роботизовані системи не лише
здатні отримувати дані про навколишнє середовище, а й активно взаємодіяти з
ним, приймаючи обґрунтовані рішення в реальному часі, що є ключовим для
автоматизованих процесів.
Однією з провідних технологій у галузі комп'ютерного зору є платформа
YOLO (You Only Look Once), яка дозволяє з високою швидкістю і точністю
здійснювати розпізнавання об'єктів. Це є надзвичайно важливим для
робототехнічних систем, де швидкість обробки зображень та реагування є
критично важливими для виконання завдань у реальному часі. Комбінація
YOLO з алгоритмом LBPH (Local Binary Patterns Histograms) для
розпізнавання облич дозволяє створити багатофункціональну систему, здатну
не тільки виявляти об'єкти, а й ідентифікувати людей. Це є важливою
складовою для забезпечення безпеки в роботизованих середовищах, де
необхідно чітко визначати взаємодію з користувачем або іншими учасниками
процесу.
Метою цього дипломного проєкту є інтеграція технологій
комп'ютерного зору в робототехнічні системи з використанням платформи
YOLO для розпізнавання об'єктів та алгоритму LBPH для ідентифікації осіб.
Одним з важливих аспектів є розробка інтеграції цих технологій в голосовий
асистент, що дозволяє забезпечити високу ефективність та швидкість обробки
даних навіть на пристроях з обмеженими обчислювальними ресурсами.
Важливу роль відіграє також практичне застосування цих технологій в
реальних роботизованих системах, а також їх тестування у різноманітних
сценаріях, що дозволяє оцінити їхню здатність до адаптації в різних умовах.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 5
Проєкт спрямований на вирішення важливих проблем інтеграції
комп'ютерного зору в робототехнічні системи, зокрема на підвищення
ефективності та зменшення навантаження на обчислювальні ресурси, що є
важливим для мобільних і автономних роботизованих платформ. Зниження
вимог до апаратного забезпечення дозволить застосовувати ці системи навіть
на малопотужних пристроях, що є ключовим для розробки доступних та
мобільних рішень у сфері робототехніки.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 6
РОЗДІЛ 1. АНАЛІЗ ІСНУЮЧИХ РІШЕНЬ У СФЕРІ КОМП'ЮТЕРНОГО
ЗОРУ
1.1. Огляд методів комп'ютерного зору: традиційні алгоритми та сучасні
підходи
Традиційні алгоритми комп'ютерного зору
Ранні методи комп'ютерного зору базувалися на використанні
математичних моделей для аналізу піксельної інформації. [1] Основні підходи
включають:
1. Детекція країв
Алгоритми на зразок Sobel, Canny та Laplacian (рис.1.1) використовуються
для виявлення меж між об'єктами. Наприклад, алгоритм Canny визначає
градієнт яскравості, виділяючи зони, де змінюється інтенсивність кольору. Це
допомагає визначати контури об'єктів на зображенні.
Рис.1.1 Алгоритми Sobel, Canny та Laplacian
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 7
2. Аналіз текстури
Методи на основі гістограм текстурних характеристик дозволяють
визначати повторювані візерунки або нерівності на поверхнях. Наприклад,
локальні бінарні шаблони (LBP), які пізніше стали основою алгоритму
LBPH(рис.1.2).
Рис.1.2 .алгоритм LBP
3. Перетворення Гаусса та Фур’є
Ці методи використовуються для обробки сигналів, аналізу частотних
характеристик зображення та фільтрації шуму.
4. Розпізнавання форм та об’єктів
Використання методів кореляції, шаблонного співставлення та PCA
(Principal Component Analysis) дозволяє визначати подібності між об'єктами.
Недоліки традиційних методів
Попри те, що ці методи є ефективними у вузьких задачах, вони мають
обмеження:
• Низька гнучкість при зміні умов (освітлення, орієнтація об'єктів).
• Велика залежність від попередньої обробки даних.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 8
• Відсутність автоматичного навчання та адаптації до нових даних.
Сучасні підходи: глибоке навчання та нейронні мережі
Головна революція в комп'ютерному зорі сталася з появою глибокого
навчання. Згорткові нейронні мережі (Convolutional Neural Networks, CNN)
дозволяють автоматично витягувати характеристики зображень, навчаючись
на великих наборах даних. Порівняння підходів можна глянути в таблиці 1.1.
1. Концепція CNN
Замість ручного проектування ознак, CNN автоматично вчаться виділяти
характерні патерни на зображеннях краї, текстури, складні об'єкти (рис. 1.3).
Основні шари CNN:
• Згорткові шари: для витягнення ознак.
• Шари підвибірки (Pooling): для зменшення розмірності даних.
• Щільні шари (Fully Connected): для прийняття рішення на основі
витягнутих ознак.
Рис 1.3 Концепція CNN
2. Архітектури сучасних мереж
Існують десятки архітектур для різних задач комп'ютерного зору:
• LeNet: перша CNN, застосована для розпізнавання рукописного
тексту (рис 1.4).
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 9
• AlexNet: стала проривом у змаганнях ImageNet завдяки
використанню ReLU та Dropout.
• ResNet: запровадила концепцію залишкових з'єднань, що
дозволило ефективно навчати глибокі мережі.
• YOLO: спеціалізована архітектура для швидкої та точної детекції
об'єктів у реальному часі.
Рис 1.4 LeNet для розпізнавання рукописного текст
3. Сегментація та класифікація
Крім детекції об'єктів, сучасні методи дозволяють сегментацію (розбиття
зображення на області) та класифікацію (визначення класу об'єкта).
Наприклад, архітектури U-Net використовуються для медичної діагностики, а
Faster R-CNN — для детекції об'єктів. [2]
4. Переваги сучасних підходів
• Висока точність у складних умовах (різне освітлення, фони).
• Адаптивність до нових наборів даних.
• Використання попередньо натренованих моделей (transfer
learning), що економить ресурси.
5. Використання великих наборів даних
Глибоке навчання потребує значних обсягів даних для навчання. Змагальні
набори даних, такі як ImageNet, COCO та Open Images, сприяють розвитку
нових моделей.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 10
Порівняння підходів Таблиця 1.1
Критерій Традиційні методи Сучасні підходи
Точність Середня Висока
Гнучкість Низька Висока
Ресурси Низькі Високі
Використання Складні задачі
Прості задачі
(детекція, сегментація)
Приклади використання
• Робототехніка: використання YOLO для ідентифікації об'єктів у
реальному часі.
• Медична діагностика: аналіз знімків з рентгену за допомогою ResNet.
• Системи безпеки: розпізнавання облич за допомогою VGG-Face та
LBPH.
Сучасні методи комп'ютерного зору значно перевершують традиційні
завдяки автоматичному витягненню характеристик та адаптивності до
складних задач. Це робить їх ключовим інструментом для розробки
інноваційних систем, таких як робототехніка та автономні транспортні засоби.
1.2. Класичний підхід розпізнавання облич комп’ютерним зором його
недоліки та вирішення альтернативним підхідом
Класичний підхід OpenCV Haar Cascade та LBPH
Класичні підходи до розпізнавання облич широко використовуються у
системах комп’ютерного зору протягом останніх десятиліть. Одними з
найбільш популярних алгоритмів є Haar Cascade та LBPH (Local Binary
Patterns Histograms), які забезпечували базову функціональність на
початкових етапах розвитку технології.[3]
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 11
Принцип роботи класичного підходу
Детектування облич за допомогою Haar Cascade: Алгоритм Haar
Cascade сканує зображення за допомогою вікна фіксованого розміру, яке
переміщується по всьому кадру. На кожному кроці алгоритм перевіряє, чи
відповідає фрагмент зображення набору шаблонів облич. Процес
повторюється на кількох масштабах, щоб знайти обличчя незалежно від його
розміру в кадрі. Розпізнавання облич через LBPH: після детектування
область із обличчям передається на обробку LBPH, який ідентифікує обличчя,
використовуючи аналіз локальних текстур.
Основні переваги класичного підходу:
• Простота реалізації: алгоритми легко інтегруються у різні проєкти.
• Низькі вимоги до підготовки даних: Haar Cascade може працювати без
значної кількості даних для навчання.
• Підтримка у популярних бібліотеках: OpenCV забезпечує готові рішення
для детектування та розпізнавання.
Проблеми класичного підходу:
Повільність роботи: алгоритм Haar Cascade виконує багаторазове
сканування всього кадру незалежно від того, чи є на ньому обличчя. Це
створює значне обчислювальне навантаження, особливо при обробці
відеопотоків у реальному часі.
Чутливість до умов освітлення та ракурсу: Haar Cascade залежить від
якості освітлення та стабільності умов зйомки. Зміна ракурсу або освітлення
може призводити до помилкових результатів.
Відсутність масштабованості: зі збільшенням розміру зображення або
кількості облич у кадрі час обробки суттєво зростає.
Високі апаратні вимоги для реального часу: виконання багаторазових
обчислень обмежує використання цього методу на малопотужних пристроях,
таких як Raspberry Pi.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 12
Альтернативний підхід
Розроблений спеціально для даного дипломного проєкту. Для вирішення
недоліків класичного підходу було розроблено спеціальний альтернативний
метод, інтегрований у межах даного дипломного проєкту. Цей підхід
базується на сучасних досягненнях комп’ютерного зору, зокрема на
використанні алгоритму YOLOv8n-face для детектування облич та LBPH для
їх розпізнавання. Основна ідея полягає в оптимізації процесу через поділ задач
детектування та розпізнавання, що суттєво зменшує обчислювальне
навантаження результати порівняння підходів можна глянути в таблиці 1.2.
Основні особливості альтернативного підходу:
1. Детектування облич за допомогою YOLOv8n-face:
YOLO (You Only Look Once) – це одна з найшвидших і найточніших
моделей для детектування об’єктів. YOLOv8n-face спеціалізується на
виявленні облич, дозволяючи швидко ідентифікувати їх у кадрі без
необхідності сканування кожного пікселя.
2. Передача координат до LBPH:
Замість аналізу всього зображення LBPH працює лише з координатами
знайдених облич. Це дозволяє значно скоротити час обробки.
3. Інтеграція для малопотужних пристроїв:
Комбінація YOLOv8n та LBPH спеціально налаштована для роботи на
обмежених апаратних ресурсах, таких як Raspberry Pi.
4. Підвищена ефективність:
Запропонована система уникає зайвих обчислень, обробляючи лише
релевантні області зображення.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 13
Порівняння підходів Таблиця 1.2
Параметр Класичний підхід Альтернативний підхід
Швидкість роботи Низька Висока
Точність детектування Помірна Висока
Стійкість до змін Низька
Висока
освітлення
Обчислювальні витрати Високі Низькі
Можливість роботи на Підтримується
Обмежена
Raspberry Pi
Переваги альтернативного підходу
1. Оптимізація ресурсів:
Поєднання YOLOv8n-face та LBPH дозволяє працювати швидко навіть
на малопотужних пристроях.
2. Гнучкість:
Підхід легко адаптується до змінних умов і може бути інтегрований у
реальні проєкти.
3. Підвищення продуктивності:
Запропонована система зменшує час обробки кадру, що особливо
важливо для роботи в реальному часі.
1.3. Особливості платформи yolo: переваги, недоліки, застосування
YOLO (You Only Look Once) — це архітектура нейронної мережі,
спеціалізована на швидкій та ефективній детекції об'єктів. Її ключова
особливість полягає в одноразовій обробці зображення, що значно скорочує
час виконання задач у реальному часі. YOLO вважається однією з
найпопулярніших моделей для застосувань у робототехніці, системах безпеки
та автономних транспортних засобах.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 14
Основні принципи роботи YOLO
YOLO спрощує детекцію об'єктів, розглядаючи її як задачу регресії. На
відміну від традиційних методів, які спочатку генерують регіони-пропозиції
(наприклад, Faster R-CNN), YOLO ділить зображення на сітку (grid) і
прогнозує:
• Координати обмежувальних рамок (bounding boxes) для кожного
об’єкта.
• Імовірність того, що рамка містить об'єкт.
• Клас об'єкта (наприклад, людина, автомобіль).
Цей одноетапний підхід дозволяє YOLO працювати значно швидше за інші
моделі, забезпечуючи обробку в реальному часі.
Версії YOLO
Архітектура YOLO постійно вдосконалюється, що дозволяє їй
підтримувати високий рівень точності і швидкості. Ось основні версії YOLO:
YOLOv1 (2016): Перша версія YOLO, яка стала революційною завдяки
своїй здатності здійснювати детекцію в реальному часі. Однак вона мала
обмеження, зокрема, в точності детекції дрібних об'єктів.
YOLOv2 (2017): Використовувала нові техніки, такі як Anchor Boxes, що
покращило точність моделі. YOLOv2 також забезпечував більш ефективну
роботу з різними наборами даних.
YOLOv3 (2018): Включав багаторівневу детекцію (multi-scale detection),
що дозволяло краще працювати з об'єктами різних розмірів.
YOLOv4 (2020): Це вдосконалена версія, яка інтегрувала оптимізації,
такі як використання технологій для швидшого навчання та більш ефективної
обробки даних.
YOLOv5 (2020): Випущена сторонніми розробниками, ця версія
отримала популярність завдяки легкості налаштування і високій
продуктивності, ставши однією з найбільш затребуваних для практичних
застосувань.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 15
YOLOv6 (2022): Орієнтована на покращення швидкості та точності для
реальних застосувань в умовах обмежених ресурсів.
YOLOv7 (2022): Покращена версія, оптимізована для використання на
пристроях з обмеженими обчислювальними можливостями.
YOLOv8 (2023): Одна з останніх стабільних версій, яка включає
вдосконалення для обробки складних сценаріїв, покращену точність і
ефективність при розпізнаванні об'єктів.
YOLOv8n-face — спеціалізована версія для розпізнавання облич,
орієнтована на малопотужні пристрої з низькими вимогами до ресурсів. Вона
забезпечує високу точність детекції облич в реальному часі навіть у складних
умовах, таких як погане освітлення або часткова видимість (рис.1.5). Зокрема,
вона ідеально підходить для робототехнічних систем, які працюють на
малопотужних пристроях, забезпечуючи ефективне розпізнавання облич з
мінімальними обчислювальними витратами. [4]
Переваги YOLO
Швидкість: Завдяки одноетапному підходу YOLO обробляє десятки
зображень у реальному часі навіть на середніх за потужністю GPU.
Наприклад, YOLOv4 може обробляти до 60 кадрів за секунду (FPS), що
робить його ідеальним для систем з реальним часом.
Універсальність: YOLO застосовується у широкому спектрі завдань: від
автономних дронів до систем безпеки, медицини та робототехніки.
Простота налаштування: YOLO підтримує попередньо натреновані
моделі, що дозволяє швидко адаптувати модель до специфічних задач, таких
як розпізнавання облич або різних типів об'єктів.
Одноетапний процес обробки: На відміну від традиційних методів,
таких як R-CNN, де потрібно кілька етапів (генерація регіонів, класифікація,
уточнення рамок), YOLO виконує всі ці задачі за одну ітерацію, що значно
зменшує час обробки.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 16
Недоліки YOLO
Чутливість до малих об'єктів: YOLO може не завжди добре
справлятися з виявленням малих об'єктів, особливо якщо вони розташовані на
складному фоні або мають невеликі розміри.
Потреба у великих наборах даних: Як і всі глибокі нейронні мережі,
YOLO потребує значних обсягів даних для ефективного навчання, що може
бути проблемою в умовах обмежених ресурсів.
Неточність рамок: У порівнянні з методами, що використовують
регіони-пропозиції, YOLO інколи може давати менш точні обмежувальні
рамки, що потребує додаткових коригувань.
Застосування YOLO
Робототехніка: YOLO дозволяє роботам ідентифікувати об'єкти в
реальному часі, що є критично важливим для автономних систем, таких як
роботизовані маніпулятори або мобільні роботи.
Системи безпеки: У камерах спостереження YOLO використовують для
оперативного визначення підозрілих об'єктів і осіб, а також для виявлення
небезпечних предметів, таких як зброя.
Автономний транспорт: Автомобілі, оснащені YOLO, здатні виявляти
пішоходів, дорожні знаки та інші транспортні засоби з мінімальною
затримкою, що є важливим для безпеки на дорогах.
Медична діагностика: YOLO також застосовується для аналізу
медичних зображень, таких як рентгенівські знімки, допомагаючи швидко
діагностувати захворювання.
Дрони: дрони з YOLO можуть ідентифікувати об'єкти під час польоту,
що є корисним для сільськогосподарського моніторингу або пошуково-
рятувальних операцій.
Підсумки: YOLO — це інноваційна архітектура, яка зробила детекцію
об'єктів у реальному часі доступною для багатьох галузей. Завдяки своїм
перевагам у швидкості та універсальності, вона стала стандартом для
інтеграції комп'ютерного зору в робототехнічні та мобільні системи.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 17
Водночас її недоліки підштовхують дослідників до подальшого
вдосконалення алгоритмів і оптимізації для малопотужних пристроїв, що
знаходить своє відображення в останніх версіях, таких як YOLOv8n-face —
спеціалізованій моделі для розпізнавання облич, що ідеально підходить для
робототехнічних застосувань з обмеженими ресурсами.
Рис.1.5 детекція облич
1.4. Алгоритм LBPH для розпізнавання облич: принцип роботи,
ефективність, використання з OpenCV
Алгоритм LBPH (Local Binary Pattern Histogram) є одним з найбільш
популярних методів для розпізнавання облич. Цей метод базується на аналізі
текстури зображення, що дозволяє виділяти локальні характеристики обличчя
без значних обчислювальних витрат. Він особливо ефективний у задачах, де
потрібно працювати з великою кількістю зображень або в реальному часі,
зокрема на малопотужних пристроях [5].
Принцип роботи LBPH
Алгоритм LBPH працює за наступним принципом: перетворення зображення
на текстуру логіка LBPH полягає в аналізі локальних бінарних патернів (Local
Binary Patterns). Для кожного пікселя зображення порівнюється його значення
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 18
з навколишніми пікселями, і на основі цього порівняння формується бінарний
шаблон.
Якщо піксель яскравіший за сусідні, то йому присвоюється значення 1,
якщо темніший — 0. Таким чином, кожен піксель в рамках певної області
(наприклад, 3x3) має свій бінарний шаблон.
Гістограма для кожного обличчя: після того як усі пікселі в зображенні
перетворено в бінарні патерни, формується гістограма. Це дозволяє отримати
уявлення про текстуру обличчя в вигляді векторів, які зберігають локальні
ознаки.
Порівняння гістограм: для того щоб ідентифікувати особу, гістограма
кожного зображення порівнюється з гістограмами, що зберігаються в базі
даних. Алгоритм використовує методи обчислення відстані, такі як евклідів
відстань, для вимірювання схожості гістограм.
Основними перевагами LBPH
Простота та ефективність: LBPH є простим для реалізації і порівняно
малоресурсним методом. Висока швидкість виконання дозволяє
використовувати цей алгоритм навіть на пристроях з обмеженими
обчислювальними можливостями, таких як мікроконтролери або вбудовані
системи.
Робота з різними умовами освітлення: LBPH добре справляється з
варіаціями освітлення, оскільки він орієнтується на локальні текстурні
патерни, а не на загальний колір або інтенсивність пікселів. Це робить LBPH
стійким до змін в освітленні.
Стійкість до змін у виразах обличчя: LBPH має здатність витягувати
ознаки, які стійкі до незначних змін у виразах обличчя, що робить його
зручним для використання в системах безпеки, де обличчя може змінюватися
через емоції або інші фактори.
Мінімальні вимоги до навчальних даних: для навчання LBPH не
потрібно великої кількості зображень однієї особи. Це дозволяє ефективно
працювати навіть в умовах, коли база даних обмежена.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 19
Недоліки LBPH
Чутливість до великих змін у виразах: Хоча LBPH добре працює з
помірними змінами виразів, він може мати труднощі при серйозних змін у
виразах обличчя, наприклад, при сильному усміху або натягнутій шкірі.
Погана точність на великих відстанях: LBPH не є найкращим вибором
для розпізнавання облич на великих відстанях, де деталі обличчя можуть бути
втрачено, і текстурні патерни стають менш виразними.
Обмеження щодо масштабування: оскільки LBPH використовує локальні
патерни, він може мати труднощі з розпізнаванням облич, що мають великий
масштаб або сильно нахилені.
Використання LBPH з OpenCV
OpenCV (Open Source Computer Vision Library) є однією з найбільш
поширених бібліотек для комп'ютерного зору, і вона надає потужні
інструменти для реалізації LBPH. В OpenCV існує вбудований клас для LBPH,
що спрощує його інтеграцію в проекти.
Навчання моделі:
Для навчання моделі необхідно підготувати набір зображень осіб, кожне
зображення повинно бути позначене відповідним ідентифікатором особи.
OpenCV пропонує методи для тренування LBPH, який використовує
методи машини навчання для побудови гістограм, що потім використовуються
для порівняння нових зображень.
Ідентифікація осіб:
Після навчання моделі, нове зображення порівнюється з базою даних
облич, і визначає, з якою ймовірністю це зображення належить до конкретної
особи, за допомогою порівняння гістограм.
Інтеграція в систему:
OpenCV дозволяє інтегрувати LBPH в реальні застосування, де
зображення обличчя можуть надходити з камер спостереження або інших
джерел у реальному часі.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 20
LBPH активно використовується в таких сферах:
1. Системи безпеки:
LBPH широко застосовується в системах розпізнавання облич у системах
відеоспостереження для ідентифікації осіб або визначення відвідувачів в
будівлях.
2. Контроль доступу:
У контексті фізичної безпеки LBPH використовується для створення систем
доступу, де для ідентифікації особи потрібно лише зробити фото.
3. Мобільні пристрої:
Багато мобільних пристроїв використовують LBPH для біометричної
ідентифікації користувачів, забезпечуючи додатковий рівень захисту при
використанні смартфонів.
4. Робототехніка:
У робототехніці LBPH допомагає в ідентифікації людей або визначенні
їхнього розташування для взаємодії з роботами в автоматизованих
середовищах.
Підсумки: алгоритм LBPH є потужним інструментом для розпізнавання
облич, який є дуже ефективним в умовах реального часу, працюючи на
пристроях з обмеженими обчислювальними можливостями. Завдяки простоті
реалізації та можливості працювати за різних умов освітлення, LBPH знайшов
широке застосування у системах безпеки, контролі доступу та робототехніці.
Водночас його використання разом з іншими методами, такими як YOLO для
детекції об'єктів, дозволяє створювати потужні й ефективні системи
комп'ютерного зору для більш складних завдань.
1.5. Використання комп'ютерного зору в робототехнічних системах
Комп’ютерний зір є ключовою технологією, що дозволяє роботам
"бачити" навколишній світ, розпізнавати об’єкти та здійснювати необхідні
маніпуляції. Інтеграція комп'ютерного зору в робототехнічні системи дозволяє
значно розширити функціональні можливості роботів, забезпечуючи їм
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 21
автономність, точність і адаптивність. Ці можливості широко
використовуються в різних галузях, таких як промисловість, медицина,
агрономія та навіть у космічних дослідженнях.
Роль комп’ютерного зору в робототехніці
Орієнтація в просторі: Комп’ютерний зір дозволяє роботам орієнтуватися
в тривимірному просторі, розпізнавати об'єкти та визначати їх положення (рис.
1.6) . Це важливо для виконання таких завдань, як маніпуляція з предметами
або навігація в складних середовищах.
Рис.1.6 Робот пес з комп’ютерним зором
Маніпулювання об'єктами: Однією з найбільш поширених задач, у якій
використовуються технології комп'ютерного зору, є маніпулювання об'єктами.
Робот, який оснащений камерою і системою комп'ютерного зору, може точно
визначати положення об'єкта, розпізнавати його форму та розміри і
виконувати маніпуляції, наприклад, захоплення або переміщення предметів.
Ідентифікація та класифікація об'єктів: За допомогою комп'ютерного
зору робот може ідентифікувати різні об'єкти в навколишньому середовищі
(наприклад, коробки, інструменти, деталі). Це важливо в автоматизованих
складах або в процесах виробництва, де потрібно точно класифікувати і
сортувати предмети (рис1.7.).
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 22
Рис.1.7 ідентифікація різних предметів
Навігація та уникання перешкод: Роботи можуть використовувати
технології комп'ютерного зору для виявлення перешкод і вибору оптимальних
маршрутів. Камери, лазерні далекоміри та інші сенсори дозволяють
створювати карти середовища, виявляти перешкоди і забезпечувати ефективне
переміщення в складних умовах.
Розпізнавання осіб: У деяких робототехнічних системах застосовується
розпізнавання облич для ідентифікації користувачів або взаємодії з людьми
(рис.1.8) Це дозволяє створювати персоналізовані роботизовані системи для
певних завдань, таких як зустріч гостей або персоналізована допомога.
Приклади застосування комп'ютерного зору в робототехніці
Медичні роботи: В медицині роботи з комп'ютерним зором
використовуються для допомоги в хірургії, автоматизованих діагностичних
системах та у реабілітаційних процесах. Роботи можуть аналізувати
зображення медичних сканувань, таких як МРТ, рентгенівські знімки та
ультразвукові дослідження, для діагностики захворювань.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 23
Рис.1.8 Розпізнавання осіб
Промислові роботи: У промисловості роботи з комп'ютерним зором часто
використовуються для автоматизації процесів складання, пакування та
перевірки якості продукції. Наприклад, роботи з камерами можуть
ідентифікувати дефекти на виробах або навіть налаштовувати точність
механізмів, спираючись на зображення деталей (рис. 1.9).
Космічна робототехніка: Космічні роботи використовують комп'ютерний
зір для навігації та обробки зображень в умовах космосу. Вони допомагають
збирати наукові дані, проводити ремонтні роботи на орбітальних станціях або
виконувати пошукові місії на інших планетах.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 24
Рис.1.9 ідентифікуція дефектів на продукції
Аграрна робототехніка: В сільському господарстві комп'ютерний зір
застосовується для моніторингу стану рослин (рис.1.10), автоматизованого
збору врожаю та навіть для сортування фруктів і овочів. Роботи можуть
оцінювати розмір і якість продуктів, що допомагає покращити ефективність
сільськогосподарських процесів.
Рис.1.10 Виявлення рослин за допомогую комп’ютерного зору
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 25
Виклики та обмеження
Чутливість до змін умов: Комп'ютерний зір може бути чутливим до змін в
освітленні, погодних умовах або обмеженої видимості, що може знижувати
ефективність роботів у реальних умовах. Для вирішення цієї проблеми часто
використовуються різноманітні сенсори, такі як Лідари або інфрачервоні
камери.
Обмеження обчислювальних ресурсів: Робототехнічні системи, особливо
мобільні роботи, мають обмежені обчислювальні ресурси. Складні алгоритми
комп'ютерного зору потребують великих потужностей для обробки в
реальному часі, тому існує потреба в оптимізації моделей та використанні
потужних чіпів для нейронних мереж.
Інтеграція з іншими системами: Роботи, оснащені комп'ютерним зором,
часто потребують інтеграції з іншими сенсорами, такими як гіроскопи,
акселерометри або ультразвукові датчики, для більш точної навігації та
маніпулювання в складних середовищах.
Перспективи розвитку
Незважаючи на існуючі виклики, розвиток технологій комп'ютерного зору для
робототехніки постійно прогресує. Застосування таких інновацій, як глибоке
навчання (deep learning) і штучні нейронні мережі, дозволяє підвищити
точність розпізнавання та адаптивність роботів в реальному часі. Розвиток
мобільних платформ та нових апаратних рішень, таких як GPU та
спеціалізовані чіпи для обробки зображень, відкривають нові горизонти для
використання комп'ютерного зору в робототехніці.
Підсумки: інтеграція комп'ютерного зору в робототехнічні системи дає
змогу розширити їх функціональність і автономність. Від автоматизованих
маніпуляцій на виробництві до інтерактивних роботів, які можуть взаємодіяти
з людьми, комп'ютерний зір стає необхідною складовою для розвитку сучасної
робототехніки. Використання передових алгоритмів, таких як YOLO для
виявлення об'єктів та LBPH для розпізнавання облич, дозволяє створювати
високоефективні та точні роботизовані системи для різних галузей.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 26
1.6. Проблематика інтеграції комп'ютерного зору в системи з обмеженими
ресурсами
Інтеграція технологій комп'ютерного зору в системи з обмеженими
апаратними ресурсами є важливим завданням, особливо у випадках, коли
системи повинні функціонувати на малопотужних пристроях, таких як
роботизовані платформи, портативні девайси або вбудовані системи.
Незважаючи на значні досягнення у сфері алгоритмів комп'ютерного зору,
залишається низка викликів, які потребують особливої уваги.
Основні виклики інтеграції:
Обмежені обчислювальні ресурси
Малопотужні системи, як-от Raspberry Pi(рис.1.11), мають значно меншу
обчислювальну потужність порівняно з сучасними серверними GPU чи
спеціалізованими процесорами. Виконання складних алгоритмів глибокого
навчання, таких як YOLO чи LBPH, в реальному часі може перевищувати
можливості таких пристроїв.
Можливі рішення: використання легковагових моделей (наприклад,
YOLOv8n, яка оптимізована для швидкості і роботи на обмежених пристроях).
Енергоспоживання
Більшість алгоритмів комп'ютерного зору потребують значних ресурсів,
що призводить до збільшення енергоспоживання. Це критично для мобільних
пристроїв і автономних роботів, де обсяг батареї обмежений.
Можливі рішення: застосування моделей, оптимізованих для низького
енергоспоживання. Використання енергоефективних чіпів або FPGA.
Затримки в реальному часі
Для багатьох задач, наприклад, навігації чи виявлення перешкод,
важливим є отримання результатів у реальному часі. Високі затримки у
виконанні алгоритмів можуть призводити до аварій чи втрати продуктивності.
Можливі рішення: використання розподілених обчислень, коли частина
задач виконується на хмарних сервісах. Зменшення складності обробки
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 27
шляхом попереднього зменшення роздільної здатності зображення або
обмеження кількості об’єктів для виявлення.
Рис.1.11 Raspberry Pi
Стабільність роботи в реальних умовах
У реальному середовищі умови роботи можуть значно змінюватися:
освітлення, задній план, присутність шумів. Це може вплинути на точність
алгоритмів комп'ютерного зору, особливо на малопотужних пристроях.
Можливі рішення: використання алгоритмів попередньої обробки, які
стабілізують зображення. Тренування моделей на даних із різними варіаціями
умов.
Особливості використання YOLOv8n-face в системах з обмеженими
ресурсами
Для проєктів, що працюють на малопотужних пристроях, таких як роботи
чи портативні системи, YOLOv8n-face є оптимальним вибором завдяки своїм
характеристикам:
• Оптимізація: YOLOv8n-face розроблена як легковагова модель, яка
підходить для детекції облич із високою швидкістю.
• Підтримка апаратних прискорювачів: Модель може працювати з
апаратними прискорювачами, такими як NVIDIA Jetson Nano, що
дозволяє значно підвищити продуктивність.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 28
• Гнучкість: YOLOv8n-face підтримує адаптацію до специфічних завдань
і працює навіть у системах із мінімальними обчислювальними
потужностями.
Перспективи та шляхи вдосконалення
Оптимізація моделей: застосування методів квантової оптимізації та
прунингу дозволить адаптувати навіть складні моделі для вбудованих систем.
Хмарні технології: використання хмарних обчислень для складних
задач аналізу, у той час як на локальному пристрої виконується лише
попередня обробка.
Розробка нових архітектур: архітектури, спеціально створені для
малопотужних пристроїв, здатні виконувати завдання комп'ютерного зору з
мінімальними витратами ресурсів.
Підсумки: інтеграція комп'ютерного зору в системи з обмеженими
ресурсами є важливим викликом для сучасних розробників. Завдяки
оптимізації алгоритмів, використанню спеціалізованих пристроїв і
впровадженню сучасних технологій, таких як YOLOv8n-face, стає можливим
створення ефективних систем, які здатні виконувати складні задачі навіть на
обмеженій апаратній базі. Це відкриває нові перспективи для застосування
комп'ютерного зору в мобільних і автономних пристроях.
1.7. Висновки
У першому розділі розглянуто основні аспекти розвитку технологій
комп'ютерного зору, що стали ключовими для створення ефективних систем
детекції й розпізнавання об'єктів. Методи комп'ютерного зору
Було проаналізовано традиційні алгоритми та сучасні підходи. У той час як
класичні методи, такі як SIFT і HOG, мають обмеження в точності та
масштабованості, сучасні нейронні мережі, такі як YOLO та інші CNN,
пропонують набагато вищу ефективність і продуктивність. Розвиток
платформи YOLO Детально розглянуто різні версії YOLO, починаючи від її
першої версії до сучасних модифікацій, включаючи YOLOv8n-face, яка
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 29
спеціалізується на детекції облич. Особливу увагу приділено перевагам YOLO:
швидкості, універсальності та простоті використання. Алгоритм LBPH для
розпізнавання облич LBPH виявився надійним методом для розпізнавання
облич у реальних умовах завдяки його простоті, стабільності та низьким
вимогам до обчислювальних ресурсів. Комп'ютерний зір у робототехнічних
системах Проаналізовано широкий спектр застосувань комп'ютерного зору в
робототехніці, включаючи автономну навігацію, маніпуляцію об'єктами та
аналіз навколишнього середовища. Відзначено важливість інтеграції таких
систем для підвищення функціональності роботів. Проблеми інтеграції у
малопотужні пристрої: було окреслено основні виклики, з якими стикаються
розробники при використанні комп'ютерного зору в системах з обмеженими
ресурсами. Запропоновано шляхи вирішення цих проблем, зокрема
використання оптимізованих моделей, таких як YOLOv8n-face, і апаратних
прискорювачів. Підсумок розділу: отримані результати підтверджують
важливість вибору оптимальної архітектури комп'ютерного зору для
конкретного проєкту. У нашому випадку використання YOLOv8n-face у
поєднанні з LBPH забезпечує ефективне вирішення задач детекції облич і
об'єктів навіть на обмежених апаратних ресурсах. Ці аспекти створюють
основу для подальшого проектування та реалізації системи комп'ютерного
зору, що розглядатиметься в наступному розділі.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 30
РОЗДІЛ 2. ПРОЕКТУВАННЯ СИСТЕМИ КОМП'ЮТЕРНОГО ЗОРУ З
ВИКОРИСТАННЯМ YOLO ТА LBPH
2.1. Архітектура системи: поєднання YOLO та LBPH
У системі комп’ютерного зору, представленій у даному проєкті,
використовується поєднання технологій YOLOv8n-face та алгоритму Local
Binary Patterns Histograms (LBPH) для забезпечення високої швидкості й
точності роботи при розпізнаванні облич і виконанні пов’язаних завдань. Цей
підхід базується на розділенні задач детекції (визначення об’єкта на
зображенні) та ідентифікації (розпізнавання і прив'язка до конкретної особи).
Основні аспекти інтеграції YOLO та LBPH
Розподіл задач між модулями: YOLOv8n-face використовується для
швидкої та ефективної детекції облич у відеопотоці. Модель визначає
координати обмежувальних рамок, що охоплюють обличчя в кадрі. LBPH
відповідає за розпізнавання облич. Вона працює із зображенням обличчя,
виділеним YOLO, і порівнює його з базою даних для ідентифікації особи.
Завдяки такому розподілу система може використовувати ресурси більш
ефективно: YOLO виконує задачі, що потребують значної обчислювальної
потужності, а LBPH працює із значно меншою кількістю даних,
зосереджуючись лише на вже виділених зображеннях облич.
Етапи обробки зображення
Детекція облич за допомогою YOLOv8n-face: вхідний відеопотік
передається до YOLOv8n-face, яка обробляє кожен кадр. Модель використовує
конволюційні нейронні мережі для аналізу зображення і визначення координат
обмежувальних рамок (bounding boxes) для всіх облич, присутніх у кадрі. Для
кожного обличчя модель генерує:
• Координати рамки (x, y, ширина, висота).
• Клас об’єкта (в нашому випадку – обличчя).
• Імовірність упевненості детекції (confidence score).
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 31
Всі ці дані використовуються для подальшої обробки.
Попередня обробка облич: після детекції кожне обличчя виділяється із
зображення як окремий фрагмент, приводиться до стандартного розміру
(наприклад, 100x100 пікселів) і перетворюється в градації сірого, що необхідно
для роботи LBPH.
Розпізнавання облич LBPH: оброблені зображення передаються до
алгоритму LBPH, який порівнює їх із записами в базі даних. Алгоритм
використовує локальні бінарні шаблони для аналізу текстури обличчя (рис.2.1)
Він створює гістограму текстурних ознак і порівнює її з попередньо
збереженими гістограмами. У разі збігу з високим рівнем достовірності
система визначає особу.
Рис.2.1 Розпізнавання облич LBPH
Інтеграція результатів
Після завершення обробки двома модулями результати інтегруються для
прийняття рішень. Наприклад:
• Якщо LBPH успішно розпізнало обличчя, користувача авторизують для
подальших дій (наприклад, виконання голосових команд).
• Якщо обличчя невідоме, система переходить у режим очікування
голосового ключового слова для авторизації через голос.
Паралельна робота модулів
Під час роботи система виконує дві основні задачі паралельно:
• YOLO постійно аналізує відеопотік, забезпечуючи актуальність даних про
присутні обличчя.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 32
• LBPH обробляє вже виділені фрагменти, знижуючи загальне навантаження
на систему.
Переваги такого підходу
Швидкість: YOLOv8n-face забезпечує реальну обробку відеопотоку
завдяки своїй архітектурі, оптимізованій для одноетапної детекції. LBPH додає
точність у розпізнаванні облич без значного впливу на швидкодію.
Ефективність: використання LBPH для розпізнавання дозволяє
працювати із заздалегідь виділеними зображеннями, зменшуючи обсяг даних,
що потребують обробки.
Сумісність із малопотужними пристроями: завдяки компактній
архітектурі YOLOv8n-face і невибагливості LBPH до ресурсів, така система
працює навіть на пристроях із обмеженою продуктивністю, такі як Raspberry
Pi. Поєднання YOLO та LBPH дозволяє досягти оптимального балансу між
швидкістю, точністю й ефективністю. У системі кожен модуль виконує свою
вузькоспеціалізовану задачу, що забезпечує продуктивність навіть на
обмежених апаратних платформах.
2.2. Алгоритм роботи системи для розпізнавання об’єктів та облич
Система розпізнавання об’єктів та облич базується на інтеграції двох
основних технологій — YOLO для детекції об’єктів у реальному часі та LBPH
для ідентифікації облич (рис 2.2). Такий підхід дозволяє створити ефективну
та високопродуктивну систему, яка здатна працювати на пристроях із
обмеженими обчислювальними ресурсами.
Початковий етап роботи системи
Перед початком роботи проводиться ініціалізація системи. На цьому
етапі завантажуються необхідні моделі. YOLO використовується для
швидкого виявлення об’єктів у кадрі, зокрема облич, завдяки її здатності
обробляти зображення за один прохід. Для цього використовується версія
YOLOv8n-face, яка є спеціалізованою моделлю для розпізнавання облич.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 33
Паралельно активується алгоритм LBPH, який порівнює обличчя, виділені
YOLO, із зразками, збереженими в базі даних.
На цьому етапі також налаштовується обладнання для обробки
відеопотоку. Камера конфігурується таким чином, щоб забезпечити
оптимальну частоту кадрів та роздільну здатність, необхідні для якісного
аналізу. Додатково перевіряється наявність інтернет-з’єднання, яке може бути
корисним для роботи голосового асистента.
Рис2.2 YOLO детекція облич
Обробка відеопотоку
Система розпочинає роботу з отримання кадрів відеопотоку. Кожен кадр
передається до моделі YOLO, яка розділяє зображення на сітку та аналізує її
сегменти. У кожному сегменті визначається, чи є в ньому об’єкт, що цікавить
систему, — зокрема, обличчя. Якщо виявляється обличчя, YOLO генерує
координати його обмежувальної рамки (bounding box) разом із рівнем
упевненості моделі. Система відкидає всі рамки з низьким рівнем упевненості,
залишаючи лише ті, які можуть бути корисними для подальшої обробки.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 34
Для кожного знайденого обличчя вирізається окрема частина
зображення. Щоб підготувати її до розпізнавання, зображення перетворюється
в градації сірого та масштабується до стандартного розміру. Така нормалізація
є важливою для роботи LBPH, оскільки алгоритм потребує уніфікованих
даних для побудови гістограм.
Розпізнавання облич за допомогою LBPH
LBPH використовується для аналізу текстурних особливостей облич.
Цей алгоритм створює локальні гістограми, які відображають розподіл
яскравості пікселів у невеликих ділянках зображення. Завдяки цьому LBPH є
особливо стійким до змін освітлення та невеликих поворотів обличчя.
Після створення гістограми алгоритм порівнює її з гістограмами,
збереженими в базі даних. Використовується метрика відстані, яка дозволяє
визначити ступінь схожості між вхідним зображенням і зразками. Якщо
відстань між гістограмами менша за заздалегідь встановлений поріг, обличчя
вважається розпізнаним. У такому випадку система отримує ідентифікатор або
ім’я особи, пов’язане зі знайденим зразком. Якщо ж відстань перевищує поріг,
обличчя вважається невідомим.
Реакція системи на оброблені дані
Якщо обличчя вдалося розпізнати, система переходить до виконання
наступних дій. Вона активує голосового асистента, який може виконувати
голосові команди користувача. Наприклад, система може відповісти на
запитання, надати інформацію або виконати базові завдання, такі як
програвання аудіофайлів.
Якщо обличчя не вдалося розпізнати, система переходить у режим
очікування голосового ключового слова. У цьому режимі вона уважно стежить
за звуковими даними та активується лише після отримання певного ключового
слова, наприклад, «Комп’ютер». Такий підхід дозволяє мінімізувати ризик
помилкової активації.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 35
Циклічний процес роботи
Система працює в режимі реального часу, постійно повторюючи
основний цикл обробки. На кожному етапі вона аналізує нові кадри, оновлює
список облич у кадрі та реагує на будь-які зміни в середовищі. Це забезпечує
високу адаптивність та ефективність системи, навіть у динамічних умовах.
Переваги інтегрованого підходу
Поєднання YOLO та LBPH дозволяє досягти оптимального балансу між
швидкістю та точністю. YOLO забезпечує миттєву детекцію об’єктів навіть у
складних умовах, тоді як LBPH гарантує надійність розпізнавання облич при
мінімальних ресурсах (рис.2.3). Така система підходить для використання в
робототехніці, системах безпеки та інших застосуваннях, де важливі висока
продуктивність та автономність.
Рис.2.3 Результат поєднання YOLO та LBPH
Розроблений алгоритм поєднує передові технології комп’ютерного зору
та машинного навчання, забезпечуючи надійну роботу в реальному часі.
Завдяки цьому система є універсальним рішенням для багатьох галузей,
особливо тих, які потребують роботи в умовах обмежених ресурсів та
підвищених вимог до точності.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 36
2.3. Моделювання сценаріїв використання системи в робототехніці
Інтеграція комп'ютерного зору, зокрема розпізнавання об'єктів і облич, в
робототехнічні системи відкриває нові можливості для автономії та взаємодії з
навколишнім середовищем. В рамках цього розділу розглянемо кілька
можливих сценаріїв застосування розробленої системи в робототехніці, де
основні функції, як розпізнавання об'єктів за допомогою YOLO та
ідентифікація облич через LBPH, дозволяють створити розумні, адаптивні та
безпечні рішення для автономних роботів.
Сценарій 1: Робот-маніпулятор для складальних ліній
Використання роботів-маніпуляторів на складальних лініях є одним із
основних напрямків робототехніки (рис.2.4). У такому сценарії робот,
оснащений камерами для візуалізації, використовує систему розпізнавання
об'єктів для автоматичного виявлення деталей, які потрібно обробити або
перемістити.
Завдяки застосуванню YOLO, система може миттєво ідентифікувати
різні компоненти на конвеєрній стрічці, навіть якщо вони перекриваються або
мають складну форму.
Якщо ж система повинна працювати з людьми в одній робочій зоні,
алгоритм LBPH допомагає ідентифікувати працівників, забезпечуючи
додатковий рівень безпеки. У разі виявлення невідомої особи або порушення
безпеки, робот може автоматично зупинити свою діяльність або перейти в
безпечний режим.
Наприклад, якщо робот виявляє на складі деталь, яка потребує обробки,
він може швидко визначити її місцезнаходження та координувати своє
переміщення для її захоплення. Система дає можливість точно й швидко
реагувати на зміни в середовищі, що підвищує ефективність і безпеку
складальних процесів.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 37
Рис.2.4 Робот-маніпулятор для складальних ліній
Сценарій 2: Автономний робот-помічник в офісі або домашньому
середовищі
У середовищах, таких як офіси або домівки, робот-помічник може бути
оснащений тією ж самою системою розпізнавання для взаємодії з людьми.
Одним з основних завдань такого робота є забезпечення високого рівня
комфорту та ефективності взаємодії з користувачем, тому важливо, щоб він
міг ідентифікувати обличчя для персоналізації своїх дій.
За допомогою YOLO робот здатний виявляти людину у своєму полі
зору, а LBPH дозволяє точно ідентифікувати користувача на основі обличчя.
Якщо робот розпізнає знайоме обличчя, він може активувати спеціальні
функції, як наприклад вітати користувача, запитати про його бажання чи
надавати персоналізовану інформацію. Це може включати відтворення
відповідних аудіофайлів, виконання голосових команд або інші дії залежно від
ситуації.
Крім того, якщо робот виявляє незнайоме обличчя, він може попросити
користувача пройти процедуру ідентифікації або зв’язатися з адміністратором
для перевірки доступу, забезпечуючи додатковий рівень безпеки.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 38
Сценарій 3: Робот для патрулювання або спостереження
Використання роботів для патрулювання територій, таких як безпека в
будівлях, на підприємствах або у великих відкритих просторах, є важливою
частиною сучасних систем безпеки. У такому випадку робот може
використовувати технологію YOLO для виявлення потенційних загроз або
аномальних ситуацій, таких як незаконне проникнення або ненормальна
активність.
Система розпізнавання облич за допомогою LBPH може застосовуватися
для ідентифікації персоналу або відвідувачів. Якщо робот виявляє невідоме
обличчя в зоні, де повинні перебувати тільки авторизовані особи, система
може сигналізувати про загрозу або автоматично активувати додаткові заходи
безпеки, наприклад, запуск сигналізації або повідомлення охоронної служби.
За допомогою інтегрованої системи робот може стежити за рухами
людей, ідентифікувати їх і фіксувати будь-які події, що відбуваються на
території, що охороняється. Це дозволяє підвищити ефективність систем
безпеки та забезпечити швидке реагування на будь-які непередбачувані
ситуації.
Сценарій 4: Робот-дрон для сільськогосподарського моніторингу
Дрони, які використовують комп'ютерний зір для агрономічного
моніторингу, є потужним інструментом для контролю стану посівів та
виявлення різноманітних аномалій у сільському господарстві. У такому
випадку робот-дрон може використовувати YOLO для виявлення об’єктів,
таких як шкідники, хвороби рослин або дефекти на посівах або ж просто
виявляти місця для поливу рослин (рис.2.5).
LBPH може застосовуватися для ідентифікації людей, якщо дрон працює
в зоні, де присутні фермери чи інші працівники, що займаються моніторингом
чи обробкою полів. Якщо робот виявляє незнайоме обличчя, він може
передавати дані про потенційну небезпеку, або просто фіксувати інцидент,
щоб на основі отриманої інформації була проведена додаткова перевірка.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 39
Дрони, оснащені такими системами, можуть активно працювати в
умовах високої мобільності, одночасно здійснюючи моніторинг за допомогою
комп'ютерного зору та проводячи аналіз в реальному часі.
Моделювання сценаріїв використання системи в робототехніці показує,
що поєднання технологій YOLO для виявлення об’єктів та LBPH для
розпізнавання облич створює універсальну платформу для розвитку
автономних роботів у різних галузях. Від моніторингу та безпеки до
персоналізованих роботів-помічників, ці технології можуть суттєво покращити
функціональність роботів, забезпечити їх високий рівень автономії та безпеки,
а також дозволити їм працювати в складних умовах реального часу.
Рис.2.5 Агрономічний дрон який використовує комп'ютерний зір
2.4. Інтеграція з голосовим асистентом як допоміжним модулем
Інтеграція голосового асистента в систему комп'ютерного зору є
важливим кроком для забезпечення зручної та інтуїтивно зрозумілої взаємодії
користувача з робототехнічною системою. Голосовий асистент може
виступати як допоміжний модуль, який доповнює основну функціональність
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 40
комп'ютерного зору, додаючи можливість управління системами через
голосові команди. Це дозволяє значно покращити користувацький досвід і
забезпечити більшу автономність системи.
Взаємодія голосового асистента з системою комп'ютерного зору
В основі інтеграції голосового асистента в систему лежить два основні
аспекти: використання голосових команд для управління системою і
реагування системи на вхідні голосові сигнали. У рамках даної системи
голосовий асистент інтегрується з алгоритмами комп'ютерного зору для
виконання таких функцій, як активізація, управління, а також обробка
інформації про навколишнє середовище.
Активація голосом: один із ключових моментів інтеграції голосового
асистента полягає в використанні голосових команд для активації. Після
розпізнавання обличчя через LBPH і підтвердження особи користувача,
асистент може бути активований певною командою, "комп'ютер". Це дозволяє
почати взаємодію без необхідності фізичних дій або натискання кнопок, що
значно спрощує процес і робить його більш доступним для користувачів.
Управління через голосові команди: голосовий асистент є основним
інтерфейсом для передачі команд. За допомогою такої інтеграції можна
здійснювати управління роботами, наприклад, давати команди на виконання
конкретних дій, таких як "підійди до об'єкта", "візьми цю деталь" або
"познайомись з особою". Асистент може бути налаштований на обробку
певного набору команд, що дозволяє значно полегшити управління складними
роботизованими системами.
Забезпечення безпеки через голосовий асистент
Інтеграція голосового асистента також дозволяє забезпечити додатковий
рівень безпеки. Після розпізнавання особи за допомогою LBPH система може
запитати додаткові підтвердження через голосову команду, щоб переконатися,
що користувач має право на доступ до певних функцій. Наприклад, робот
може запитати: "Чи хочеш ти продовжити роботу?" або "Ти впевнений, що
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 41
хочеш зупинити роботу?". Це дає можливість мінімізувати помилки або
несанкціоновані дії в ситуаціях, коли безпека є критично важливою.
Додатково, за допомогою голосових команд можна легко активувати або
деактивувати функції безпеки, такі як блокування робота чи запит на
додаткову перевірку через систему розпізнавання обличчя. Це дозволяє
користувачам, які мають доступ до роботизованої системи, керувати безпекою
і налаштуваннями без необхідності взаємодіяти з фізичними елементами або
інтерфейсами.
Взаємодія голосового асистента з іншими сенсорами
Важливою перевагою інтеграції голосового асистента з системою
комп'ютерного зору є здатність обробляти не тільки голосові команди, але й
дані від інших сенсорів, таких як камери або інфрачервоні датчики.
Наприклад, якщо камера з комп'ютерним зором виявить перешкоду або
об'єкт, асистент може повідомити користувача про це через голосові
повідомлення, спрощуючи процес моніторингу ситуації в реальному часі.
Використання голосових сигналів для управління роботами в комбінації
з іншими технологіями, як-от комп'ютерний зір, забезпечує більш
інтегрований та зручний спосіб взаємодії з робототехнічними системами.
Користувач може без зусиль керувати різними аспектами роботи системи,
знижуючи потребу в складних налаштуваннях і сприяючи більш інтуїтивному
використанню.
Інтеграція голосового асистента в систему комп'ютерного зору створює
потужну платформу для взаємодії користувача з роботами. Це дозволяє не
тільки полегшити управління за допомогою голосових команд, але й
забезпечити високий рівень безпеки, адаптивності та ефективності. Голосовий
асистент, як допоміжний модуль, надає можливість для розширеного та
персоналізованого управління, що підвищує автономність і зручність
використання роботизованих систем у реальних умовах.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 42
2.5. Висновки
У розділі було детально розглянуто проектування системи
комп'ютерного зору на основі технологій YOLO та LBPH, а також їх інтеграція
в робототехнічні системи. Процес проектування включав кілька важливих
етапів, кожен з яких сприяє створенню ефективної та безпечної платформи для
автоматизованого розпізнавання облич.
Поєднання алгоритмів YOLO та LBPH дозволяє досягти високої
точності та швидкості розпізнавання об'єктів і облич у реальному часі, що є
важливою вимогою для робототехнічних застосувань. YOLO забезпечує
ефективне об'єктне розпізнавання, тоді як LBPH забезпечує стабільне та
надійне розпізнавання облич для підвищення безпеки та функціональності
системи. Ці технології доповнюють одна одну, забезпечуючи систему, яка
здатна одночасно виконувати кілька важливих завдань: ідентифікацію,
визначення положення, а також контроль доступу на основі розпізнавання
обличчя.
Алгоритм роботи системи на прикладі розпізнавання об'єктів та облич
підтвердив ефективність використання YOLO для виявлення та класифікації
об'єктів на зображеннях, а також надійність LBPH для розпізнавання обличчя
в умовах зміни освітлення чи кута нахилу. Завдяки інтеграції цих двох
технологій, система здатна адаптуватися до змін у навколишньому середовищі
та оперативно реагувати на нові виклики.
Моделювання сценаріїв використання в робототехніці підтвердило
важливість цього рішення для реальних застосувань у роботах, які виконують
задачі, пов'язані з виявленням, а також з управлінням безпекою. Інтеграція
голосового асистента, як додаткового модуля, значно розширює
функціональність системи, надаючи користувачеві можливість взаємодіяти з
роботизованими системами через голосові команди. Це робить систему більш
інтуїтивно зрозумілою та зручною у використанні, підвищуючи рівень
автономності систе.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 43
У підсумку, запропонована система є комплексним рішенням, яке
поєднує передові методи комп'ютерного зору та інтерфейси для природної
взаємодії з користувачем, що відкриває великі можливості для застосування в
робототехніці, зокрема у системах автоматизованого управління та безпеки.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 44
РОЗДІЛ 3. ПРАКТИЧНА РЕАЛІЗАЦІЯ ТА ТЕСТУВАННЯ СИСТЕМИ
КОМП'ЮТЕРНОГО ЗОРУ
3.1. Реалізація алгоритмів YOLO та LBPH у програмному забезпеченні
У даному підрозділі розглядається процес реалізації алгоритмів YOLO
(You Only Look Once) та LBPH (Local Binary Patterns Histograms) у
програмному забезпеченні для задач комп'ютерного зору. Ці алгоритми
забезпечують ефективне розпізнавання об'єктів та осіб, і їх інтеграція в
систему дозволяє створити надійний механізм для автоматичного виявлення та
ідентифікації в реальному часі.
Реалізація алгоритму YOLO
YOLO є одним з найсучасніших і швидких алгоритмів для виявлення
об'єктів на зображеннях. Основною перевагою YOLO є його здатність
здійснювати обробку в реальному часі завдяки одночасному прогнозуванню
для всіх об'єктів у кадрі. Модель здатна визначати категорії об'єктів, їхні
координати (кордони) на зображенні та ймовірність цієї категорії.
У реалізації цього алгоритму використовується передтренована модель
YOLOv8, яка є стабільною найновішою на момент розробки. Модель
реалізується за допомогою бібліотеки OpenCV, яка надає зручний інтерфейс
для обробки зображень та відео, а також для використання готових моделей
YOLO. Для розпізнавання об'єктів у реальному часі ми використовуємо
камеру або відеопотік, що передається в систему. Алгоритм працює шляхом
поділу зображення на сітку, де кожен елемент сітки відповідає за
прогнозування певних об'єктів. Після того, як модель зробить прогноз, вона
визначає об'єкти, їх розмір і позицію на екрані, після чого координати цих
об'єктів виводяться на екран.
Реалізація алгоритму LBPH
Алгоритм LBPH використовується для розпізнавання облич. Він базується на
аналізі текстурних ознак зображення обличчя, що дозволяє створити
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 45
унікальний "відбиток" для кожної особи. Порівняння цього відбитка з
попередньо збереженими даними дозволяє проводити ідентифікацію осіб.
Процес роботи алгоритму полягає в наступних кроках:
Попередня обробка зображення: перетворення в градації сірого,
нормалізація освітлення та вирівнювання.
Виділення ознак: на основі локальних бінарних патернів алгоритм
генерує гістограми для кожної ділянки обличчя, що дозволяє створювати
унікальні патерни для кожної людини.
Порівняння патернів: після отримання гістограм для нових обличчя
система порівнює їх з базою даних вже збережених гістограм для проведення
ідентифікації.
Для реалізації цього алгоритму ми використовуємо бібліотеку OpenCV,
яка надає функціональність для побудови гістограм LBP та для порівняння
збережених патернів. Інтеграція YOLO та LBPH у єдину систему
Для інтеграції обох алгоритмів у єдину систему була розроблена наступна
архітектура:
Обробка відео: система отримує відеопотік з камери, де спочатку
виконується обробка за допомогою YOLO для виявлення об'єктів у кадрі.
Розпізнавання облич: після того, як YOLO визначить об'єкти
(наприклад, людини), система передає цю інформацію до алгоритму LBPH для
перевірки, чи є обличчя в кадрі, та його ідентифікації.
Зворотній зв'язок: після визначення об'єктів і осіб система виводить
результат на екран або передає інформацію для подальших дій (наприклад,
активація голосового асистента або виконання команд).
Завдяки такій інтеграції система має здатність швидко та ефективно
виконувати завдання з розпізнавання об'єктів та осіб одночасно, що є особливо
корисним для застосування в реальних робототехнічних системах, де важлива
швидкість і точність виконання задач.
Реалізація алгоритмів YOLO та LBPH в програмному забезпеченні
дозволяє створити потужну систему комп'ютерного зору для ефективного
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 46
виявлення об'єктів та осіб. Інтеграція цих алгоритмів в єдину систему дозволяє
підвищити точність та швидкість розпізнавання, що є важливим аспектом при
розробці робототехнічних застосувань. Подальші удосконалення можуть
включати покращення точності моделей за допомогою додаткового
тренування на специфічних даних, а також оптимізацію для роботи на
малопотужних пристроях.
3.2. Налаштування та навчання моделей для розпізнавання облич
Для створення ефективної системи розпізнавання облич важливими
етапами є налаштування процесу збору даних, попередньої обробки, а також
навчання моделі на основі зібраних зображень. [6]. У цьому розділі
розглядаються ключові етапи налаштування та навчання моделей для
розпізнавання облич за допомогою алгоритму LBPH (Local Binary Patterns
Histograms)
Створення датасету для розпізнавання облич
Першим кроком є створення бази даних із зображеннями облич
користувачів.[7] Для цього кожен користувач фотографується за допомогою
вебкамери не менше ніж 30 разів. Отримані зображення автоматично
зберігаються в папці dataset/ з унікальним ідентифікатором для кожного
користувача (рис.3.1). Це дозволяє системі розпізнати конкретну особу під час
подальшого використання.
Основні кроки для збору зображень
Ініціалізація вебкамери: Камера налаштовується на захоплення
зображень розміром 640x480 пікселів. Такий розмір є оптимальним для роботи
в реальному часі та зберігає достатню якість для розпізнавання обличчя.
cam = cv2.VideoCapture(0, cv2.CAP_DSHOW)
cam.set(3, 640) # Ширина відео
cam.set(4, 480) # Висота відео
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 47
Захоплення зображень: Камера зчитує зображення в реальному часі,
після чого вони обробляються для виявлення облич за допомогою каскаду
Хаара. [8]
ret, img = cam.read()
faces = faceCascade.detectMultiScale(gray, 1.3, 5)
for (x, y, w, h) in faces:
cv2.rectangle(img, (x, y), (x + w, y + h), (255, 0, 0), 2)
count += 1
cv2.imwrite("dataset/User." + str(face_id) + '.' + str(count) +
".jpg", gray[y:y + h, x:x + w])
Попередня обробка зображень: Перш ніж зберігати зображення, вони
конвертуються у відтінки сірого, що дозволяє зменшити обчислювальну
складність і підвищити точність розпізнавання.
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
Організація даних: Зображення зберігаються у форматі, що дозволяє
легко прив'язати кожне зображення до конкретного користувача. Для цього
використовується унікальний ідентифікатор користувача в імені файлу.
cv2.imwrite("dataset/User." + str(face_id) + '.' + str(count) + ".jpg",
gray[y:y + h, x:x + w])
Рис. 3.1 Фото датасету
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 48
Навчання моделі розпізнавання облич
Після того, як зібрано достатньо зображень, наступним етапом є
навчання моделі на основі цих даних. Використовується алгоритм LBPH (Local
Binary Patterns Histograms), який є одним із найпоширеніших методів для
розпізнавання облич. Модель працює, перетворюючи зображення облич у
вектори ознак, що описують локальні бінарні шаблони [9].
Основні етапи навчання
Завантаження даних: для навчання моделі необхідно отримати всі
зображення з папки dataset/, де зберігаються фотографії користувачів. Для
цього створюється список шляхів до всіх зображень.
imagePaths = [os.path.join(path, f) for f in os.listdir(path)]
Конвертація зображень у відтінки сірого: Для зменшення
обчислювальної складності зображення перетворюються у відтінки сірого.
PIL_img = Image.open(imagePath).convert('L')
img_numpy = np.array(PIL_img, 'uint8')
Виділення облич: для кожного зображення застосовується каскад Хаара
для виявлення обличчя на зображенні.
faces = detector.detectMultiScale(img_numpy)
Додавання даних у вибірку: з кожного знайденого обличчя виділяється
область, що містить лише обличчя, і додається у вибірку для навчання.
for (x, y, w, h) in faces:
faceSamples.append(img_numpy[y:y + h, x:x + w])
ids.append(id)
Навчання моделі LBPH: після того як дані підготовлені, запускається
процес навчання моделі LBPH.
recognizer.train(faceSamples, np.array(ids))
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 49
Збереження моделі: після завершення навчання модель зберігається у
файл для подальшого використання під час розпізнавання обличчя в
реальному часі.
recognizer.write('trainer.yml')
3.3. . Розробка голосового асистента з інтеграцією компютерного зору
Сучасний розвиток технологій штучного інтелекту та комп’ютерного
зору значно розширює можливості взаємодії людини з автоматизованими
системами. Голосові асистенти стали одним із найпопулярніших напрямків у
цій сфері, забезпечуючи зручний спосіб управління пристроями та виконання
завдань за допомогою голосових команд. Однак, попри численні досягнення,
існуючі системи стикаються з викликами інтеграції в середовища з
обмеженими ресурсами та забезпеченням достатнього рівня безпеки.
Огляд популярних голосових асистентів та порівняння їх можливостей
Голосові асистенти відіграють важливу роль у розвитку технологій
автоматизації та штучного інтелекту, впливаючи на повсякденне життя
мільйонів людей порівняння можна глянути в табилці 3.1. Вони забезпечують
можливість виконувати завдання без використання клавіатури чи сенсорного
екрану, що підвищує зручність і доступність технологій приклад можна
бачити на (рис.3.2).
Рис. 3.2 Приклад використання голосового асистента
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 50
На сучасному ринку найбільш популярними є Google Assistant, Amazon
Alexa та Microsoft Cortana (рис.3.3).
Рис.3.3 Реалізація доступу до асистентів
Кожен із них володіє унікальними можливостями, які відповідають
потребам різних категорій користувачів:
Google Assistant — розроблений компанією Google, цей асистент пропонує
широкий спектр функцій, інтегрованих в екосистему Google:
• Управління розумним будинком: асистент може контролювати
освітлення, термостати, камери відеоспостереження, розетки та інші
пристрої.
• Інформаційна допомога: відповіді на запитання, пошук у Google,
переклад текстів, прогноз погоди, новини.
• Планування: створення подій у календарі, нагадувань, списків
завдань.
• Мультимедіа: відтворення музики, керування телевізорами із
підтримкою Chromecast, інтеграція з музичними сервісами, такими як
Spotify.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 51
• Можливість локальної обробки (у новітніх версіях): Google
Assistant може виконувати базові запити без підключення до
інтернету, використовуючи локальне розпізнавання голосу.
Amazon Alexa — голосовий асистент від Amazon, відомий інтеграцією з
пристроями лінійки Echo:
• Широка підтримка розумного будинку: Alexa сумісна з багатьма
виробниками пристроїв для розумного будинку, включаючи
освітлення, системи безпеки, камери та розетки.
• Екосистема "Alexa Skills": користувачі можуть додавати спеціальні
програми, що розширюють функціональність Alexa. Наприклад,
інтеграція із сервісами доставки або програмами навчання.
• Мультимедійні функції: відтворення музики, аудіокниг, подкастів,
можливість створення сценаріїв для автоматизації завдань
(наприклад, вмикання музики під час вечері).
• Покупки через голос: можливість замовляти товари на Amazon за
допомогою голосових команд.
Microsoft Cortana — асистент, інтегрований у Windows. Його можливості
включають:
• Керування файлами та додатками: запуск програм, пошук файлів,
створення та перегляд нотаток.
• Планування завдань: робота з календарем, нагадуваннями,
організація робочого процесу.
• Сумісність із розумним будинком: підтримка інтеграції з деякими
платформами для автоматизації, проте значно обмежена в порівнянні
з конкурентами.
• Орієнтація на корпоративний сегмент: Cortana активно
використовується в бізнес-середовищі, інтегруючись із Microsoft
Office 365 для підвищення продуктивності.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 52
Порівняння асистентів Таблиця 3.1
Google Amazon
Функція Microsoft Cortana
Assistant Alexa
Управління розумним будинком + + * (обмежено)
Інформаційна допомога + + +
Мультимедіа + + * (обмежено)
+
Локальна обробка - -
(частково)
Сценарії автоматизації + + * (обмежено)
Попри значний прогрес, голосові асистенти стикаються з низкою
обмежень при інтеграції у системи з низькими апаратними можливостями,
такими як Raspberry Pi чи інші мікроконтролери. Основні проблеми
включають:
Обмеження апаратних ресурсів
Обробка голосових команд вимагає потужних процесорів, великого
обсягу оперативної пам’яті та достатнього місця для зберігання даних. У
малопотужних системах це викликає серйозні труднощі.
Залежність від хмарних сервісів
Більшість сучасних асистентів обробляють голосові запити на серверах,
що потребує постійного доступу до високошвидкісного інтернету. У
віддалених районах або автономних пристроях це може стати перешкодою.
Конфіденційність та безпека
Передача даних на зовнішні сервери несе ризики витоку конфіденційної
інформації. Для користувачів, які працюють із чутливими даними, це є
серйозним недоліком.
Складність локальної обробки даних
Створення локальної системи обробки голосових запитів потребує значних
зусиль для оптимізації моделей розпізнавання мови, особливо для
багатомовного середовища.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 53
Обмеження у підтримці локальних мов
Багато голосових асистентів мають обмежений набір підтримуваних мов,
що ускладнює їх використання у регіонах із нерозповсюдженими мовами.
Попри значний прогрес, голосові асистенти стикаються з низкою
обмежень при інтеграції у системи з низькими апаратними можливостями,
такими як Raspberry Pi чи інші мікроконтролери.
Основні проблеми включають
Обмеження апаратних ресурсів обробка голосових команд вимагає
потужних процесорів, великого обсягу оперативної пам’яті та достатнього
місця для зберігання даних. У малопотужних системах це викликає серйозні
труднощі.
Залежність від хмарних сервісів: більшість сучасних асистентів
обробляють голосові запити на серверах, що потребує постійного доступу до
високошвидкісного інтернету. У віддалених районах або автономних
пристроях це може стати перешкодою.
Конфіденційність та безпека: передача даних на зовнішні сервери несе
ризики витоку конфіденційної інформації. Для користувачів, які працюють із
чутливими даними, це є серйозним недоліком.
Складність локальної обробки даних: створення локальної системи
обробки голосових запитів потребує значних зусиль для оптимізації моделей
розпізнавання мови, особливо для багатомовного середовища.
Обмеження у підтримці локальних мов: багато голосових асистентів
мають обмежений набір підтримуваних мов, що ускладнює їх використання у
регіонах із нерозповсюдженими мовами.
Структура та модулі системи голосового асистента
Для створення голосового асистента з інтеграцією комп’ютерного зору
було обрано модульний підхід, що дозволяє легко масштабувати
функціональність системи. Основні компоненти включають:
Модуль розпізнавання голосових команд. Модуль розпізнавання
голосових команд є ключовим елементом інтегрованої системи, який дозволяє
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 54
користувачеві взаємодіяти з пристроєм за допомогою голосу. Його основні
завдання:
Активація системи за ключовим словом. Система постійно перебуває в
режимі очікування та переходить до активного стану після вимови
визначеного ключового слова (наприклад, "Комп'ютер").
Розпізнавання команд. Після активації система приймає голосову
команду, розпізнає її, обробляє та виконує відповідну дію. Для досягнення
високої продуктивності та надійності модуль працює у двох режимах, які
автоматично змінюються залежно від наявності інтернет-з'єднання:
Офлайн-режим із використанням Vosk Vosk — це бібліотека для офлайн-
розпізнавання мовлення, яка не потребує доступу до інтернету (Рис. 3.4). Вона
забезпечує швидке розпізнавання команд у реальному часі навіть на
малопотужних пристроях.[10]
Особливості офлайн-режиму
Локальність обробки: Усі дані обробляються безпосередньо на
пристрої, що забезпечує конфіденційність і незалежність від мережі.
Підтримка малопотужних пристроїв: Завдяки оптимізованим моделям
Vosk успішно працює навіть на обмеженому апаратному забезпеченні, такому
як Raspberry Pi.
Алгоритм роботи офлайн-режиму:
1. Система активується після розпізнавання ключового слова за допомогою
Vosk.
2. Після активації модуль аналізує голосову команду користувача.
3. Отримана команда порівнюється з набором заздалегідь визначених
шаблонів, збережених локально.
4. Система генерує відповідь або виконує дію відповідно до команди.
Переваги використання Vosk:
• Відсутність залежності від інтернету.
• Можливість локальної адаптації для нових команд або мов.
• Висока швидкість розпізнавання простих команд.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 55
Онлайн-режим із використанням Google Speech API забезпечує
розпізнавання голосу на основі хмарних обчислень, що дозволяє отримати
високу точність навіть для складних команд або специфічних мовних акцентів
(Рис. 3.5).[11]
Особливості онлайн-режиму
Хмарна обробка: голосові дані передаються на сервер Google для
аналізу та розпізнавання, після чого результат повертається на пристрій.
Висока точність: алгоритми машинного навчання, які використовує
Google, дозволяють розпізнавати навіть складні мовні конструкції.
Алгоритм роботи онлайн-режиму:
1. Система активується після розпізнавання ключового слова за допомогою
локальної моделі Vosk.
2. Усі подальші голосові дані передаються на сервер Google для аналізу.
3. Google Speech API розпізнає команду та повертає її текстовий результат.
4. Система обробляє отриману команду та виконує відповідну дію.
Переваги використання Google Speech API:
• Висока точність навіть за умов шуму або акценту.
• Широкий набір підтримуваних мов і можливість роботи з різними
контекстами.
• Актуальність і адаптивність алгоритмів розпізнавання.
Рис. 3.4. Офлайн-режим із використанням Vosk
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 56
Рис. 3.5.Онлайн-режим із використанням Google Speech API
Модуль розпізнавання облич для авторизації. Виконує ідентифікацію
користувача, використовуючи камеру для захоплення зображення та
алгоритми для розпізнавання облич (YOLOv8 і LBPH FaceRecognizer). Це
гарантує доступ до системи лише авторизованим особам.
Модуль активації системи. Працює в режимі прослуховування
аудіопотоку та активується за ключовим словом, наприклад, "комп'ютер".
Модуль синтезу мовлення. Генерує відповіді на запити користувача у
вигляді голосових повідомлень. У проєкті використовується Silero TTS, який
забезпечує офлайн-роботу та високу якість синтезу мови[12].
Логіка роботи системи
Очікування ключового слова: система знаходиться в стані очікування,
постійно прослуховуючи аудіопотік у пошуках ключового слова.
Використовується високоефективний алгоритм для активації без значного
навантаження на апаратні ресурси.
Активація системи: коли ключове слово розпізнане, система активує
камеру для захоплення зображення обличчя користувача.
Розпізнавання облич:
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 57
• Камера передає зображення у модуль розпізнавання.
• Модель YOLOv8 виявляє обличчя на кадрі.
• Алгоритм LBPH FaceRecognizer порівнює виявлене обличчя з базою
даних для авторизації.
• Якщо авторизація успішна, система переходить до наступного етапу.
Обробка голосової команди:
• Користувач озвучує команду, яка передається до модуля розпізнавання
голосу.
• У режимі офлайн використовуються локальні ресурси (Vosk), а в
онлайн-режимі – хмарний сервіс Google Speech API.
• Розпізнана команда аналізується, і система виконує відповідну дію.
Генерація відповіді:
• Результати виконання команди або відповідь генеруються модулем
Silero TTS у вигляді голосового повідомлення.
• Система повертається у стан очікування.
Цей підхід дозволяє створити інтегровану систему, яка поєднує голосове
управління з високою рівнем безпеки за рахунок розпізнавання облич, що
робить її зручною та безпечною навіть для пристроїв з обмеженими ресурсами.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 58
3.4. Тестування системи на реальних сценаріях та оцінка ефективності
Тестування розробленої системи було проведено в різних сценаріях для
оцінки ефективності та стабільності її роботи. У цьому розділі наведено
результати тестів для основних функцій системи, таких як активація (табл.3.2),
розпізнавання команд (табл.3.3), відтворення відповідей (табл.3.4), а також
перевірка роботи в режимах онлайн та офлайн (табл.3.5).
1. Тестування активації системи
Сценарій: Користувач вимовляє ключове слово "комп'ютер" для активації
системи.
Результати тестування активації Таблиця 3.2
Умови Результати Оцінка ефективності
тестування
Тиша Система успішно активується при чіткій Висока точність
вимові ключового слова.
Помірний шум Шум телевізора або розмови не значно Незначний вплив
впливають на активацію.
Гучний шум Гучний шум (пилосос, музика) дещо Можливі незначні збої
ускладнює розпізнавання, але система все
ще працює.
2. Розпізнавання голосових команд
Сценарій: Після активації користувач вимовляє різні команди (наприклад,
"Чай", "Анекдот", "Який у тебе настрій?"). Тестували також незрозумілі
команди.
Результати розпізнавання команд Таблиця 3.3
Тип команди Точність Швидкіст Результат
розпізнав ь
ання відповіді
Прості команди 98% 0.3 (сек.) Висока точність розпізнавання команд.
Складні команди 90% 0.6 (сек.) Хороша точність, хоча можливі затримки
при довших командах..
Незрозумілі команди —. —. Система відповідає, що не розуміє запиту.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 59
3. Відтворення звукових відповідей
Сценарій: Перевірка коректності відтворення відповідей із файлів
(responses/*.wav) та синтезу голосу (TTS).
Результати відтворення відповідей Таблиця 3.4
Тип відповіді Результат Час відтворення (сек.)
Аудіофайли (наприклад, Відтворюються стабільно 1.2
responses/answer1.wav) при наявності файлів
Синтез голосу через TTS Якісне озвучування, але 2.5
(Text-to-Speech) зростає затримка при довших
текстах
4. Перевірка роботи в режимах онлайн та офлайн
Сценарій: У присутності інтернету система використовує Google API, а в
офлайн-режимі — Vosk.
Результати роботи в різних режимах Таблиця 3.5
Режим Точність Час відповіді (сек.) Коментар
розпізнавання
(%)
Онлайн (Google 98 0,3 Висока точність та
API) швидкість відповіді.
Офлайн (Vosk) 85 0,6 Зниження точності, але
достатня функціональність
для базових команд.
Висновки з тестування Таблиця 3.6
Параметр Результат
Загальна точність системи 90-95% у більшості сценаріїв, зниження точності в умовах
високого шуму.
Час відповіді 0.3-0.6 секунд залежно від складності команди та наявності
інтернет-з'єднання.
Сумісність з обладнанням Висока, хоча для кращих результатів рекомендується
використання високоякісних мікрофонів.
Готовність до інтеграції Система показала хороші результати і готова до інтеграції у
реальні проєкти.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 60
Голосовий асистент демонструє стабільну роботу та високий рівень
точності при виконанні команд, що дає можливість ефективно
використовувати його в реальних умовах з різним обладнанням. Система
готова до подальшої інтеграції в проєкти на основі маломощних пристроїв та
для задач, що вимагають інтерактивної роботи з користувачем.
3.5. Висновки
У цьому розділі було детально розглянуто процес реалізації та
тестування алгоритмів комп'ютерного зору, зокрема YOLO та LBPH, що
використовуються для розпізнавання осіб в реальному часі, а також їх
інтеграцію в програмне забезпечення для робототехнічних систем.
Результати тестування, наведені в таблицях, підтверджують
ефективність обраних технологій. Зокрема, в тестах на активацію системи
(Таблиця 3.2), система продемонструвала високу точність при чіткій вимові
ключового слова, з незначним впливом шуму. У сценарії з гучним шумом
система мала незначні збої, але все ще працювала.
Щодо розпізнавання голосових команд (Таблиця 3.3), система показала
високу точність для простих команд (98%), при цьому складніші команди
також оброблялися з точністю 90%, хоча затримки в обробці були більшими.
Незрозумілі команди система не розпізнавала, що коректно вказує на
обмеження в обробці.
У тестах на відтворення звукових відповідей (Таблиця 3.4), система
стабільно відтворювала аудіофайли з часом 1.2 секунди, тоді як затримка при
синтезі голосу була більшою (2.5 секунди) при довших текстах. Це вказує на
важливість оптимізації для зменшення затримок у подібних сценаріях.
При тестуванні роботи в режимах онлайн та офлайн (Таблиця 3.5),
система показала високу точність і швидкість у режимі онлайн (98% точність
та 0,3 секунди відповіді), тоді як в офлайн-режимі точність знизилася до 85%,
але залишалася достатньою для базових команд. Це демонструє гнучкість
системи при різних умовах підключення.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 61
Загальні результати тестування (Таблиця 3.6) показали, що система
досягає загальної точності від 90% до 95% в більшості сценаріїв, з незначним
зниженням точності при високому рівні шуму. Час відповіді коливався від 0,3
до 0,6 секунд, залежно від складності команди та наявності інтернет-з'єднання.
Система продемонструвала високу сумісність з обладнанням, хоча для кращих
результатів рекомендується використання високоякісних мікрофонів.
Загалом, голосовий асистент показав стабільну роботу та високу
точність при виконанні команд, що дозволяє ефективно використовувати його
в реальних умовах. Система готова до інтеграції в проєкти, що базуються на
маломощних пристроях, та для задач, що вимагають інтерактивної роботи з
користувачем.
Подальші удосконалення можуть включати додаткове навчання моделей
для підвищення точності в специфічних умовах і оптимізацію алгоритмів для
роботи на пристроях з обмеженими ресурсами, таких як Raspberry Pi, що
дозволить забезпечити ще більшу мобільність і енергоефективність системи.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 62
ВИСНОВКИ
У дипломному проєкті "Інтеграція комп'ютерного зору в робототехнічні
системи з використанням платформи YOLO" було здійснено детальний аналіз
сучасних технологій комп'ютерного зору, зокрема алгоритмів YOLO та LBPH,
а також їх інтеграції в робототехнічні системи. Зокрема, були вивчені переваги
та обмеження традиційних методів комп'ютерного зору та сучасних підходів,
таких як нейронні мережі, а також застосування платформи YOLO для детекції
об'єктів та розпізнавання облич. Важливим етапом стало розгляд особливостей
алгоритму LBPH, який забезпечує надійне розпізнавання облич за допомогою
OpenCV.
У рамках проєкту було розроблено систему комп'ютерного зору, яка
поєднує алгоритми YOLO для виявлення об'єктів та LBPH для розпізнавання
облич, що дозволяє створювати ефективні робототехнічні платформи для
автоматизованої взаємодії з навколишнім середовищем. Зокрема, було
здійснено моделювання сценаріїв застосування системи в робототехніці, що
показало високу ефективність цієї інтеграції для вирішення завдань з
автономної навігації та управління безпекою.
Також важливим аспектом стало тестування системи в реальних умовах,
де було оцінено точність і швидкість роботи алгоритмів, а також їх здатність
адаптуватися до змінних умов навколишнього середовища, таких як
освітлення та шум. Система продемонструвала стабільну роботу при різних
сценаріях, зокрема з високою точністю розпізнавання облич і об'єктів, а також
успішною інтеграцією голосового асистента для забезпечення взаємодії з
користувачем.
Перспективи подальшого розвитку
Оптимізація для малопотужних пристроїв – подальша адаптація та
оптимізація алгоритмів для роботи на пристроях з обмеженими
обчислювальними ресурсами, таких як Raspberry Pi, для забезпечення ще
більшої енергоефективності та мобільності системи.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 63
Покращення точності та адаптивності – розширення навчальних
наборів даних для підвищення точності розпізнавання в специфічних умовах, а
також інтеграція нових алгоритмів для підвищення адаптивності системи до
різноманітних середовищ.
Інтеграція нових сенсорних технологій – можливе використання
додаткових сенсорів, таких як LiDAR або інфрачервоні камери, для
покращення ефективності виявлення об'єктів і забезпечення роботи в умовах
низької видимості.
Розширення функціональності голосового асистента – інтеграція
складніших голосових команд та покращення взаємодії з користувачем для
створення більш інтуїтивно зрозумілих і ефективних інтерфейсів.
Загалом, запропонована система є перспективним рішенням для
робототехнічних застосувань, що потребують інтеграції комп'ютерного зору
для автоматизованої навігації, ідентифікації об'єктів та управління безпекою, і
має великий потенціал для подальшого розвитку та вдосконалення.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 64
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Комп'ютерне зір: Стисле введення в теорію та алгоритми / Рейнхард Клетте.
– Springer, 2014. – 429 с.
2. Комп'ютерне зір: Сучасний підхід / Девід А. Форсайт, Жан Понс. – Pearson.
– 928 с.
3. OpenCV Computer Vision Projects with Python: Develop computer vision
applications with OpenCV / Michael Beyeler, Prateek Joshi, Joseph Howse, et al.
– Packt Publishing, 2016. – 570 с.
4. YOLOv8Face. [Електронний ресурс] / Режим доступу:
https://pypi.org/project/yolov8face/, 26.11.2024.
5. Analytics Vidhya. Розуміння розпізнавання обличчя за допомогою
алгоритму LBPH. [Електронний ресурс] / Режим доступу:
https://www.analyticsvidhya.com/blog/2021/07/understanding-face-recognition-
using-lbph-algorithm/, 26.11.2024.
6. Deep Learning for Vision Systems / Мохамед Елгенді – 2020, 1-е видання,
978-1617296192, 280 с.
7. Програмування комп'ютерного зору на мові PYTHON / Ян Ерик Солем –
2016, 312 с.
8. The Codacus. Створення датасету для розпізнавання облич за допомогою
OpenCV. [Електронний ресурс] / Режим доступу:
https://thecodacus.com/posts/2021-12-13-face-recognition-opencv-python-
dataset-generator/, 26.11.2024.
9. The Codacus. Тренування розпізнавача облич за допомогою OpenCV.
[Електронний ресурс] / Режим доступу: https://thecodacus.com/posts/2022-01-
07-face-recognition-opencv-%E2%80%93-training-a-face-recognizer/,
26.11.2024.
10. Alphacephei. Розмовні моделі VOSK [Електронний ресурс] / Режим
доступу: https://alphacephei.com/vosk/models 26.11.2024.
11. Google Cloud. Перетворення мови в текст. [Електронний ресурс] / Режим
доступу: https://cloud.google.com/speech-to-text, 26.11.2024.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 65
12. Snakers4. Silero Models. [Електронний ресурс] / Режим доступу:
https://github.com/snakers4/silero-models, 26.11.2024.
Лист
мРТ36024409.000 ПЗ
Змін. Лист № докум. Підпис Дата 66