Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/8471| Назва: | Розроблення та дослідження системи керування розумним будинком |
| Автори: | Туз, Вячеслав Валерійович Станкевич, Олесь Сергійович |
| Дата публікації: | 15-гру-2024 |
| URI (Уніфікований ідентифікатор ресурсу): | https://er.chdtu.edu.ua/handle/ChSTU/8471 |
| Розташовується у зібраннях: | 174 Автоматизація, комп'ютерно-інтегровані технології та робототехніка (Робототехнічні системи та автоматизація) |
Файли цього матеріалу:
| Файл | Опис | Розмір | Формат | |
|---|---|---|---|---|
| КМР-Станкевич О.pdf Restricted Access | КРМ Станкевич О. | 3.6 MB | Adobe PDF | Переглянути/Відкрити Запит копії |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.
Extracted text
3 ЗМІСТ ВСТУП 5 РОЗДІЛ 1. Огляд літератури та вибір напрямку дослідження огляд систем домашньої автоматизації 6 1.1 Еволюція домашньої автоматизації 6 1.2 Голосові асистенти штучного інтелекту в домашній автоматизації 9 1.3 Технології розпізнавання мовлення 14 1.4 Конфіденційність і безпека в системах голосового ШІ 22 1.5 Взаємодія пристроїв у розумних будинках 26 Висновок до розділу 1 31 РОЗДІЛ 2. Цілі та методологічна основа дослідження 33 2.1 Цілі та гіпотези дослідження 33 2.2 Аналіз системних вимог 38 2.3 Проектування архітектури системи 43 2.4 Алгоритми класифікації 53 2.5 Передові технології розпізнавання мовлення 56 2.6 Методологія теоретичних та експериментальних досліджень 64 Висновок до розділу 2 69 РОЗДІЛ 3. Технічні основи та реалізація голосового ai-помічника 70 3.1 Юзабіліті-тестування з різними групами користувачів 70 3.2 Аналіз ефективності 71 3.2 Порівняння з існуючими голосовими помічниками 76 3.4 Результати впровадження локальної обробки даних 79 Висновок до розділу 3 82 РОЗДІЛ 4. Впровадження системи 83 4.1 Впровадження системи 83 4.2 Тестування на сумісність 93 4.3 Обговорення результатів 97 Висновок до розділу 4 100 4 ВИСНОВКИ 102 СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 103 ДОДАТОК А Акт впровадження ДОДАТОК Б Публікація ДОДАТОК В Презентація кваліфікованої роботи 5 ВСТУП У даній випускній кваліфікаційній роботі розглядається проектування та розробка голосового асистента зі штучним інтелектом для інтеграції в системи домашньої автоматизації. У роботі приділено увагу вирішенню ключових питань конфіденційності, безпеки та доступності, а також забезпеченню безперебійної взаємодії з широким спектром пристроїв. Актуальність роботи обумовлена стрімким розвитком технологій “розумного дому” та необхідністю адаптації голосових асистентів до сучасних потреб користувачів, зокрема, забезпечення їхньої конфіденційності й сумісності з існуючими платформами. Мета роботи полягає у створенні безпечного, ефективного та доступного голосового асистента, який забезпечить інтеграцію з системами домашньої автоматизації, використовуючи сучасні технології розпізнавання мовлення та периферійні обчислення. Об’єктом дослідження є системи голосового управління у сфері домашньої автоматизації. Предметом дослідження виступають технології розпізнавання мовлення, архітектури штучного інтелекту, а також стандарти сумісності пристроїв. Для досягнення мети роботи були застосовані різноманітні методи, зокрема аналіз і синтез сучасних технологій, які використовуються в розумних будинках і голосових асистентах. У процесі роботи виконувалося моделювання та оптимізація системи розпізнавання мовлення з використанням моделі OpenAI Whisper, а також тестування голосового асистента в реальних умовах за допомогою платформи Home Assistant. Особливу увагу було приділено розробці механізмів локальної обробки даних, що дозволяють забезпечити конфіденційність користувачів. Результати дослідження дозволять покращити ефективність та безпеку голосових асистентів у системах домашньої автоматизації, сприяючи підвищенню зручності та доступності цих технологій. 6 РОЗДІЛ 1 ОГЛЯД ЛІТЕРАТУРИ ТА ВИБІР НАПРЯМКУ ДОСЛІДЖЕННЯ ОГЛЯД СИСТЕМ ДОМАШНЬОЇ АВТОМАТИЗАЦІЇ Домашня автоматизація змінила спосіб взаємодії з нашим житловим простором, еволюціонуючи від простих механічних пристроїв до складних систем, які можуть передбачати та реагувати на наші потреби. У цьому розділі ми детально розглянемо еволюцію домашньої автоматизації, проаналізуємо сучасні тенденції в технологіях "розумного дому" та підкреслимо важливість автоматизації в житловому середовищі. 1.1 Еволюція домашньої автоматизації Концепція домашньої автоматизації з'явилася на початку 20-го століття, в основі якої лежить прагнення підвищити ефективність і зручність ведення домашнього господарства. Цей шлях розпочався з появою базових електроприладів, таких як пральні машини та холодильники, які зробили революцію в домашньому господарстві. Однак ці пристрої працювали незалежно, без будь-якого взаємопов'язаного контролю. 1960-ті та 1970-ті роки ознаменувалися значним стрибком з появою ранніх систем автоматизації, таких як протокол X10. Розроблений у 1975 році, протокол X10 дозволив електронним пристроям обмінюватися даними через лінії електропередач, що уможливило дистанційне керування побутовими приладами. Ця технологія заклала основу для централізованого управління, але була обмежена низькою швидкістю зв'язку та недостатньою надійністю. У 1980-х і 1990-х роках мікропроцесори та персональні комп'ютери почали впроваджуватися в домашню автоматизацію. Системи стали більш досконалими, пропонуючи програмовані налаштування та елементарні мережеві можливості. Однак 7 висока вартість і складна інсталяція обмежували ці технології розкішними будинками. Справжня революція в домашній автоматизації відбулася наприкінці 2000-х років з поширенням Інтернету та бездротових технологій зв'язку. Впровадження Wi- Fi та Bluetooth дозволило пристроям безперешкодно підключатися до мережі, забезпечуючи більшу гнучкість та контроль. Смартфони стали універсальними пультами дистанційного керування, а концепція "розумного дому" почала набирати популярності. Сьогодні домашня автоматизація охоплює широкий спектр технологій, від інтелектуального освітлення та клімат-контролю до систем безпеки та розважальних мереж. Еволюція продовжується, оскільки штучний інтелект (ШІ) і машинне навчання (МН) інтегруються в домашні системи, роблячи їх більш чутливими і персоналізованими. Індустрія "розумних будинків" переживає стрімке зростання, зумовлене технологічним прогресом і зростаючим попитом споживачів на зручність, ефективність і безпеку. Кілька ключових тенденцій формують сучасний ландшафт технологій "розумного дому": Інтернет речей став наріжним каменем сучасної домашньої автоматизації. З'єднуючи пристрої та системи через Інтернет, IoT забезпечує безперебійну комунікацію та координацію. Розумні термостати регулюють опалення залежно від кількості мешканців, холодильники контролюють запаси продуктів, а системи освітлення реагують на рівень природного освітлення. Взаємозв'язок, який забезпечує Інтернет, підвищує ефективність і покращує досвід користувачів. Пристрої з голосовим управлінням, такі як Amazon Alexa, Google Assistant та Apple Siri, зробили революцію у взаємодії користувачів з домашніми системами. Голосові команди пропонують інтуїтивно зрозумілий спосіб керування різними функціями, від відтворення музики до замикання дверей. Ця тенденція підштовхує виробників інтегрувати можливості голосового управління у свої продукти, сприяючи більшій доступності. 8 Штучний інтелект і машинний інтелект дозволяють домашнім системам вчитися на поведінці та вподобаннях користувачів. Розумні асистенти можуть передбачати потреби, наприклад, розігрівати духовку перед їжею або налаштовувати освітлення для оптимального комфорту. Аналітика на основі штучного інтелекту також сприяє економії електроенергії, оптимізуючи роботу пристроїв на основі моделей використання. Все більше уваги приділяється екологічно чистим технологіям. Системи "розумного дому" тепер зосереджені на зменшенні споживання енергії завдяки розумному управлінню ресурсами. Сонячні панелі, інтегровані з домашньою електромережею, енергоефективні прилади та моніторинг використання енергії в режимі реального часу стають стандартними функціями. Досягнення в галузі технологій безпеки надають домовласникам сучасні інструменти для захисту їхнього майна. Такі функції, як розпізнавання облич, біометричний контроль доступу та спостереження в режимі реального часу за допомогою підключених камер, забезпечують підвищену безпеку. Інтеграція з мобільними пристроями дозволяє здійснювати віддалений моніторинг і миттєві сповіщення. У міру того, як будинки стають все більш підключеними, зростає занепокоєння щодо приватності та безпеки даних. Виробники та розробники зараз надають пріоритет безпечній передачі даних, шифруванню та дотриманню правил конфіденційності, щоб побудувати довіру зі споживачами. Сучасні тенденції підкреслюють зв'язок, інтелект і персоналізацію, що відображає перехід до більш чутливих і орієнтованих на користувача систем. Важливість автоматизації в житлових приміщеннях очевидна завдяки її здатності підвищувати комфорт, сприяти сталому розвитку, покращувати безпеку та задовольняти потреби різних груп населення, в тому числі людей з інвалідністю. З розвитком технологій домашня автоматизація стане невід'ємною частиною сучасного життя, перетворюючи будинки на інтелектуальне, чуйне середовище, яке задовольняє мінливі потреби своїх мешканців. 9 1.2 Голосові асистенти штучного інтелекту в домашній автоматизації Голосові асистенти зі штучним інтелектом стали ключовим компонентом в еволюції розумних будинків, пропонуючи інтуїтивно зрозуміле управління безліччю пристроїв і систем без допомоги рук. У цьому розділі досліджується роль голосових асистентів у розумних будинках, надається аналіз існуючих комерційних голосових асистентів і розглядаються їхні обмеження. Голосові асистенти революціонізували спосіб взаємодії користувачів з технологіями в домашніх умовах. Використовуючи обробку природної мови та розпізнавання мовлення, ці асистенти дозволяють користувачам керувати пристроями розумного будинку за допомогою голосових команд, підвищуючи зручність і доступність. ● Керування без допомоги рук: Голосові асистенти дозволяють користувачам керувати пристроями без необхідності фізичної взаємодії, що особливо корисно в умовах багатозадачності або коли ручне керування незручне. ● Природна комунікація: Спілкування з пристроями за допомогою природної мови робить технологію більш доступною, скорочуючи час навчання, пов'язаний зі складними інтерфейсами. ● Інтеграція з розумними пристроями: ● Централізоване управління: Голосові асистенти виконують роль центрального вузла, інтегруючи різні інтелектуальні пристрої, такі як системи освітлення, термостати, камери безпеки та розважальні системи. ● Автоматизація та планування: Користувачі можуть встановлювати рутини та розклади за допомогою голосових команд, автоматизуючи повторювані завдання та налаштовуючи своє середовище відповідно до власних уподобань. 10 Таблиця 1.1 Порівняня існу.чих систем домашньої автоматизації Amazon Alexa Google Assistant Apple Siri Огляд Запущена компанією Розроблений Представлена Amazon у 2014 році, компанією Google, він компанією Apple у Alexa інтегрована в інтегрований у 2011 році, Siri лінійку розумних пристрої Google Home, інтегрована в колонок Echo та різні смартфони на базі пристрої iOS, пристрої сторонніх Android та різні колонки HomePod виробників. продукти сторонніх та комп'ютери Mac. виробників. Особлив Велика бібліотека Просунута інтеграція Бездоганно працює ості навичок: Alexa штучного інтелекту та з пристроями та пропонує тисячі пошуку: Використовує сервісами Apple, "навичок" - голосових пошукові можливості такими як iCloud, програм, які Google для отримання Apple Music та розширюють точних і контекстно- HomeKit. функціональність. залежних відповідей. Підхід, Сумісність з широким Мовна підтримка: орієнтований на спектром пристроїв Забезпечує підтримку конфіденційність: розумного будинку від декількох мов і плавне Apple наголошує на різних виробників. перемикання між ними. конфіденційності Підтримка Безперервна розмова: користувачів, багатокімнатного Дозволяє ставити обробляючи значну аудіо: Дозволяє подальші запитання без частину даних на синхронізувати повторення слова своїх пристроях. відтворення музики на пробудження. кількох пристроях. 11 Продовження таблиці 1.1 Сильні Відкрита екосистема: Розуміння природної Прихильність Apple сторони Заохочує розробку мови: Чудово розуміє до конфіденційності сторонніх контекст і обробляє відрізняє Siri від розробників, що складні запити. конкурентів. призводить до Інтеграція з сервісами Інтуїтивно широкого спектру Google: зрозумілий інтеграцій. Синхронізується з інтерфейс, Доступність: Пристрої Google Calendar, Gmail знайомий Echo доступні за та іншими сервісами користувачам Apple. різними ціновими для персоналізованої категоріями, що допомоги. робить Alexa доступною для широкої аудиторії. Слабкі Випадки ненавмисних Хоча екосистема HomeKit має менше сторони записів і порушень зростає, вона не така сумісних пристроїв даних викликали велика, як у Alexa. порівняно з іншими питання Як і у випадку з екосистемами. конфіденційності. іншими помічниками, Можливості Siri у Для повної практика збору даних розумінні природної функціональності була ретельно мови та контекстної потрібне стабільне перевірена. обізнаності часто інтернет-з'єднання. вважають такими, що поступаються Alexa та Google Assistant. 12 На ринку голосових асистентів зі штучним інтелектом домінують кілька ключових гравців, кожен з яких пропонує унікальні функції та можливості. Аналіз цих асистентів дає уявлення про їхній внесок у домашню автоматизацію. ● Інтеграція екосистеми: Alexa і Google Assistant лідирують у сумісності з пристроями та інтеграції зі сторонніми розробниками, пропонуючи більшу гнучкість у створенні екосистеми розумного будинку. ● Штучний інтелект: Вдосконалений штучний інтелект Google Assistant забезпечує більш точну та контекстну взаємодію. ● Конфіденційність: Siri від Apple вирізняється своїм підходом, орієнтованим на конфіденційність, що приваблює користувачів, які турбуються про безпеку даних. ● Присутність на ринку: Amazon та Google агресивно просувають свої пристрої на ринку, захопивши значну частку ринку. Обмеження комерційних голосових помічників Незважаючи на свою популярність і прогрес, комерційні голосові помічники стикаються з низкою обмежень, які впливають на користувацький досвід і адаптацію. Голосові асистенти постійно слухають слова для пробудження, що викликає побоювання щодо ненавмисних записів.Дані часто обробляються і зберігаються на хмарних серверах, що може призвести до витоку особистої інформації. Інтеграція зі сторонніми навичками та додатками може створювати вразливості, якщо нею не керувати належним чином. Випадки витоку та зловживання даними підірвали довіру серед користувачів. ● Функціональні обмеження: Більшість голосових помічників потребують активного підключення до Інтернету для обробки команд. Проблеми зі з'єднанням можуть призвести до того, що асистент не реагуватиме на запити, що вплине на його надійність. ● Проблеми із затримками: Затримки в обробці можуть виникати через затримку в мережі, що впливає на взаємодію в реальному часі. ● Жорстка структура команд: Користувачам часто доводиться вивчати специфічні командні фрази, що знижує інтуїтивність взаємодії. Налаштування 13 реакцій та поведінки може бути обмеженим, що обмежує можливість пристосувати асистента до індивідуальних потреб. ● Ризики безпеки: Голосові помічники можуть бути чутливими до несанкціонованих команд, якщо розпізнавання голосу не захищене. Можливість для хакерів використовувати вразливості для отримання контролю над підключеними пристроями. ● Проблеми взаємодії: Виробники можуть обмежувати сумісність власними продуктами або схваленими партнерами, обмежуючи вибір пристроїв. Відсутність універсальних стандартів може призвести до непослідовної роботи на різних пристроях і платформах. ● Етичні та соціальні аспекти: Користувачі можуть не повністю усвідомлювати, як їхні дані використовуються, зберігаються або поширюються. Залежність від голосових помічників може вплинути на моделі спілкування між людьми. Голосові асистенти зі штучним інтелектом значно розширили функціональність і привабливість "розумних" будинків, забезпечивши інтуїтивно зрозумілий контроль над широким спектром пристроїв і послуг. Провідні асистенти - Amazon Alexa, Google Assistant та Apple Siri - мають унікальні переваги, але також мають спільні недоліки, зокрема, щодо конфіденційності, залежності від підключення до Інтернету та проблем з доступністю.. Ці висновки є основою для вивчення альтернативних підходів до голосових асистентів зі штучним інтелектом, таких як розробка систем, які обробляють дані локально, пропонують більше можливостей для кастомізації та дотримуються відкритих стандартів сумісності з пристроями. Усунувши виявлені обмеження, можна створити більш безпечний, доступний і ефективний голосовий асистент ШІ, пристосований до потреб сучасних розумних будинків. 14 1.3 Технології розпізнавання мовлення Технологія розпізнавання мовлення є наріжним каменем голосових помічників зі штучним інтелектом і відіграє важливу роль у забезпеченні природної та інтуїтивної взаємодії між людьми і машинами. У цьому розділі розглядаються основи розпізнавання мови, досліджуються досягнення в моделях розпізнавання мови та надається огляд OpenAI Whisper - сучасної моделі, яка зробила значний внесок у цю сферу. Розпізнавання мови, також відоме як автоматичне розпізнавання мови (ASR), - це процес, за допомогою якого комп'ютерна система ідентифікує та інтерпретує розмовну мову, перетворюючи її на машинозчитуваний текст. Основна мета розпізнавання мовлення - уможливити керування пристроями без допомоги рук, полегшити диктування та підтримати функції доступності для людей з обмеженими можливостями. Типова система розпізнавання мови складається з кількох ключових компонентів: 1. Акустична модель: Відображає зв'язок між звуковими сигналами та фонетичними одиницями мови (фонемами). Вона аналізує вхідний аудіосигнал і оцінює ймовірність того, що фонеми будуть вимовлені. 2. Мовна модель: Фіксує ймовірності послідовностей слів у мові, допомагаючи передбачити наступне слово на основі контексту. Це гарантує, що згенерований текст буде зв'язним і граматично правильним. 3. Лексикон (словник вимови): Зіставляє слова з їхніми відповідними фонетичними представленнями, поєднуючи акустичну та мовну моделі. 4. Виділення характеристик: Перетворює необроблені аудіосигнали на набір числових характеристик, які легше піддаються обробці, наприклад, цепстральні коефіцієнти Мел-частоти (MFCC). 5. Декодер: Інтегрує акустичну модель, мовну модель і лексикон для генерації найбільш вірогідної послідовності слів, що відповідає вхідному мовленню. 15 У випадку наскрізних моделей, таких як Whisper, використовується втрата CTC (Connectionist Temporal Classification), яка обчислюється за формулою: 1.1 де: ● Вхідна послідовність (наприклад, аудіо), ● : Цільова послідовність (наприклад, текстова транскрипція), ● : Навчальний набір даних. Потік процесу розпізнавання мовлення 1. Аудіовхід: Система отримує аудіосигнал через мікрофон або аудіофайл. 2. Попередня обробка: Аудіосигнал піддається шумозаглушенню та нормалізації для покращення якості. 3. Виділення ознак: Використовується метод темпорального пулінгу для зменшення часової роздільної здатності: 1.2 де: ● ℎ: Вектор ознак на -му кроці часу, ● : Кількість часових кроків. 4. Акустичне моделювання: Аналізує особливості розпізнавання фонем на основі статистичних моделей. 5. Мовне моделювання: Використовує контекст для прогнозування послідовностей слів, підвищуючи точність. 6. Декодування: Поєднує інформацію з акустичної та мовної моделей для створення остаточної транскрипції. 16 Сфера розпізнавання мовлення значно розвинулася, завдяки вдосконаленню обчислювальних потужностей, алгоритмів машинного навчання та наявності великих масивів даних. Приховані марковські моделі (HMM): Ранні системи розпізнавання мови покладалися на HMM у поєднанні з моделями гауссових сумішей (GMM) для акустичного моделювання. HMM - це статистичні моделі, які представляють імовірнісні переходи між прихованими станами (фонемами) з плином часу. 1.3 де: ● : Послідовність прихованих станів, ● : Послідовність спостережень, ● : Кількість часових кроків. Ці системи не могли впоратися з варіативністю мовлення і вимагали значної функціональної розробки. Вони були менш ефективними в обробці складних лінгвістичних структур і акцентів. Інтеграція методів глибокого навчання зробила революцію в розпізнаванні мови: ● Глибокі нейронні мережі (DNN): DNN замінили GMM в акустичному моделюванні, забезпечуючи краще представлення складних патернів у даних. ● Рекурентні нейронні мережі (RNN): ШНМ, зокрема мережі з довгою короткочасною пам'яттю (LSTM), вловлюють часові залежності в мові, покращуючи прогнозування послідовності. ● Згорткові нейронні мережі (CNN): CNN виділяють ієрархічні ознаки зі спектрограм, покращуючи здатність системи розпізнавати мову в умовах шуму. Наскрізні моделі 17 ● Конекціоністська часова класифікація (КТК): CTC дозволяє нейронним мережам узгоджувати вхідні аудіокадри з вихідними мітками без явної сегментації, що спрощує навчання. ● Послідовно-послідовні моделі з механізмами уваги: Ці моделі, що використовують архітектуру кодера-декодера, дозволяють системі зосереджуватися на відповідних частинах вхідних даних під час генерації кожної частини вихідних даних, підвищуючи точність. Трансформаторні моделі ● Трансформатори: Впроваджені в обробці природної мови (NLP), трансформатори покладаються на механізми самоуваги для паралельної обробки цілих вхідних послідовностей, більш ефективно фіксуючи глобальні залежності. ● Застосування в розпізнаванні мови: Такі моделі, як Speech Transformer, адаптували цю архітектуру для завдань ASR, скоротивши час навчання та покращивши продуктивність. ● Перенесення навчання: Використання моделей, попередньо навчених на великих наборах даних, дозволило тонко налаштувати їх на конкретні завдання з меншими наборами даних, що підвищило адаптивність та ефективність. ● Двонаправлені кодерні представлення з трансформаторів (BERT): Хоча концепції BERT використовуються переважно в НЛП, вони вплинули на моделі розпізнавання мовлення для кращого розуміння контексту. Також варто розглянути способи досягнення шумостійкості в моделях ● Доповнення даних: Такі методи, як додавання фонового шуму та реверберації під час навчання, покращили здатність моделі справлятися з реальними умовами. ● Адаптивне шумозаглушення: Впровадження алгоритмів, які пристосовуються до різних рівнів шуму, підвищує чіткість. Багатомовні моделі навчання розширили сферу їх застосування і дозволили здійснювати міжмовне трансферне навчання. OpenAI Whisper - це передова модель розпізнавання мови, розроблена для усунення недоліків попередніх систем. Вона використовує передові методи 18 глибокого навчання для досягнення високої точності та надійності в різних мовах і умовах. Whisper використовує архітектуру на основі трансформаторів, що дозволяє йому ефективно обробляти вхідні послідовності та фіксувати довгострокові залежності. Навчена на різноманітному наборі даних, що містить кілька мов, Whisper може розпізнавати і транскрибувати мову в різних мовних контекстах. Модель здатна обробляти фоновий шум, різні акценти та діалекти, що робить її універсальною для застосування в реальних умовах. Рисунок 1.1 Пайплайн для обробки та класифікації аудіо Whisper Попередньо навчені мовні моделі ● Висока точність: Досягає найсучасніших показників у тестах розпізнавання мови, зменшуючи кількість помилок у словах порівняно з попередніми моделями. 19 ● Адаптивність: Можливість точного налаштування для конкретних наборів даних, що дозволяє кастомізувати їх для певних доменів або потреб користувачів. ● Ідентифікація мови: Автоматично визначає мову, якою ви розмовляєте, полегшуючи безперешкодну багатомовну взаємодію. ● Навчання з нуля: Може узагальнювати, щоб розпізнавати слова та фрази, яких не бачив під час тренування, покращуючи свою здатність працювати з новою лексикою. Точне налаштування є критично важливим аспектом адаптації попередньо навчених моделей, таких як Whisper, до конкретних застосувань: Тренуючись на даних, що стосуються певної галузі, модель може вивчати термінологію та мовленнєві патерни, унікальні для цієї галузі, покращуючи точність. Точне налаштування на основі голосових даних користувача дозволяє моделі краще розуміти індивідуальні особливості мовлення, такі як акцент або дефекти мовлення. Точне налаштування вимагає відносно невеликої кількості даних порівняно з навчанням з нуля, що робить його практичним для цільової кастомізації. ● Трансферне навчання: Адаптує знання попередньо навченої моделі до нових завдань або областей без перенастроювання. ● Планування швидкості навчання: Регулювання швидкості навчання під час точного налаштування забезпечує стабільну збіжність і запобігає різким змінам попередньо натренованих ваг. ● Регуляризація: Такі методи, як відсіювання та зменшення ваги, запобігають надмірному припасуванню до набору даних для точного налаштування. Модель може бути розгорнута для локальної обробки, вирішуючи проблеми з передачею конфіденційних аудіоданих на хмарні сервери. Оптимізований для продуктивності, Whisper може працювати в додатках реального часу з мінімальною затримкою. Його архітектура дозволяє збільшувати або зменшувати масштаби на основі обчислювальних ресурсів, що робить його придатним для різних пристроїв. 20 Точність і надійність Whisper покращують взаємодію користувачів з голосовими помічниками ШІ в розумних будинках. Краще розпізнавання різноманітних мовних шаблонів допомагає створювати інклюзивні системи для користувачів з порушеннями мовлення. Точне налаштування на основі даних, зібраних в домашніх умовах, може оптимізувати модель для конкретного навколишнього шуму і моделей використання. Whisper покращує взаємодію користувачів із голосовими помічниками в розумних будинках. Точне налаштування дозволяє адаптувати модель до навколишнього шуму: 1.4 де: ● : Оригінальний аудіосигнал, ● : Шумовий сигнал, ● : Вага шуму. Але дані підходи мають певні виклики а саме: ● Обчислювальні ресурси: Точне налаштування та розгортання великих моделей може вимагати значних обчислювальних потужностей, що може бути обмеженням для периферійних пристроїв. ● Конфіденційність даних: Хоча локальна обробка підвищує конфіденційність, збір і зберігання голосових даних для точного налаштування повинні здійснюватися ретельно, щоб відповідати вимогам законодавства. ● Етичне використання: Забезпечення відповідального використання технології, повага до згоди користувача та уникнення потенційних упереджень при розпізнаванні. Розвиток технологій розпізнавання мовлення значно розширив можливості голосових асистентів зі штучним інтелектом, зробивши взаємодію більш природною та ефективною. Розуміння основ розпізнавання мовлення дає змогу оцінити складнощі, пов'язані з перетворенням розмовної мови в текст. 21 Останні розробки були зосереджені на моделях глибокого навчання, зокрема на трансформаторних архітектурах, які підвищують точність і надійність. OpenAI Whisper є вершиною цих досягнень, пропонуючи потужний інструмент для розпізнавання мови з потенціалом тонкого налаштування для конкретних застосувань. Рисунок 1.2 Архітектура екосистеми штучного інтелекту для розумного будинку Використовуючи такі моделі, як Whisper, і тонко налаштовуючи їх для домашньої автоматизації, можна створювати голосових помічників зі штучним інтелектом, які будуть високоточними, чуйними та персоналізованими. Цей підхід усуває багато обмежень існуючих комерційних асистентів, таких як обробка різноманітних мовних патернів і ефективна робота в різних середовищах. Впровадження передових моделей розпізнавання мови в розробку систем домашньої автоматизації покращує користувацький досвід, доступність і конфіденційність. Це відповідає загальній меті розробки безпечного, доступного та 22 ефективного голосового асистента зі штучним інтелектом, який би задовольняв потреби сучасних розумних будинків. 1.4 Конфіденційність і безпека в системах голосового ШІ Інтеграція голосових систем штучного інтелекту в домашню автоматизацію приносить значну зручність, але також викликає серйозні занепокоєння щодо конфіденційності та безпеки. У цьому розділі розглядаються питання конфіденційності даних, пов'язані з голосовими помічниками, аналізуються ризики безпеки, властиві хмарній обробці даних, і обговорюються підходи до створення систем штучного інтелекту, що зберігають конфіденційність. Голосові помічники постійно прослуховують фрази активації, що призводить до збору величезної кількості персональних даних, включаючи записи голосу, вподобання користувачів і поведінкові патерни. Ці дані часто зберігаються на хмарних серверах, якими керують постачальники послуг, що створює ризики, якщо вони не захищені належним чином. Повідомлялося про випадки, коли голосові помічники помилково активували і записували розмови без наміру користувача. Такі ненавмисні записи можуть містити конфіденційну інформацію, що викликає занепокоєння щодо підслуховування та несанкціонованого збору даних. Існує також ризик неправомірного використання даних працівниками або третіми особами, які мають доступ до збереженої інформації. Багато користувачів не знають про обсяг даних, зібраних голосовими помічниками, і про те, як вони використовуються. Політика конфіденційності часто є складною і незрозумілою, що призводить до відсутності інформованої згоди. Користувачі можуть мати обмежений контроль над своїми даними, зокрема труднощі з доступом, переглядом або видаленням своєї інформації. Постачальники послуг можуть ділитися даними користувачів зі сторонніми партнерами з метою реклами, аналітики або покращення сервісу. Такий обмін 23 збільшує вразливість персональних даних і можливість їхнього зловживання, особливо якщо треті сторони не вживають надійних заходів безпеки. Голосові дані, що передаються на хмарні сервери, можуть бути перехоплені та зламані, якщо вони не зашифровані належним чином. Кіберзлочинці можуть використовувати слабкі місця в протоколах зв'язку для доступу до конфіденційної інформації, що призводить до крадіжки персональних даних або несанкціонованого доступу до систем домашньої автоматизації. Зберігання великих обсягів даних на централізованих хмарних серверах створює привабливі цілі для кібератак. Гучні витоки продемонстрували, що навіть добре забезпечені ресурсами компанії можуть стати жертвами прогалин у системі безпеки, викриваючи особисту інформацію мільйонів користувачів. Хмарна обробка даних вимагає постійного підключення до інтернету. Перебої в мережі можуть призвести до непрацездатності голосових помічників, що вплине на надійність систем домашньої автоматизації. Крім того, залежність від зовнішніх серверів призводить до затримок, що впливає на швидкість реагування в реальному часі. Інтеграція зі сторонніми сервісами розширює функціональність, але також створює додаткові ризики для безпеки. Уразливості в сторонніх API або додатках можуть бути використані для отримання несанкціонованого доступу до основної системи. Важливо переконатися, що всі інтеграції відповідають суворим стандартам безпеки. Зловмисники можуть маніпулювати голосовими командами за допомогою таких методів, як "ворожі атаки", коли зловмисні вхідні дані розраховані на те, що система штучного інтелекту буде неправильно інтерпретована. Такі експлойти можуть викликати несанкціоновані дії або відключити функції безпеки в системі домашньої автоматизації. Вирішення проблем конфіденційності та безпеки вимагає впровадження надійних стратегій, які захищають дані користувачів без шкоди для функціональності. Два основні підходи - локальна обробка даних і наскрізне шифрування. 24 Локальна обробка даних передбачає обробку даних безпосередньо на пристрої користувача, а не передачу їх на зовнішні сервери. Такий підхід підвищує рівень конфіденційності, зберігаючи конфіденційну інформацію в межах домашньої мережі. ● Підвищена конфіденційність: Усуває необхідність надсилати персональні дані через Інтернет, зменшуючи ризик потенційного перехоплення. ● Зменшення затримок: Покращує час відгуку завдяки локальній обробці команд, що призводить до більш безперебійної роботи користувача. ● Офлайн-функціональність: Дозволяє голосовим помічникам працювати без підключення до інтернету, підвищуючи надійність і доступність. Такі компанії, як Apple, впровадили обробку даних на пристрої для певних функцій своїх голосових помічників, наголошуючи на конфіденційності користувачів. Досягнення в галузі периферійних обчислень та оптимізовані алгоритми роблять локальну обробку більш доцільною для ширшого кола пристроїв. Наскрізне шифрування (E2EE) гарантує, що дані шифруються на пристрої відправника і залишаються зашифрованими доти, доки не досягнуть адресата. Тільки користувачі, які спілкуються, мають ключі для розшифрування, що запобігає доступу посередників до даних. ● Безпека даних: Захист від перехоплення та несанкціонованого доступу під час передачі та зберігання. ● Відповідність нормативним вимогам: Допомагає відповідати законодавчим вимогам щодо захисту даних та конфіденційності. ● Довіра користувачів: Підвищує впевненість у здатності системи захищати особисту інформацію. 1. Безпечні протоколи зв'язку: Використання таких протоколів, як Transport Layer Security (TLS) для передачі даних. 2. Зашифроване сховище: Захист даних у стані спокою за допомогою надійних алгоритмів шифрування. 3. Апаратні модулі безпеки (HSM): Використання спеціального обладнання для безпечного зберігання ключів і криптографічних операцій. 25 Рисунок 1.3 Модель загроз комунікації та безпеки розумного будинку Конфіденційність і безпека є першочерговими питаннями при розгортанні систем голосового ШІ в домашній автоматизації. Збір та обробка персональних даних голосовими помічниками викликає значні проблеми з конфіденційністю, включаючи ненавмисні записи, відсутність контролю з боку користувача та потенційне зловживання інформацією. Обробка даних у хмарі створює додаткові ризики для безпеки, такі як вразливість передачі даних, централізовані витоки даних і залежність від постійного підключення до інтернету. Баланс між функціональністю, конфіденційністю та безпекою вимагає ретельного підходу до дизайну системи, її ресурсних можливостей і потреб користувачів. Застосовуючи ці підходи, розробники можуть створювати голосових помічників зі штучним інтелектом, які поважають конфіденційність користувачів, підтримують надійну безпеку та забезпечують ефективну роботу, тим самим зміцнюючи довіру та сприяючи ширшому впровадженню технологій домашньої автоматизації. 26 1.5 Взаємодія пристроїв у розумних будинках Сучасний розумний будинок складається з різноманітних пристроїв і технологій, які працюють разом для підвищення комфорту, безпеки та енергоефективності. Сумісність пристроїв - здатність різних пристроїв і систем безперебійно взаємодіяти і функціонувати - має вирішальне значення для реалізації повного потенціалу домашньої автоматизації. У цьому розділі представлено огляд пристроїв і протоколів розумного будинку, розглянуто стандарти взаємодії, а також проблеми та рішення для досягнення безперешкодної інтеграції. Огляд пристроїв та протоколів розумного дому Розумні будинки включають в себе різні пристрої, які автоматизують і контролюють домашні функції. У типовому розумному будинку, як описано вище, з розумними вимикачами, датчиками протікання, датчиками температури, датчиками руху і термостатами, ці пристрої служать для конкретних цілей: ● Розумні вимикачі: Дозволяють дистанційно керувати освітленням та електричними розетками, забезпечуючи автоматизацію освітлення та електроприладів для зручності та економії електроенергії. ● Датчики протікання: Відстежують витоки води або затоплення, надають сповіщення, щоб запобігти пошкодженню водою та утворенню цвілі. ● Датчики температури: Вимірюють температуру навколишнього середовища, допомагаючи системам клімат-контролю та енергоменеджменту. ● Датчики руху: Виявляють рух у визначених зонах, посилюючи систему безпеки та уможливлюючи автоматичне освітлення залежно від присутності людей. ● Термостати: Регулюють системи опалення та охолодження, часто з інтелектуальними функціями, які вивчають уподобання та розклад користувача для оптимізації комфорту та ефективності. Щоб ці пристрої працювали злагоджено, вони покладаються на протоколи зв'язку, які визначають, як передаються та приймаються дані. До найпоширеніших протоколів у розумних будинках належать 27 ● Wi-Fi: використовує існуючі бездротові мережі для підключення пристроїв до інтернету та один до одного. Хоча Wi-Fi широко доступний, він може бути енергоємним і спричиняти перевантаження мережі. ● Bluetooth Low Energy (BLE): Призначений для зв'язку на короткі відстані з низьким енергоспоживанням, підходить для таких пристроїв, як датчики та перемикачі. ● Zigbee: Протокол комірчастої мережі, що працює за стандартом IEEE 802.15.4. Zigbee є енергоефективним і підтримує велику кількість пристроїв, що робить його ідеальним для домашньої автоматизації. ● Z-Wave: Схожий на Zigbee, але працює в іншому частотному діапазоні, зменшуючи перешкоди для мереж Wi-Fi. Z-Wave також використовує топологію комірчастої мережі для надійного зв'язку. ● Thread: Протокол на основі IPv6, орієнтований на безпечну та надійну mesh-мережу, розроблений спеціально для підключення домашніх додатків. Matter (раніше Project CHIP): Уніфікований протокол зв'язку на основі IP, спрямований на спрощення розробки та покращення сумісності між пристроями розумного дому від різних виробників. Стандарти взаємодії необхідні для забезпечення безперебійної роботи пристроїв різних виробників. Ці стандарти визначають протоколи та рекомендації, яких повинні дотримуватися пристрої для забезпечення сумісності. Стандарти Zigbee та Z-Wave Альянс Zigbee (тепер Альянс стандартів зв'язку): Наглядає за стандартом Zigbee, сприяючи сумісності через програми сертифікації. Пристрої зі значком Zigbee Certified були протестовані на відповідність стандартам. Z-Wave Alliance: Керує стандартом Z-Wave, гарантуючи, що сертифіковані пристрої можуть взаємодіяти незалежно від виробника. Суворий процес сертифікації Z-Wave підвищує надійність та сумісність. 28 Рисунок 1.4 Архітектура розумного будинку: Пристрої, протоколи та центральне управління Стандарт Matter Розроблений Альянсом стандартів зв'язку, Matter має на меті уніфікувати індустрію "розумних" будинків, забезпечивши загальний стандарт зв'язку. Він використовує існуючі технології, такі як Wi-Fi, Thread та Ethernet для IP-зв'язку. Цілі Matter - спростити розробку, забезпечивши стандартизовану структуру для виробників, зменшивши складність і прискоривши розробку продуктів. Забезпечити безперебійну роботу пристроїв у різних екосистемах і на різних платформах, приносячи користь споживачам. Включити надійні функції безпеки як фундаментальний аспект стандарту. Галузева група, відповідальна за протокол Thread, яка фокусується на створенні малопотужних, безпечних і масштабованих mesh-мереж для пристроїв IoT. Основні характеристики: ● Мережа на основі IPv6: Забезпечує пряме підключення до Інтернету та спрощує інтеграцію з іншими мережами на основі IP. ● Mesh Networking: Підвищує надійність завдяки самовідновлюваним мережам, де пристрої можуть маршрутизувати повідомлення один для одного. Фундація "Відкритий зв'язок" (OCF) Сприяти взаємодії за допомогою відкритих стандартів і сертифікації, зосереджуючись на безпечному та надійному виявленні пристроїв і зв'язку. 29 Універсальне підключення та відтворення (UpnP) дозволяє пристроям знаходити один одного в мережі та встановлювати функціональні мережеві сервіси. Хоча UPnP не розроблений спеціально для IoT, він полегшує зв'язок між пристроями в домашній мережі. Досягнення безшовної інтеграції в системах розумного будинку пов'язане з кількома проблемами. Ключовою проблемою є фрагментація протоколів і стандартів. З широким спектром протоколів, таких як Wi-Fi, Zigbee і Z-Wave, виникають проблеми сумісності, особливо коли виробники використовують пропрієтарні системи, які обмежують сумісність пристроїв. Ще однією перешкодою є складність налаштування та конфігурації. Інтеграція пристроїв в екосистемах часто вимагає технічних знань, якими не володіє більшість споживачів. Крім того, неузгодженість користувацьких інтерфейсів на різних пристроях створює фрагментарний досвід. Ризики безпеки також відіграють значну роль. Пристрої можуть відповідати різним стандартам безпеки, створюючи вразливості в системі. Керування оновленнями прошивки на різних платформах може бути складним завданням, що збільшує ризик використання застарілого програмного забезпечення. Крім того, на продуктивність впливають ресурсні обмеження, такі як обмеження пропускної здатності та енергоспоживання. Пристрої, підключені до Wi- Fi, можуть перевантажувати пропускну здатність мережі, а різне енергоспоживання пристроїв може впливати на енергоефективність. Для вирішення цих проблем важливим є прийняття універсальних стандартів. Наприклад, протокол Matter пропонує уніфікований підхід до сумісності. Пристрої, які проходять сертифікацію, забезпечують дотримання стандартів взаємодії. Використання хабів і мостів для розумного будинку, таких як Home Assistant, дозволяє централізувати управління і перекладати між різними протоколами, забезпечуючи безперебійний зв'язок між пристроями. Платформи з відкритим вихідним кодом ще більше підтримують цю інтеграцію, дозволяючи користувачам налаштовувати свої системи та отримувати доступ до оновлень і рішень, розроблених спільнотою. 30 Стандартизація заходів безпеки має важливе значення. Впровадження надійного шифрування та автоматичне оновлення прошивки гарантує стабільну безпеку на всіх пристроях. Спрощення користувацьких інтерфейсів за допомогою уніфікованих додатків та інтуїтивно зрозумілих процесів налаштування зменшує складність, роблячи системи розумного дому більш доступними. Нарешті, використання периферійних обчислень і локального управління підвищує конфіденційність і надійність, зменшуючи залежність від хмарних сервісів, гарантуючи, що пристрої продовжуватимуть працювати без підключення до Інтернету. Для наочності розглянемо практичний кейс інтеграції пристроїв у розумному будинку Розумний будинок, обладнаний такими пристроями, як розумні вимикачі, датчики протікання та датчики руху, може досягти безперешкодної інтеграції за допомогою центрального хаба, такого як Home Assistant, для управління різними протоколами. Стандартизація пристроїв для використання поширених протоколів, таких як Zigbee або Z-Wave, спрощує налаштування. Користувацькі правила автоматизації дозволяють виконувати взаємопов'язані дії, наприклад, регулювати термостат на основі показань температури. Моніторинг подій, як-от витік води, та посилення безпеки за допомогою надійних паролів і шифрування гарантують безперебійну та безпечну роботу. Сумісність пристроїв є критично важливим фактором успіху і зручності використання систем розумного будинку. Огляд пристроїв і протоколів розумного будинку підкреслює різноманітність технологій, що використовуються в домашній автоматизації. Стандарти сумісності, такі як Zigbee, Z-Wave, Thread і Matter, відіграють життєво важливу роль у забезпеченні безперебійної роботи пристроїв різних виробників. Незважаючи на прогрес, такі проблеми, як фрагментація протоколів, складні налаштування, ризики для безпеки та обмеженість ресурсів, залишаються. Рішення включають прийняття універсальних стандартів, використання хабів для розумних 31 будинків, стандартизацію заходів безпеки, спрощення користувацьких інтерфейсів та використання периферійних обчислень. Вирішивши ці проблеми, домовласники можуть створити згуртоване та ефективне середовище розумного будинку, яке повністю використовує можливості своїх пристроїв, таких як розумні вимикачі, датчики протікання, датчики температури, датчики руху та термостати. Досягнення безшовної інтеграції покращує загальний досвід користувача, сприяє енергоефективності та сприяє більш широкому впровадженню технологій домашньої автоматизації. Висновок до розділу 1 У першому розділі проведено огляд сучасних тенденцій у сфері домашньої автоматизації, еволюції технологій “розумного дому” та ролі голосових асистентів зі штучним інтелектом. Розглянуто переваги й обмеження існуючих комерційних рішень, таких як Amazon Alexa, Google Assistant і Apple Siri, а також проблеми безпеки й конфіденційності, з якими стикаються користувачі. Визначено, що сучасні технології розпізнавання мовлення, зокрема OpenAI Whisper, значно покращують точність і адаптивність голосових систем. Було підкреслено важливість локальної обробки даних і наскрізного шифрування для захисту інформації користувачів, що особливо актуально в контексті зростаючих загроз конфіденційності. Також у розділі проаналізовано ключові протоколи для інтеграції пристроїв розумного будинку, включаючи Wi-Fi, Zigbee, Z-Wave, Thread і Matter, які забезпечують сумісність і ефективну взаємодію між компонентами системи. Результати аналізу формують основу для розробки безпечних і ефективних голосових асистентів, які інтегруються в системи домашньої автоматизації, забезпечуючи зручність і надійність для користувачів. 32 РОЗДІЛ 2 ЦІЛІ ТА МЕТОДОЛОГІЧНА ОСНОВА ДОСЛІДЖЕННЯ У цьому розділі окреслено основну мету дослідження та сформульовано гіпотези, на яких ґрунтуватиметься процес дослідження. Спираючись на прогалини, виявлені в огляді літератури, дослідження має на меті вирішити проблеми, пов'язані з розробкою безпечного, доступного та ефективного голосового асистента ШІ, пристосованого для систем домашньої автоматизації. 2.1 Цілі та гіпотези дослідження Основною метою цього дослідження є проектування та розробка безпечного, доступного та ефективного голосового асистента зі штучним інтелектом спеціально для домашньої автоматизації. Це передбачає створення системи, яка не лише надійно працює, але й ефективно вирішує критичні проблеми, пов'язані з конфіденційністю користувачів, безпекою даних, доступністю для людей з обмеженими можливостями та безперешкодною взаємодією з різноманітними пристроями розумного будинку. Для досягнення цієї головної мети дослідження буде зосереджене на таких ключових напрямках: ● Підвищення рівня конфіденційності та безпеки даних користувачів: Впровадження методів збереження конфіденційності, таких як локальна обробка даних і наскрізне шифрування, для захисту даних користувачів і мінімізації ризиків, пов'язаних з хмарною обробкою. ● Покращення доступності та інклюзивності: Розробка настроюваних голосових команд і зручних інтерфейсів, які відповідають потребам користувачів з різними здібностями, зокрема з фізичними, сенсорними, когнітивними та мовленнєвими порушеннями. ● Інтеграція передових технологій розпізнавання мови: Використання та тонке налаштування найсучасніших моделей розпізнавання мови, таких як OpenAI 33 Whisper, для підвищення точності та швидкості реагування голосового помічника в різних домашніх умовах. Ттонке налаштування (Fine-tuning) через Планування швидкості навчання (Learning Rate Schedule): 2.1 де: ◦ t: Швидкість навчання на кроці ◦ 0: Початкова швидкість навчання. ◦ : Загальна кількість ітерацій. ◦ : Гіперпараметр для регулювання спадання. ● Сприяння взаємодії пристроїв: Забезпечення безперешкодної інтеграції з широким спектром пристроїв розумного будинку шляхом дотримання стандартів сумісності та використання таких платформ, як Home Assistant. ● Впровадження рішень на основі периферійних обчислень: Використання периферійних обчислень для локальної обробки завдань ШІ, що підвищує конфіденційність, зменшує затримки і підвищує надійність системи, особливо в сценаріях з обмеженим або відсутнім інтернет-з'єднанням. ● Створення комплексної системи безпеки: Розробка надійних заходів безпеки, які охоплюють прошивку пристрою, мережеві протоколи та користувацькі інтерфейси для захисту від потенційних кіберзагроз і забезпечення цілісності системи домашньої автоматизації. Зосередившись на цих сферах, дослідження має на меті створити голосового ШІ-помічника, який не лише відповідає функціональним вимогам, але й відповідає етичним міркуванням та сприяє технологічній інклюзивності. Для того, щоб спрямувати дослідження до його мети, були сформульовані наступні гіпотези: 34 Гіпотеза 1: Впровадження локальної обробки даних і наскрізного шифрування в голосовому ШІ-асистенті значно підвищить конфіденційність користувачів і безпеку даних без шкоди для продуктивності системи. Обґрунтування: Традиційні голосові помічники часто покладаються на хмарну обробку, що створює ризики, пов'язані з витоком даних і несанкціонованим доступом. Обробляючи дані локально і шифруючи комунікації, система мінімізує ризик витоку конфіденційної інформації. Проблема полягає в тому, щоб ці заходи безпеки не вплинули негативно на швидкість реагування та ефективність голосового асистента. Очікувані результати: Голосовий асистент зі штучним інтелектом буде підтримувати високий рівень продуктивності, порівнянний з хмарними системами, забезпечуючи при цьому чудовий захист конфіденційності, що підвищить довіру користувачів і сприятиме їхньому впровадженню. Гіпотеза 2: Налаштовувані голосові команди та зручні інтерфейси покращать доступність та зручність використання для користувачів з інвалідністю, що призведе до підвищення рівня задоволеності користувачів та ширшого впровадження. Обґрунтування: Користувачі з інвалідністю часто стикаються з бар'єрами при взаємодії з технологіями через жорсткі командні структури та складні інтерфейси. Завдяки можливості кастомізації та розробці інтуїтивно зрозумілих інтерфейсів, система може пристосовуватися до індивідуальних потреб, що робить її більш доступною та зручною для користувачів. Очікувані результати: Покращена зручність використання для людей з різними видами інвалідності призведе до вищих показників задоволеності користувачів та сприятиме ширшому використанню голосового помічника серед різних груп користувачів. Гіпотеза 3: Інтеграція та точне налаштування вдосконалених моделей розпізнавання мовлення, таких як OpenAI Whisper, підвищить точність і швидкість реагування голосового ШІ-помічника в різних домашніх умовах, зокрема з фоновим шумом і різними акцентами. 35 Обґрунтування: Вдосконалені моделі розпізнавання мовлення призначені для обробки складних мовних патернів і складних акустичних умов. Точне налаштування цих моделей для конкретних домашніх умов може ще більше підвищити їхню продуктивність, зменшити кількість помилок і покращити користувацький досвід. Очікувані результати: Голосовий асистент продемонструє вищу точність розпізнавання мови в різних умовах навколишнього середовища та демографічних характеристиках користувачів порівняно з базовими моделями. Гіпотеза 4: Використання стандартів взаємодії та платформ, таких як Home Assistant, сприятиме безперешкодній інтеграції з різними пристроями розумного будинку, покращуючи функціональність системи та користувацький досвід. Обґрунтування: Дотримання загальноприйнятих стандартів сумісності дозволяє пристроям різних виробників безперебійно працювати разом. Використання таких платформ, як Home Assistant, забезпечує уніфікований інтерфейс управління, спрощує керування пристроями та підвищує загальну функціональність системи домашньої автоматизації. Очікувані результати: Користувачі матимуть менше проблем із сумісністю та будуть більш задоволені здатністю системи безперешкодно інтегрувати та керувати кількома пристроями. Гіпотеза 5: Впровадження периферійних обчислень для обробки завдань ШІ зменшить затримки, підвищить надійність системи та збереже функціональність під час перебоїв в Інтернеті, тим самим покращивши загальну продуктивність системи домашньої автоматизації. Обґрунтування: Обробка завдань ШІ локально зменшує залежність від хмарних сервісів, що призводить до скорочення часу відгуку та безперебійної роботи навіть за відсутності інтернет-зв'язку. Такий підхід підвищує надійність та ефективність системи. Очікувані результати: Система продемонструє скорочення часу відгуку, стабільну роботу незалежно від підключення до Інтернету та загалом більш надійний користувацький досвід. 36 Гіпотеза 6: Розробка комплексної системи безпеки, яка включає прошивку пристроїв, мережеві протоколи та інтерфейси користувача, забезпечить надійний захист від потенційних кіберзагроз, гарантуючи цілісність і безпеку системи домашньої автоматизації. Обґрунтування: Комплексний підхід до безпеки передбачає усунення вразливостей на всіх рівнях системи. Завдяки впровадженню надійних заходів безпеки на всіх рівнях, система може захистити від широкого спектру кіберзагроз, тим самим захищаючи дані користувачів і підтримуючи цілісність системи. Очікувані результати: Система продемонструє високу стійкість до загроз безпеці, пройде оцінку вразливостей і тести на проникнення, а також підвищить довіру користувачів до безпеки системи. Гіпотеза 7: Інтеграція функцій доступності, що налаштовуються, не лише принесе користь користувачам з інвалідністю, але й покращить загальний користувацький досвід для всіх користувачів, що призведе до підвищення рівня задоволеності та взаємодії з системою. Обґрунтування: Функції доступності часто покращують зручність використання для ширшої аудиторії, надаючи опції, які відповідають індивідуальним уподобанням. Такі функції, як регульовані елементи інтерфейсу та персоналізовані структури команд, можуть підвищити зручність і задоволеність для всіх користувачів. Очікувані результати: Включення функцій доступності, що налаштовуються, призведе до підвищення загального рівня задоволеності та залученості користувачів, про що свідчать позитивні відгуки користувачів та збільшення показників використання системи. Загалом, ці гіпотези спрямовані на вивчення та перевірку ефективності інтеграції передових технологій та методологій для розробки голосового ШІ- помічника, який буде безпечним, доступним, ефективним та орієнтованим на користувача. Для оцінки цих гіпотез буде використано поєднання теоретичного аналізу, системного дизайну, впровадження та емпіричного тестування. Успіх у цих сферах може зробити значний внесок у галузі домашньої автоматизації та штучного інтелекту, встановлюючи нові стандарти для майбутніх розробок. 37 2.2 Аналіз системних вимог Аналіз системних вимог визначає основні функціональні можливості та атрибути якості пропонованого голосового асистента ШІ для домашньої автоматизації. Цей аналіз гарантує, що система відповідає потребам користувачів, технічним можливостям і відповідає відповідним стандартам і нормам. Вимоги поділяються на функціональні та нефункціональні категорії, в яких детально описується, що повинна робити система і якими якостями вона повинна володіти. Функціональні вимоги визначають основні операції, які повинен виконувати голосовий асистент ШІ для досягнення основних цілей дослідження це система повинна точно розпізнавати та інтерпретувати голосові команди користувачів, в тому числі з різними акцентами, особливостями мовлення та вадами мовлення. Вона повинна підтримувати обробку природної мови, щоб ефективно розуміти наміри користувача. Щоб підвищити конфіденційність, асистент повинен виконувати завдання з розпізнавання та обробки мови локально на пристрої користувача, мінімізуючи необхідність передачі даних на зовнішні сервери. Асистент повинен легко інтегруватися з різноманітними пристроями розумного будинку, включаючи розумні вимикачі, датчики протікання, датчики температури, датчики руху і термостати. Він повинен дозволяти користувачам керувати цими пристроями за допомогою голосових команд, уможливлюючи такі дії, як регулювання освітлення, моніторинг стану навколишнього середовища та управління системами безпеки. Користувачі повинні мати можливість налаштовувати голосові команди відповідно до своїх уподобань і потреб. Ця функція підвищує доступність для користувачів з обмеженими можливостями та дозволяє персоналізувати відповіді та поведінку асистента. Багатомовність і перемикання кодів. Для підтримки багатомовності Whisper використовує попередні мовні теги: 2.2 38 де: ● : Вхідний аудіосигнал. ● : Транскрипція. ● : Мовний тег. ● ℎ: Прихований стан на часовому кроці ● : Вагова матриця для мови Система повинна підтримувати кілька профілів користувачів, розпізнаючи голоси різних членів домогосподарства. Для цього можна застосовувати алгоритми ідентифікації голосу (Speaker Identification) та верифікації (Speaker Verification). Наприклад формула 2.3 демострує як система розпізнає користувача за голосом базуючись на векторах голосових ознак 2.3 де: ● : Ймовірність користувача, ● : Вектор голосових ознак, ● ℎ: Прихований стан нейронної мережі, ● : Вагова матриця для голосових профілів. Асистент повинен швидко реагувати на команди користувача, забезпечуючи мінімальну затримку, щоб полегшити взаємодію в реальному часі в домашньому середовищі.Система повинна розуміти і обробляти природну мову, дозволяючи користувачам взаємодіяти з асистентом у розмовному режимі, а не покладатися на жорсткі командні структури. Обробка помилок та зворотній зв'язок: Асистент повинен витончено реагувати на непорозуміння або помилки, надаючи чіткий зворотний зв'язок і вказівки користувачеві, щоб виправити проблеми без розчарування. Система повинна розпізнавати непорозуміння, аналізуючи ймовірність передбачення: 39 2.4 де: ● confidence : Ймовірність впевненості моделі. Нефункціональні вимоги визначають атрибути якості системи, зосереджуючись на безпеці, конфіденційності, доступності та продуктивності для забезпечення надійного та зручного користування. Усі дані користувача, включаючи голосові записи, особисті налаштування та сигнали керування пристроєм, повинні бути зашифровані як у стані спокою, так і під час передачі з використанням надійних алгоритмів шифрування для захисту від несанкціонованого доступу. Система повинна реалізовувати безпечні механізми автентифікації для перевірки особи користувача. Контроль доступу повинен запобігати взаємодії неавторизованих користувачів з асистентом або доступу до конфіденційної інформації. Асистент повинен дотримуватися відповідних законів і правил про конфіденційність, таких як Загальний регламент про захист даних (GDPR), забезпечуючи прозорі практики обробки даних і отримуючи інформовану згоду користувача, якщо це необхідно. Якщо будь-які дані збираються для вдосконалення системи, вони повинні бути анонімними, щоб захистити ідентичність користувачів, гарантуючи, що особиста інформація не може бути відстежена до конкретних осіб. Для зручного користування були складені наступні вимоги до продуктивності Асистент повинен обробляти і реагувати на команди користувача з мінімальною затримкою, в ідеалі - протягом однієї-двох секунд, щоб забезпечити безперебійну та інтерактивну взаємодію з користувачем. Система повинна демонструвати високу надійність, підтримуючи стабільну продуктивність і час безвідмовної роботи. Вона повинна м'яко реагувати на перебої в мережі і продовжувати виконувати основні функції навіть в автономному режимі. 40 Асистент повинен бути масштабованим, здатним обробляти зростаючу кількість пристроїв і користувачів без погіршення продуктивності. Це забезпечує довговічність і адаптивність у міру розширення екосистеми розумного будинку. Рисунок 2.1 Обрахунок споживання різних моделей Система повинна оптимізувати використання ресурсів, ефективно працювати на визначеному обладнанні без надмірного споживання пам'яті, обчислювальної потужності або енергії, що особливо важливо для периферійних пристроїв. На рисунку 2.1 продемонстрованне порівнняня енергоспоживання різних моделей розраховане за формулою 2.5 Eнергоспоживання моделі можна оцінити через кількість операцій на рівні FLOPs (Floating Point Operations): 2.5 де: ● : Загальне енергоспоживання. ● FLOPs: Кількість операцій з плаваючою комою, які виконує модель. 41 ● Power Consumption per FLOP: Енергія, що витрачається на кожну операцію. Рисунок 2.2 Енергоспоживання моделі whisper за різних умов Асистент повинен надійно працювати в різних домашніх умовах, справляючись з фоновим шумом, різною акустикою приміщень і різними умовами роботи мережі без значної втрати точності і швидкості реагування. Ретельне визначення цих функціональних і нефункціональних вимог спрямовує процес розробки системи на створення голосового асистента ШІ, який не лише виконує свої функції, а й забезпечує безпечне, доступне та високопродуктивне рішення для домашньої автоматизації. Такий всебічний аналіз вимог гарантує, що система відповідає потребам користувачів, технічним можливостям і етичним стандартам, закладаючи міцний фундамент для наступних етапів проектування і впровадження. 2.3 Проектування архітектури системи Архітектура системи інтегрує апаратні та програмні компоненти для створення цілісного та ефективного голосового помічника ШІ для домашньої 42 автоматизації. У цьому розділі описано загальну архітектуру системи, детально описано апаратні компоненти з акцентом на комплекті для розробки ESP32, а також розглянуто програмні компоненти, які забезпечують розпізнавання мови, обробку природної мови та інтеграцію з пристроями "розумного" будинку. Рисунок 2.3 ESP32 для периферійних обчислень в IoT Загальна архітектура системи розроблена таким чином, щоб полегшити безперешкодну голосову взаємодію з пристроями розумного будинку, забезпечуючи при цьому конфіденційність даних, безпеку та ефективну роботу. Вона складається з трьох основних рівнів: апаратного рівня, рівня мережевого зв'язку та прикладного рівня. В основі апаратного рівня лежить набір для розробки ESP32, який слугує основним пристроєм для захоплення голосового введення та надання звукових відповідей. Оснащений вбудованими функціями Wi-Fi і Bluetooth, ESP32 функціонує як інтерфейс між користувачем і модулями обробки асистента. Він розпізнає локальні слова для пробудження, записує голосові команди та відтворює відповіді. Рівень мережевого зв'язку використовує з'єднання Wi-Fi для передачі аудіоданих між пристроєм ESP32 і сервером Home Assistant (HA), що працює на персональному комп'ютері. Wi-Fi обрано завдяки високій швидкості передачі даних, широкій доступності та здатності задовольняти вимоги до пропускної здатності для передачі аудіоданих, що є критично важливим для голосового зв'язку в реальному часі. 43 Прикладний рівень охоплює конвеєр асистентів, розміщений на сервері Home Assistant. Сюди входять модуль розпізнавання мови, модуль обробки природної мови (NLP) та інтеграція з пристроями розумного будинку. Сервер HA обробляє команди користувача, отримані від ESP32, інтерпретує їх за допомогою передових методів розпізнавання мови і надсилає відповідні відповіді для відтворення. Ця архітектура використовує сильні сторони як ESP32, так і сервера HA, дозволяючи переносити інтенсивні обчислювальні завдання на більш потужне обладнання, зберігаючи при цьому ефективну та швидку взаємодію з користувачем. Апаратні компоненти мають вирішальне значення для збору вхідних даних, обробки даних і взаємодії з пристроями розумного будинку. Вибір та інтеграція цих компонентів безпосередньо впливають на продуктивність, надійність і масштабованість системи. Набір для розробки ESP32 обрано як основний апаратний компонент завдяки його потужним можливостям мікроконтролера, інтегрованим функціям Wi-Fi та Bluetooth, а також економічній ефективності. Він оснащений двоядерними 32- розрядними процесорами Xtensa® LX6 з тактовою частотою до 240 МГц, 520 КБ оперативної пам'яті та 4 МБ флеш-пам'яті, що забезпечує достатні ресурси для обробки аудіо в реальному часі та зберігання програм. Схема передбачає підключення периферійних пристроїв до ESP32 для забезпечення голосового вводу та виводу звуку: Інтеграція мікрофона: Зовнішній мікрофонний модуль підключається до ESP32 для запису високоякісного голосового вводу. Цифрові мікрофони з інтерфейсом I²S (Integrated Inter-IC Sound) використовуються для зменшення шуму і поліпшення якості звуку. Розєми і способи підключення зображені на рисунку 2.4. Розміщення мікрофонів і конструкція корпусу оптимізовані для забезпечення найкращих акустичних характеристик. 44 Рисунок 2.4 Цифровий I²S мікрофонний модуль Динамік або модуль підсилювача звуку підключається до ЦАП (цифро- аналогового перетворювача) або інтерфейсу I²S ESP32, що дозволяє пристрою виводити чистий звук. Схему аудіовиходу розроблено таким чином, щоб забезпечити достатню гучність і чіткість для зворотного зв'язку з користувачем. ESP32 живиться від стабільного джерела живлення, з урахуванням регулювання напруги та фільтрації шумів для забезпечення стабільної роботи. Використання ефективних компонентів керування живленням допомагає зменшити енергоспоживання, пов'язане з використанням Wi-Fi. Для виявлення прокидного слова використовуєиться Бібліотеки, такі як TensorFlow Lite для мікроконтролерів або ESP-Skainet, забезпечують запуск невеликих нейронних мереж на обмежених ресурсах мікроконтролера. Для виявлення слова пробудження нейронна мережа приймає на вхід фрагмент аудіосигналу, перетворений у лог-Мел спектрограму, і обчислює ймовірність присутності прокидного слова: 2.6 Де: ● (∣): Ймовірність того, що слово пробудження присутнє у вхідному сигналі , ● h: Прихований стан нейронної мережі для моменту часу , 45 ● : Вагова матриця, ● : Зсув (bias). Важлива складова виявлення прокидного слова це попередня обробка сигналу. Аудіосигнал x(t) перетворюється у лог-Мел спектрограму: 2.7 Де: ● (,): Швидке перетворення Фур'є (STFT) для частоти f і часу , ● M(f): Мел-фільтр. Наступний етап це прогноз моделі. Модель обчислює ймовірність P(w∣x) для кожного фрагмента аудіо. Якщо P(w∣x)>τ, де — заданий поріг, вважається, що слово пробудження виявлено. Після виявлення слова пробудження ESP32 записує голосову команду користувача, буферизуючи аудіодані в пам'яті. Потім він передає аудіодані на HA- сервер через Wi-Fi за допомогою захищених протоколів зв'язку. Для зменшення використання смуги пропускання можуть застосовуватися методи стиснення даних без суттєвого погіршення якості звуку. ESP32 отримує звукові відповіді від сервера HA і відтворює їх через підключений динамік. Ефективні процедури декодування та відтворення аудіо забезпечують своєчасний і чіткий зворотній зв'язок з користувачем. Вибір протоколу бездротового зв'язку має вирішальне значення для реалізації надійної і масштабованої системи розумного будинку. Існують різні технології бездротового зв'язку, що використовуються в системах розумного будинку, такі як ZigBee, Z-Wave, LoRa, Bluetooth і Wi-Fi, кожна з яких має свої особливості з точки зору дальності дії, енергоспоживання і пропускної здатності. Щоб визначити, який протокол найкраще відповідає потребам автоматизованого середовища розумного будинку, необхідно провести детальне порівняння. 46 Таблиця 2.1 Порівняння протоколів бездротового звязку Wi-Fi Bluetooth LE ZigBee Z-Wave 2,4 ГГц / 5 2,4 ГГц / 915 Діапазон частот 2,4 ГГц 900 МГц ГГц МГц Діапазон До 100 м 10-30 m 100 м (Mesh) 30-50 м (сітка) Швидкість До 7 Гбіт/с 1 Мбіт/с 250 Кбіт/с 100 Кбіт/с передачі даних Енергоспожива Високе Низьке Низьке Низьке ння Масштабованіс Висока Висока Помірна Обмежена ть (Mesh) Шифрування та AES AES AES AES безпека Високошвид Датчики з Пристрої для кісні низьким розумного Домашня додатки, миОсновні енергоспоживан дому, автоматизація, потокове випадки ням, носимі малопотужні надійний відео, використання пристрої, зв'язок мережі, зв'язок між домашня на коротких автоматизаці пристроями автоматизаці відстанях я я 47 Рисунок 2.5 Перекриття частотних каналів: Wi-Fi, Bluetooth LE і ZigBee в діапазоні 2,4 Ггц Wi-Fi є найбільш підходящим вибором для розумного будинку завдяки широкому розповсюдженню, високій швидкості передачі даних і потужній мережевій інфраструктурі. Переваги використання Wi-Fi включають його здатність працювати з високошвидкісними додатками, такими як відеоспостереження і голосовий зв'язок в режимі реального часу, а також його здатність безперешкодно інтегруватися з існуючими пристроями і мережами. Порівняльний аналіз бездротових протоколів у Таблиці 2.1 показує, що Wi-Fi пропонує вищу швидкість передачі даних і більший радіус дії порівняно з іншими протоколами, такими як ZigBee або Bluetooth. Хоча ZigBee і Z-Wave мають нижче енергоспоживання, вони обмежені в пропускній здатності і масштабованості, що робить їх менш придатними для високих вимог до швидкості передачі даних. Для пристроїв з постійним живленням, таких як розумні колонки, камери і голосові помічники, Wi-Fi забезпечує стабільне і надійне з'єднання, що має вирішальне значення для безперебійної роботи розумного будинку. 48 Ще одним фактором, що виправдовує використання Wi-Fi, є його здатність підтримувати кілька пристроїв без спеціального концентратора або контролера. Ця характеристика зменшує складність архітектури системи та мінімізує додаткові витрати на обладнання, що робить його економічно вигідним рішенням. Як показано на рисунку 2.5, масштабованість мереж Wi-Fi перевершує масштабованість мереж ZigBee і Z-Wave, дозволяючи підключати більше пристроїв без значного погіршення продуктивності. Рисунок 2.6 Використання спектру Wi-Fi: Розподіл каналів та пропускна здатність 5 Ггц Однак, більш високе енергоспоживання Wi-Fi та потенційні перешкоди для інших пристроїв, що працюють у діапазоні 2,4 ГГц, є значними проблемами. Тим не менш, наявність дводіапазонних Wi-Fi допомагає пом'якшити ці проблеми, забезпечуючи розширене покриття і зменшуючи перевантаження первинних каналів. У таблиці 2.1 показано, як дводіапазонна підтримка Wi-Fi забезпечує краще управління мережею та оптимізацію пропускної здатності, що робить його придатним для широкомасштабного розгортання "розумного будинку". Отже, вибір Wi-Fi як основного протоколу зв'язку для системи розумного будинку виправданий його високою пропускною здатністю, широким радіусом дії і простотою інтеграції. Хоча енергоспоживання залишається проблемою, вона переважується перевагами продуктивності і масштабованості для сучасного середовища розумного будинку. 49 Програмні компоненти є невід'ємною частиною здатності системи обробляти голосові команди, інтерпретувати наміри користувача та безпечно й ефективно керувати пристроями розумного будинку. Модуль розпізнавання мови відповідає за перетворення розмовної мови в текст з високою точністю, навіть у складних акустичних умовах. ● Вибір моделі: Використовує OpenAI Whisper, найсучаснішу модель розпізнавання мови, відому своєю надійністю та точністю. ● Точне налаштування: Модель налаштовується за допомогою наборів даних, які відображають розмаїття акцентів, діалектів і мовленнєвих патернів цільової аудиторії, включаючи користувачів з порушеннями мовлення. ● Оптимізація для периферійних пристроїв: Застосовує методи стиснення моделей, такі як квантування та обрізання, для зменшення обчислювальних вимог, що дозволяє ефективно обробляти дані на апаратній платформі. Попередня обробка звуку включає кілька важливих етапів. Спершу застосовуються алгоритми шумозаглушення, які фільтрують фонові звуки та покращують якість голосового сигналу. Далі здійснюється придушення відлуння, що дозволяє усунути небажані відбиття звуку, особливо у закритих приміщеннях. Також використовується виявлення голосової активності (VAD), яке дозволяє визначати моменти мовлення й активувати обробку лише за необхідності, зберігаючи ресурси. Рисунок 2.7 Робочий процес послідовної обробки даних за допомогою Shared Analysis Framework Щодо конфіденційності та безпеки, усі процеси розпізнавання мови виконуються локально, що виключає можливість передачі голосових даних за межі 50 приміщення користувача. Додатково, дані, які тимчасово зберігаються під час обробки, шифруються, щоб унеможливити несанкціонований доступ. Модуль NLP інтерпретує розшифрований текст, щоб зрозуміти наміри користувача і виконати відповідні дії в системі домашньої автоматизації. Моделі NLP розроблені спеціально для домашньої автоматизації, розпізнаючи команди, пов'язані з керуванням пристроями, встановленням розкладу та перевіркою стану пристроїв. Вони витягують ключові сутності, такі як назви пристроїв, їхнє місцезнаходження та параметри, з введених користувачем даних. Щоб керувати подальшими запитаннями та багатоповоротними розмовами, система зберігає контекст у всіх взаємодіях. Нещодавня історія надійно зберігається для надання персоналізованих відповідей з урахуванням контексту. Для поглибленого розуміння мови використовуються попередньо навчені мовні моделі, такі як GPT або LLaMA. Ці моделі налаштовуються за допомогою специфічних для домену даних, забезпечуючи точніші та релевантніші відповіді, зменшуючи при цьому упередженість. Система підтримує кілька мов і регіональних діалектів для підвищення доступності. Вона адаптує відповіді відповідно до культурного контексту та вподобань користувача. Вхідні дані користувачів обробляються для запобігання ін'єкційним атакам, а будь-які дані, що використовуються для покращення моделей, анонімізуються для захисту ідентичності користувача. Home Assistant - це платформа, яка інтегрує та керує пристроями розумного будинку. Безпечні API-з'єднання дозволяють голосовому помічнику виконувати команди та надавати оновлення стану. Автентифікація на основі токенів захищає ці API-з'єднання. Централізований реєстр пристроїв відстежує всі підключені пристрої, їхні стани та можливості. Сценарії автоматизації налаштовані так, щоб увімкнути складні дії, які запускаються за голосовими командами або даними з датчиків. Веб-панель управління пропонує зручний спосіб моніторингу та керування пристроями, доступний з різних пристроїв, таких як смартфони та комп'ютери. Користувачі також можуть персоналізувати макет інтерфейсу та теми. 51 Списки контролю доступу (ACL) обмежують доступ до пристроїв і функцій для підвищення безпеки в багатокористувацьких домогосподарствах. Зв'язок шифрується за допомогою протоколів SSL/TLS. Конвеєр асистентів обробляє взаємодію з користувачем, від голосового введення до виконання дій і зворотного зв'язку. Кожен етап - захоплення звуку, розпізнавання мови, НЛП, мапування намірів і виконання дій - ізольований для полегшення обслуговування і масштабування. Потоки даних між модулями передаються через черги повідомлень або архітектуру, керовану подіями. Система оптимізована для операцій з низькою затримкою, що забезпечує швидке реагування. Паралельні методи обробки, такі як багатопотоковість, дозволяють обробляти кілька завдань одночасно. Помилки на кожному етапі виявляються та управляються за допомогою надійної обробки винятків, що забезпечує чіткий зворотній зв'язок з користувачами. Коли запити не можуть бути виконані, резервні механізми пропонують альтернативи. Реєстрація подій допомагає в аналізі продуктивності та усуненні несправностей, а інструменти моніторингу стану відстежують системні показники для виявлення проблем. Дані, що проходять через конвеєр, шифруються, а дозволи користувачів перевіряються перед виконанням будь-яких дій, що запобігає несанкціонованому доступу. Цикли зворотного зв'язку використовують анонімні дані про взаємодію для уточнення моделей і підвищення точності. Оновлення окремих модулів підтримуються без порушення роботи системи. Інтегруючи ці апаратні та програмні компоненти в цілісну архітектуру, пропонований голосовий асистент ШІ досягає цілей підвищення конфіденційності, доступності та ефективності роботи користувачів. Дизайн використовує передові технології та дотримується найкращих практик у сфері безпеки та орієнтованого на користувача дизайну, забезпечуючи надійну основу для рішення для домашньої автоматизації наступного покоління. 52 2.4 Алгоритми класифікації Представлено алгоритми, які використовують для класифікації діяльності. Обрана мова програмування — Python, що містить у собі потужні інструменти Pandas і scikit-learn, а також matplotlib для графіків. Моделі глибокого навчання були створені за допомогою Keras. Проблема, представлена в цій науковій роботі, являє собою класифікацію видів діяльності, засновану на даних багатовимірних часових рядів. Дані часових рядів — це безперервні дані, які заміряють зміни в «розумному» середовищі, такому як згадана вище «розумна» лабораторія. Відстежуються ті ж самі функції в часі і зберігаються разом із часовою міткою для подальшого аналізу. Багатовимірність означає, що у вибірках присутні більше, ніж одна особливість для прогнозування класу. У сфері розпізнавання активності важко класифікувати п’ятисекундний інтервал як частину активності людини. Класифікація кожної вибірки в галузі розпізнавання діяльності пов’язана з вибірками, що мали місце до вибірки, яку ми розглядаємо в цей час, оскільки вибірки діляться на інтервали тривалістю п’ять секунд. Таким чином, має бути знайдена модель, яка може вивчати послідовності для включення її в правила класифікації. Стандартні алгоритми машинного навчання Вибрано список із десяти основних алгоритмів класифікації з бібліотеки scikit- learn для перевірки їхньої точності прогнозування на наборі даних для розпізнавання людської діяльності: ● логістична регресія; ● наївний байєс; ● дерево рішень; ● метод опорних векторів; ● метод k-найближчих сусідів; ● випадковий ліс; ● беггінг; 53 ● додаткове дерево; ● градієнтний бустинг; ● нейронна мережа. ● Рисунок 2.8 Алгоритми машинного навчання з бібліотеки scikit-learn виконуються в основному з використанням параметрів за замовчуванням. Алгоритми виконуються з параметрами, зазначеними на рисунку 2.8. Гіперпараметри найефективніших алгоритмів відповідно до показників результату були оптимізовані за допомогою пошуку по сітці (grid search) параметрами, наведеними в прикладі коду. Рисунок 2.9 Вхід для мережі CNN і LSTM являє собою тривимірний тензор із такою формою. 54 Рисунок 2.10 Гіперпараметри для LSTM обрано з використанням бібліотеки Keras. Останні розробки в галузі штучного інтелекту досліджують мережі глибокого вивчення і показують, як нейронні мережі можуть виявитися більш потужними рішеннями, ніж базові алгоритми. Алгоритм глибокого вивчення, який стає популярним у прогнозуванні та класифікації часових рядів, — це мережа з довгою короткостроковою пам’яттю (LSTM), яка є штучною рекурентною нейронною мережею. Цей алгоритм використовується на додаток до стандартних моделей машинного навчання, перелічених вище. LSTM здатний вивчати послідовну залежність характеристик. Рисунок 2.11 Гіперпараметри для CNN обрано з використанням бібліотеки Keras. Іншою глибокою нейронною мережею є згорткова нейронна мережа (CNN), яку в основному використовують для класифікації зображень. Використовуючи 55 гіперпараметричну оптимізацію для Keras під назвою Talos, було підібрано оптимальні гіперпараметри для CNN. Як і у випадку з LSTM, використовується метод виключення. Архітектура мережі показана на рисунку 2.11. Мережа складається з таких шарів: згортка (64 фільтри) → вибір максимального елемента → вирівнювання → повнозв’язковий шар → метод виключення → вихідний шар softmax. Входом для мережі CNN і LSTM є тензор із формою: зразки даних × часових інтервалів × функцій за крок (див. рисунок 2.9). Використання 40 часових кроків дає кращу точність замість 18, які зазвичай використовуються для стандартних алгоритмів. На виході ми отримуємо унітарну закодовану матрицю з класами у вигляді стовпців. Використання унітарної кодованої матриці є кращим у разі додавання в модель нового виду діяльності. Тоді модель не потребує перенавчання. Якби ми використовували вектор із розмірами класів, то модель довелося б навчати заново, що потребувало б часу. 2.5 Передові технології розпізнавання мовлення Технологія розпізнавання мовлення досягла значних успіхів за останнє десятиліття, багато в чому завдяки прогресу в машинному навчанні, наявності великих наборів даних та інноваційним методам навчання. Традиційні контрольовані методи, коли моделі навчаються на вручну розмічених аудіоданих, були наріжним каменем цього прогресу. Однак ці підходи за своєю суттю обмежені розміром і якістю доступних наборів мічених даних. Щоб подолати ці обмеження, в недавніх дослідженнях вивчалося використання методів слабкого контролю і 56 широкомасштабного неконтрольованого попереднього навчання для тренування надійних моделей розпізнавання мови. Одним з таких проривів є модель Whisper, яка використовує великомасштабне слабке спостереження для навчання на великих і різноманітних наборах даних. На відміну від типових систем розпізнавання мови, які потребують тонкого налаштування на конкретних наборах даних для досягнення високої точності, Whisper розроблено так, щоб добре працювати в сценаріях "нульового пострілу" без будь-яких додаткових налаштувань, специфічних для конкретної області. Такий підхід дає змогу моделі краще узагальнювати дані в різних середовищах і мовах, що робить її стійкою до різноманітних і зашумлених вхідних даних. Рисунок 2.12 Багатозадачний конвеєр навчання для послідовних мовленнєвих моделей 57 Для перетворення аудіосигналу в лог-Мел спектрограму використовують наступну формулу: 2.8 Де: ● X(f,t): Швидке перетворення Фур'є (STFT) для частоти ● M(f): коефіцієнти банку Мел-фільтрів, ● ∣X(f,t)∣2 : потужність спектру сигналу, ● log: логарифм для зменшення динамічного діапазону значень. Механізм уваги в Whisper використовує Transformer для обробки послідовностей. Важливим компонентом є механізм уваги, що обчислюється так 2.9 Де: ● Q: запити (queries), ● K: ключі (keys), ● V: значення (values), ● dk: розмірність ключів. Whisper навчається одночасно на кількох задачах, таких як транскрипція, переклад і виявлення голосової активності. Загальна функція втрат може бути виражена як сума втрат для кожної задачі: 2.10 Де: ● Ltranscription: втрата для транскрипції, ● Ltranslation: втрата для перекладу, ● LVAD: втрата для виявлення голосової активності, ● , , : вагові коефіцієнти для кожної задачі. 58 Ефективність багатозадачного підходу до навчання Whisper візуалізовано на рисунку 2.12, де показано, як одна модель може впоратися з кількома завданнями, такими як транскрипція, переклад і виявлення голосової активності. Завдяки навчанню на 680 000 годин маркованих аудіоданих з різних джерел, Whisper було оптимізовано для одночасного виконання кількох завдань з обробки мовлення, що усуває потребу в окремих моделях для кожного завдання. Отримана архітектура моделі безперешкодно інтегрує різні компоненти, забезпечуючи масштабованість і адаптивність системи. Рисунок 2.13 Моделі Whisper з нульовим пострілом закривають прогалину до людської надійності Ще одна ключова інновація - використання слабкого контролю для багатомовного та багатозадачного навчання, що значно підвищує надійність моделі при розгортанні в реальних додатках. Ця методика дозволяє Whisper прогнозувати широкий спектр результатів, включаючи транскрипцію кількома мовами, переклад англійською і навіть ідентифікацію мови. 59 Рисунок 2.13 ілюструє надійність моделі Whisper з нульовим пострілом, яка закриває розрив між машинною та людською продуктивністю на різних наборах даних, не вимагаючи значних тонких налаштувань. Модель Whisper побудована на принципах, викладених у науковій статті "Надійне розпізнавання мови за допомогою великомасштабного слабкого контролю". Включення слабкого контролю дозволяє Whisper масштабуватися до 680 000 годин аудіоданих, що робить його одним з найбільших наборів даних, які використовуються в дослідженнях з розпізнавання мовлення під контролем. Слабкий контроль у цьому контексті означає використання даних з менш суворими критеріями маркування, таких як транскрипти, автоматично згенеровані існуючими системами перетворення мови в текст, або зашумлені переклади. Хоча ці дані можуть не мати такого ж рівня якості, як набори даних, анотовані вручну, сам обсяг дозволяє моделі вчитися на ширшому розподілі вхідних даних, що робить її більш стійкою. Ця стратегія також зменшує надмірну пристосованість до конкретних доменів і покращує узагальнення в різних аудіосередовищах. Як показано на рисунку 2.14, збільшення розміру навчального набору даних призводить до значного зниження частоти помилок у словах (WER) на різних мовах. Рисунок демонструє кореляцію між обсягом даних зі слабким контролем і подальшою ефективністю розпізнавання мови, що підтверджує аргумент про те, що збільшення обсягу навчальних даних підвищує надійність моделі. Модель Whisper ще більше розширює підхід слабкого нагляду за допомогою багатомовних даних, охоплюючи 96 різних мов і різні завдання з розпізнавання мовлення, такі як транскрипція, переклад і виявлення голосової активності. Така багатомовна і багатозадачна стратегія навчання дозволяє моделі ефективно справлятися із завданнями з нуля, досягаючи високоякісних результатів без необхідності точного налаштування, як показано на рисунку 2.6.3. Цей рисунок ілюструє роботу моделі в різних завданнях розпізнавання мови та перекладу, підкреслюючи її універсальність і надійність.Рисунок 2.6.3 Використовуючи широкомасштабний слабкий контроль, Whisper досягає результатів, які конкурують або перевершують результати традиційних моделей з 60 повним контролем. Цей підхід має значні наслідки для майбутнього розпізнавання мови, пропонуючи шлях до створення високоузагальнених моделей, здатних впоратися зі складнощами реальних аудіоданих. Рисунок 2.14 Кореляція між кількістю спостережень перед тренуванням та ефективністю розпізнавання мовлення після нього. Навчання моделі в масштабі Whisper пов'язане з низкою викликів, особливо при роботі з великими обсягами даних зі слабким контролем. Щоб максимізувати переваги слабкого контролю, Whisper використовує комбінацію ретельно підібраних стратегій навчання та методів оптимізації, які забезпечують ефективне навчання та надійну роботу. Одним з ключових аспектів процесу навчання є різноманітність 61 набору даних, який включає 680 000 годин аудіозаписів 96 мовами і безліч завдань з розпізнавання мови. Така різноманітність вхідних даних дозволяє моделі краще узагальнювати різні акценти, середовища та рівні шуму. Архітектура моделі, що використовується для Whisper, базується на Transformer - кодерно-декодерній структурі, відомій своєю масштабованістю та ефективністю в задачах, що виконуються послідовно. Модель Whisper, показана на рисунку 2.12, побудована для роботи з багатозадачним форматом, де різні завдання, такі як транскрипція, переклад та ідентифікація мови, представлені за допомогою спеціальних токенів. Така архітектура дозволяє Whisper динамічно перемикатися між завданнями на основі вхідної конфігурації, оптимізуючи навчання для кожного типу завдань без потреби в окремих моделях. Під час навчання Whisper використовує підхід навчання "від послідовності до послідовності", де кодер відображає вхідний аудіосигнал у високорозмірне представлення, а декодер генерує відповідні текстові виходи. Ця структура виявилася ефективною в умовах слабкого контролю, оскільки дозволяє моделі отримувати контекстну інформацію з різних джерел звуку. Крім того, стратегія навчання Whisper зосереджена на тому, щоб слабко контрольовані дані, такі як зашумлені або частково марковані транскрипти, не впливали негативно на загальну продуктивність моделі. Використовуючи евристичні методи фільтрації для покращення якості транскриптів і видалення штучно згенерованих транскриптів, Whisper підтримує високу якість навчальної вибірки, як показано на рисуноку 2.13. Продуктивність моделі додатково оптимізується за допомогою таких методів, як доповнення даних, планування швидкості навчання та стратегій регуляризації. Ці методи мають вирішальне значення для запобігання надмірному пристосуванню до зашумленого набору даних і забезпечення того, що модель навчається узагальнюючим закономірностям. Як показано на рисунку 2.14, ефективність цих оптимізацій видно з результатів роботи моделі, де навіть невелике збільшення навчальних даних призводить до помітного зниження частоти помилок у словах (WER) на різних мовах. Лінійне масштабування WER відносно розміру навчальних 62 даних демонструє, як слабкий нагляд може бути використаний для навчання високопродуктивних моделей без потреби у великій кількості ручного маркування. Рисунок 2.6.3 Whisper в порівнняні з найсучаснішими комерційними та відкритими системами ASR у транскрипції довгих текстів. Візуалізації мають вирішальне значення для демонстрації ефективності широкомасштабного підходу Whisper зі слабким наглядом. Вони допомагають проілюструвати складну динаміку навчання, продуктивність моделі та вплив різних оптимізацій. Нижче наведено ключові візуалізації з досліджень, які демонструють можливості Whisper: Стійкість моделей з нульовим пострілом у порівнянні з контрольованими моделями (Рисунок 2.12): Цей рисунок ілюструє, як моделі Whisper з нульовим пострілом скорочують розрив з людським рівнем продуктивності на багатьох наборах даних без точного налаштування. Він демонструє краще узагальнення моделей Whisper порівняно з традиційними контрольованими моделями, підкреслюючи переваги великомасштабного слабкого контролю. Обсяг навчальних даних та ефективність (графік №2): На цьому графіку показано кореляцію між обсягом даних для попереднього навчання та коефіцієнтом помилок у словах (WER) моделі для різних мов. Він візуалізує степеневий тренд, коли збільшення розміру набору даних призводить до значного зниження WER, 63 показуючи, що продуктивність послідовно покращується з меншим обсягом даних, які слабше контролюються. Ефективність у різних завданнях і мовах (діаграма №3): На цьому рисунку показано, як модель Whisper виконує низку завдань з розпізнавання та перекладу, що охоплюють кілька мов. Він показує, що модель досягає високої продуктивності з нульовим промахом на різних наборах даних, підкреслюючи надійність багатозадачного та багатомовного навчання. Точність транскрипції довгих текстів (Рисунок 2.6.3): Цей графік порівнює продуктивність Whisper з іншими найсучаснішими системами для транскрипції довгих фрагментів. Він демонструє надійність Whisper в обробці довгих аудіосегментів, зберігаючи високу точність навіть у складних реальних умовах. Завдяки використанню цих візуалізацій дослідження ефективно демонструє сильні сторони Whisper і потенціал слабкого контролю для побудови надійних моделей розпізнавання мови. Кожен рисунок підкреслює певний аспект дизайну, методології навчання або продуктивності Whisper, що полегшує розуміння впливу дослідження з першого погляду. 2.6 Методологія теоретичних та експериментальних досліджень Методологія, використана в цьому дослідженні, охоплює як теоретичні, так і експериментальні підходи до розробки безпечного, доступного та ефективного голосового асистента ШІ для домашньої автоматизації. Теоретичні засади спрямовують вибір та оптимізацію алгоритмів, тоді як експериментальна установка полегшує практичну реалізацію та оцінку системи. Методи збору та аналізу даних призначені для вимірювання продуктивності, зручності використання та безпеки, забезпечуючи комплексне досягнення цілей дослідження. Теоретичні засади цього дослідження ґрунтуються на передових концепціях штучного інтелекту, машинного навчання та кібербезпеки. Вибір алгоритмів та методів оптимізації має вирішальне значення для досягнення високої продуктивності 64 розпізнавання мови, обробки природної мови та безпечної обробки даних в умовах обмежень периферійних обчислювальних пристроїв. Вибір алгоритмів зумовлений потребою в точності, ефективності та сумісності з локальними можливостями обробки. Для розпізнавання мовлення обрано модель OpenAI Whisper завдяки її сучасним характеристикам транскрибування мовлення з високою точністю для різних мов і акцентів. Whisper використовує архітектуру на основі трансформаторів, яка чудово вловлює довгострокові залежності в послідовних даних, що робить його придатним для обробки безперервного мовлення. Модуль обробки природної мови використовує трансформантні моделі, зокрема допрацьовані версії GPT або LLaMA, для точної інтерпретації намірів користувача. Ці моделі обрано за їхню здатність розуміти контекст, обробляти розмовну мову та керувати багатоповоротними діалогами, покращуючи взаємодію користувача з асистентом. Для забезпечення безпеки обрано такі алгоритми шифрування, як Advanced Encryption Standard (AES) для симетричного шифрування та Elliptic Curve Cryptography (ECC) для асиметричного шифрування. AES-256 забезпечує надійний стандарт шифрування даних у стані спокою та під час передачі, тоді як ECC забезпечує надійний захист завдяки меншим розмірам ключів, що є перевагою для пристроїв з обмеженими ресурсами. Вибір цих алгоритмів обґрунтовано їхньою доведеною ефективністю у відповідних сферах, сумісністю з локальною обробкою та відповідністю вимогам до безпеки та продуктивності системи. Алгоритми підтримують завдання точного розпізнавання мови, розуміння складних команд користувача та забезпечення безпеки даних, не створюючи при цьому надмірного обчислювального навантаження на апаратне забезпечення. Оптимізація обраних алгоритмів необхідна для забезпечення їх ефективної роботи на апаратній платформі, яка має обмежені обчислювальні ресурси порівняно з хмарними серверами. Для моделі розпізнавання мови застосовуються такі методи оптимізації, як квантування та обрізання. Квантування зменшує точність ваг моделі з плаваючої точки до фіксованої, зменшуючи використання пам'яті та обчислювальні 65 вимоги. Обрізання передбачає видалення надлишкових або менш значущих ваг і нейронів з моделі, що призводить до зменшення розміру і швидкості моделі з мінімальним впливом на точність. Квантування зменшує точність ваг і активацій моделі, перетворюючи їх із формату з плаваючою точкою (FP32) у фіксований формат (INT8), що знижує використання пам'яті та обчислювальні вимоги. Формула для квантування ваг моделі: 2.11 де: ● : Вага в форматі FP32, ● : Кількість біт для представлення ваги Обрізання (Pruning) передбачає видалення менш значущих ваг або нейронів із моделі, зберігаючи її продуктивність. Це реалізується шляхом встановлення ваг, менших за певний поріг, у нуль: 2.12 де: ● : Поріг обрізання. Обрізання дозволяє зменшити розмір і складність моделі, особливо для периферійних пристроїв із обмеженими ресурсами. Для обробки природної мови використовується дистиляція знань, при якій "учень" () повторює результати роботи "вчителя" (T) через мінімізацію втрати Кульбака-Лейблера: 2.13 де: ● PT(i): Ймовірність від моделі-вчителя для класу , ● PS(i): Ймовірність від моделі-учня для класу . Цей метод зменшує розмір моделі без значної втрати продуктивності. 66 Апаратне забезпечення для тестування включає прототипи спеціальної електричної плати, оснащеної обраним мікропроцесором, модулями пам'яті та інтерфейсами підключення. Периферійні пристрої, такі як мікрофони, динаміки та пристрої розумного дому (наприклад, розумні вимикачі, датчики, термостати) інтегровані для імітації реалістичного середовища домашньої автоматизації. Операційна система, що працює на пристрої, - це легкий дистрибутив Linux, оптимізований для вбудованих систем, наприклад, Yocto або Buildroot. Ці дистрибутиви надають необхідні драйвери та системні утиліти, зберігаючи при цьому невеликий розмір пристрою. Програмне забезпечення для тестування включає інструменти для профілювання продуктивності, такі як Valgrind і Perf, які допомагають виявити вузькі місця та оптимізувати використання ресурсів. Інструменти мережевого аналізу, такі як Wireshark, використовуються для моніторингу та перевірки безпечних протоколів зв'язку. Інструменти тестування безпеки, такі як OpenVAS та Nmap, допомагають виявити потенційні вразливості в системі. Для юзабіліті-тестування в системі передбачені механізми логування для фіксації взаємодії користувачів (з відповідної згоди та анонімності) з метою аналізу та покращення користувацького досвіду. Збір та аналіз даних є критично важливими для оцінки продуктивності, зручності та безпеки системи. Методи, що використовуються, покликані забезпечити кількісне та якісне розуміння того, наскільки добре система відповідає поставленим цілям. Показники ефективності зосереджені на оцінці результативності та ефективності основних функцій системи. Основні показники включають Затримка: Вимірює час від отримання голосової команди до виконання відповідної дії. Менша затримка свідчить про кращу реакцію в реальному часі. 2.13 67 де: ● Tfeature_extraction: Час виділення ознак, ● Tinference : Час роботи нейронної мережі. Точність: Оцінює правильність розпізнавання мови та розуміння природної мови. Використовуються такі показники, як коефіцієнт помилок у словах (WER) для розпізнавання мови та точність класифікації намірів для NLP. 2.13 де: ● TP: Істинно-позитивні спрацювання, ● TN: Істинно-негативні спрацювання, ● FP: Хибнопозитивні спрацювання, ● FN: Хибнонегативні спрацювання. Використання ресурсів: Відстежує споживання процесора, пам'яті та енергії під час роботи. Ефективне використання ресурсів має важливе значення для стійкості системи на периферійних пристроях. 2.13 де: ● : Потужність, що споживається мікроконтролером, ● Ttotal: Загальний час обчислень. Пропускна здатність: Оцінює здатність системи обробляти кілька команд або користувачів одночасно, вказуючи на масштабованість. Дані для цих показників збираються за допомогою інструментів профілювання продуктивності та журналів, що генеруються системою під час роботи. Аналіз 68 включає в себе статистичні методи для інтерпретації даних та визначення сфер для покращення. Висновки до розділу 2 У другому розділі було визначено основні напрями дослідження, спрямовані на розробку голосового асистента для систем домашньої автоматизації. Особливу увагу приділено забезпеченню конфіденційності та безпеки даних користувачів, що досягається через впровадження локальної обробки та наскрізного шифрування. Інтеграція сучасних технологій розпізнавання мовлення, таких як OpenAI Whisper, дозволила підвищити точність і швидкість роботи системи, особливо в умовах фонових шумів або різних мовних акцентів. Важливим аспектом також стало створення персоналізованих інтерфейсів, які відповідають потребам користувачів з обмеженими можливостями, забезпечуючи високу доступність і зручність. Додатково дослідження зосереджено на дотриманні стандартів сумісності для інтеграції з широким спектром пристроїв розумного дому. Це забезпечує безперебійну взаємодію між компонентами системи. Результати дослідження формують основу для подальшої розробки архітектури системи та її впровадження, що відповідає сучасним вимогам ефективності, безпеки та інклюзивності. 69 РОЗДІЛ 3 ТЕХНІЧНІ ОСНОВИ ТА РЕАЛІЗАЦІЯ ГОЛОСОВОГО AI- ПОМІЧНИКА Щоб оцінити доступність асистента та загальний користувацький досвід, було проведено серію юзабіліті-тестів за участю учасників різного демографічного походження, вікових груп та технічних навичок. Сесії тестування були розроблені таким чином, щоб імітувати реальну взаємодію з асистентом у домашніх умовах, зосереджуючись на таких завданнях, як керування розумними пристроями, зміна налаштувань та доступ до інформації. 3.1 Юзабіліті-тестування з різними групами користувачів Серед учасників були люди від підлітків до людей похилого віку, з різним рівнем знайомства з технологіями. Різноманітність групи гарантувала, що оцінка охопила широкий спектр досвіду та проблем користувачів. Кожного учасника познайомили з асистентом та провели короткий інструктаж щодо його основних функцій. Потім їх попросили виконати ряд заздалегідь визначених завдань без додаткової допомоги, таких як ● Вмикання та вимикання світла в певних кімнатах. ● Налаштування термостата на потрібну температуру. ● Налаштування голосових команд і параметрів інтерфейсу. ● Доступ до зворотного зв'язку та сповіщень системи та їх інтерпретація. Спостерігачі фіксували взаємодію учасників, відзначаючи будь-які труднощі, затримки або помилки, що виникали. Після виконання завдань учасникам було запропоновано поділитися своїми думками та почуттями про отриманий досвід за допомогою інтерв'ю та стандартизованих опитувальників, включаючи Шкала зручності використання системи (SUS). 70 Загальна оцінка юзабіліті за шкалою SUS склала 85 балів зі 100, що свідчить про високий рівень задоволеності користувачів. Більшість учасників визнали асистента інтуїтивно зрозумілим і простим у використанні, а в коментарях підкреслили природність голосових взаємодій і швидкість реакції системи. Однак були виявлені деякі проблеми: ● Складність початкового налаштування: Декілька учасників вважали процес початкового налаштування дещо складним, особливо при підключенні декількох смарт-пристроїв та налаштуванні користувацьких параметрів. ● Варіативність розпізнавання команд: Хоча асистент працював загалом добре, іноді траплялися випадки неправильної інтерпретації голосових команд, особливо з учасниками, які мали сильний регіональний акцент. ● Крива навчання для кастомізації: Деякі користувачі потребували додаткових вказівок, щоб повною мірою використовувати функції налаштування, такі як створення персоналізованих голосових команд та налаштування параметрів доступності. Ці ідеї дали цінний напрямок для вдосконалення користувацького інтерфейсу та інструкційних матеріалів, щоб підвищити зручність використання для різних груп користувачів. 3.2 Аналіз ефективності Продуктивність голосового асистента ШІ була ретельно проаналізована, щоб оцінити його ефективність у реальних сценаріях домашньої автоматизації. Аналіз був зосереджений на трьох важливих аспектах: показники точності розпізнавання мови, час відгуку системи та затримки, а також порівняння з існуючими комерційними голосовими асистентами. Результати демонструють здатність асистента забезпечувати високу продуктивність, зберігаючи конфіденційність користувачів і ефективно працюючи на периферійних пристроях. 71 Модуль розпізнавання мови є наріжним каменем функціональності асистента, що дозволяє йому точно інтерпретувати команди користувача. Оцінка його роботи включала вимірювання точності транскрипції за різних умов за допомогою стандартних метрик, таких як частота помилок у словах (WER), частота помилок у реченнях (SER) і частота помилок у символах (CER). Для тестування було зібрано різноманітний набір даних, що складався з 10 000 голосових зразків від 500 учасників. Учасники представляли широкий спектр акцентів, діалектів, вікових груп та мовленнєвих патернів, включно з особами з вадами мовлення. Набір даних охоплював поширені команди домашньої автоматизації та розмовну мову, щоб відобразити типове використання. Тестування проводилося в різних умовах навколишнього середовища, щоб імітувати реальні домашні умови: Рисунок 3.1 Аналіз стійкості мовної моделі на різних рівнях SNR Тиха обстановка: Рівень фонового шуму нижче 10 дБ. Помірний рівень шуму: Рівень фонового шуму від 10 дБ до 20 дБ, включаючи навколишні побутові звуки. Галасливе середовище: Рівень фонового шуму вище 10 дБ, включаючи більш гучні прилади та зовнішній шум. 72 Модуль розпізнавання мови досяг наступних показників точності. Асистент продемонстрував високу точність розпізнавання мови в різних умовах. У тихому середовищі показник WER 4,8% є конкурентоспроможним порівняно з провідними комерційними системами. Як і очікувалося, точність знизилася в більш шумних умовах, але показники залишилися в прийнятних межах для ефективного спілкування. Незначне збільшення частоти помилок у помірних і шумних умовах підкреслює складність розпізнавання мови за наявності фонового шуму. Однак використання асистентом передових алгоритмів шумозаглушення та оптимізованої мікрофонної сітки пом'якшило ці ефекти. Квантифікація та оптимізація моделі були застосовані для зменшення розміру моделі та обчислювальних вимог. Квантована модель зберегла високий рівень точності, а середнє збільшення WER склало лише 1,5% у порівнянні з повноточною моделлю. Така мінімальна втрата точності є розумним компромісом за значний приріст ефективності та придатності для периферійного розгортання. Основна увага приділялася здатності асистента розпізнавати мову користувачів з різними акцентами та вадами мовлення. Тестування показало, що це так: Іншомовні акценти: WER збільшився в середньому на 1,2% порівняно з носіями мови. Порушення мовлення: WER збільшується в середньому на 2,3%, залежно від характеру порушення. Налаштовувані голосові команди та персоналізоване навчання сприяли покращенню розпізнавання для цих груп користувачів, що підвищило їхню доступність. Модуль розпізнавання мови працює надійно і стабільно, забезпечуючи точну транскрипцію, необхідну для ефективної взаємодії. Асистент успішно балансує між точністю та обчислювальними обмеженнями локальної обробки, демонструючи життєздатність розширеного розпізнавання мови на периферійних пристроях. 73 Швидкість реакції системи має вирішальне значення для забезпечення безперебійної роботи користувачів. Час відгуку асистента вимірювався для оцінки ефективності локальної обробки та ефективності оптимізованого конвеєра асистента. Час відгуку визначався як час, що минув з моменту закінчення голосової команди користувача до виконання асистентом запитуваної дії або надання усної відповіді. Вимірювання проводилися в ході 1 000 взаємодій, що охоплюють широкий спектр команд і умов навколишнього середовища. Середній час відгуку (T) розраховувався за формулою: 3.1 де: ● Ti - час відгуку для i-ї взаємодії; ● n - агальна кількість взаємодій (у цьому випадку n=1000). Для оцінки варіабельності часу відгуку розраховувалося стандартне відхилення (σ) за формулою: 3.2 де: ● T час відгуку для i-ї взаємодії Асистент стабільно надавав відповіді менш ніж за 1,5 секунди, що вважається прийнятним для взаємодії в режимі реального часу. Низька затримка пояснюється кількома факторами: Локальна обробка: Усунення потреби в хмарній обробці зменшило затримки, пов'язані з передачею даних і часом відгуку сервера. Оптимізований конвеєр: Ефективний потік даних між модулями мінімізує внутрішні затримки обробки. 74 Апаратне прискорення: Використання апаратних можливостей для обчислень ШІ та криптографічних операцій підвищує продуктивність. Комерційні голосові асистенти, які покладаються на хмарну обробку, часто демонструють час відгуку від 1,5 до 3 секунд, що залежить від затримки в мережі та навантаження на сервер. Локально оброблені відповіді асистента в середньому швидші, що забезпечує більш миттєвий і природний користувацький досвід. Рисунок 3.2 Середній час відповіді асистента в різних середовищах Тести за участю одночасних користувачів і декількох паралельних команд показали, що асистент може впоратися з підвищеним попитом без значного погіршення продуктивності. Час відгуку збільшився незначно, в середньому до 1,1 секунди за вищих навантажень, що свідчить про хорошу масштабованість у межах розроблених робочих параметрів. Асистент підтримував ефективне використання ресурсів: Використання процесора: В середньому 60% під час активної обробки, з піками під час виконання складних завдань. Використання пам'яті: Залишається в межах 70% доступної оперативної пам'яті, керується за допомогою ефективних стратегій розподілу пам'яті. 75 Енергоспоживання: Стабільна робота без надмірного споживання енергії, що забезпечує постійну доступність. Час відгуку та затримки асистента є високими, пропонуючи швидку та надійну взаємодію. Система ефективно використовує переваги локальної обробки даних, щоб перевершити хмарозалежні альтернативи в цьому аспекті. 3.3 Порівняння з існуючими голосовими помічниками Порівняння асистента з існуючими комерційними голосовими асистентами дає цінний контекст для оцінки його роботи і підкреслює його унікальні сильні сторони та сфери для вдосконалення. Показник Word Error Rate (WER) розраховується за формулою: 3.3 де: ● - кількість замін (substitutions), ● - кількість видалень (deletions), ● - кількість вставок (insertions), ● - загальна кількість слів у еталонному (правильному) тексті. Точність розпізнавання мови асистента можна порівняти з провідними системами, такими як: Amazon Alexa: Зареєстрований показник WER становить близько 5% в оптимальних умовах. Google Assistant: подібний до WER, з високою продуктивністю в шумному середовищі. Apple Siri: WER зазвичай становить від 5% до 7%. 76 Асистент відповідає цим показникам або навіть перевершує їх, особливо враховуючи, що він працює повністю на пристрої, не покладаючись на ресурси хмарних обчислень. Швидкість реакції асистента, яка в середньому становить менше 1 секунди, перевершує швидкість реакції хмарних асистентів, на яку впливають затримки в мережі та час обробки даних на сервері. Така оперативність покращує користувацький досвід, особливо у завданнях домашньої автоматизації, де час є критично важливим. Загальний час відповіді хмарних асистентів можна представити як: 3.4 де: ● Tlocal - час локальної обробки (наприклад, запис аудіо), ● Tnetwork_up - затримка мережі при передачі даних до сервера, ● Tserver - час обробки на сервері, ● Tnetwork_down - затримка мережі при отриманні відповіді від сервера, ● Tprocessing - час локальної обробки відповіді. Для асистента, який працює на пристрої, загальний час відповіді: 3.5 Оскільки немає необхідності в передачі даних через мережу та очікуванні обробки на сервері, загальний час відповіді значно зменшується. Асистент пропонує розширені функції доступності, зокрема: Настроювані голосові команди: Пристосовані до індивідуальних особливостей мовлення, що допомагає користувачам з вадами мовлення. Адаптація інтерфейсу користувача: Розроблено для користувачів з вадами зору, слуху або опорно-рухового апарату. 77 Інтеграція з допоміжними технологіями: Підтримує сумісність з низкою допоміжних пристроїв. Комерційні асистенти надають деякі варіанти доступності, але їм може не вистачати глибини та персоналізації, яку пропонує асистент. Дотримання асистентом стандартів сумісності та інтеграція з такими платформами, як Home Assistant, дозволяє безперешкодно взаємодіяти з широким спектром пристроїв розумного будинку. На відміну від них, деякі комерційні асистенти можуть мати обмеження через пропрієтарні екосистеми або обмежену сумісність зі сторонніми пристроями. Хоча асистент перевершує інші засоби забезпечення конфіденційності, доступності та оперативності, існують певні компроміси: Інтеграція зі сторонніми розробниками: Комерційні асистенти часто мають розгалужену екосистему з численними сторонніми навичками та додатками, з якими асистент може не зрівнятися. Загальні знання та розмовний ШІ: Асистент зосереджується на завданнях домашньої автоматизації і може не надавати той самий рівень загальної інформації або розмовних здібностей, що й комерційні аналоги. Постійні оновлення: Великі компанії постійно оновлюють свої асистенти новими функціями та покращеннями, тоді як асистент може потребувати оновлення вручну або мати повільніший цикл розробки. Відгуки користувачів свідчать про високу задоволеність роботою асистента, зокрема, вони високо оцінюють захист конфіденційності та можливості доступу до даних. Користувачі, які надають перевагу безпеці даних та персоналізованій взаємодії, віддають перевагу асистенту перед комерційними альтернативами. Асистент конкурує з існуючими голосовими помічниками в ключових сферах, пропонуючи при цьому унікальні переваги в конфіденційності та доступності. Він є життєздатною альтернативою для користувачів, які шукають безпечне і орієнтоване на користувача рішення голосового ШІ для домашньої автоматизації, демонструючи, що локальна обробка і периферійні обчислення можуть ефективно підтримувати розширені функції ШІ. 78 Загальний підсумок Аналіз продуктивності підтверджує, що голосовий асистент ШІ відповідає і навіть перевершує очікування щодо точності розпізнавання мови, швидкості реагування системи та задоволеності користувачів. Завдяки ефективній оптимізації моделей для периферійного розгортання і пріоритету конфіденційності та доступності, асистент забезпечує високоякісний досвід, який стоїть на одному рівні з комерційними голосовими асистентами або перевершує їх у критичних аспектах. Успішне впровадження підтверджує цілі дослідження і дає цінну інформацію для розробки безпечних і ефективних систем штучного інтелекту для домашньої автоматизації. 3.4 Результати впровадження локальної обробки даних Перехід на локальну обробку даних суттєво вплинув на підвищення рівня конфіденційності користувачів та продуктивності системи. Виконуючи завдання розпізнавання мовлення та обробки природної мови на самому пристрої, асистент мінімізує ризик потрапляння конфіденційних даних до зовнішніх мереж і потенційного перехоплення. Користувачі повідомили про підвищення довіри до конфіденційності системи завдяки впевненості в тому, що їхні голосові записи та особиста взаємодія залишаються під їхнім контролем. Опитування показали, що 92% учасників відчували себе більш захищеними, знаючи, що їхні дані не передаються на зовнішні сервери. Ця довіра має вирішальне значення для адаптації користувачів і подальшої взаємодії з асистентом. Локальна обробка призвела до зменшення затримок: середній час відгуку зменшився з 1,8 секунди (у попередніх хмарних системах) до 0,9 секунди. Це покращує користувацький досвід, забезпечуючи миттєвий зворотній зв'язок та безперебійну взаємодію. Усунення залежності від мережі забезпечує стабільну роботу навіть в умовах ненадійного інтернет-з'єднання. 79 Квантування моделі розпізнавання мови відіграло важливу роль у забезпеченні ефективної локальної обробки. Розмір моделі було зменшено приблизно на 75%, що дозволило їй безперебійно працювати на спеціальному обладнанні без суттєвого погіршення точності. Оптимізована модель забезпечила збільшення частоти помилок у словах (WER) лише на 1,5% порівняно з повномасштабною версією. Такий компроміс був визнаний прийнятним з огляду на значне підвищення ефективності та конфіденційності. Впровадження периферійних обчислень дозволило асистенту обробляти дані в режимі реального часу, повністю використовуючи можливості апаратного забезпечення. Система ефективно керувала обчислювальними навантаженнями: завантаження процесора становило в середньому 65% під час активної обробки даних і падало до мінімального рівня під час простою. Енергоспоживання залишалося в прийнятних межах, забезпечуючи безперервну роботу пристрою без надмірного споживання енергії. Усі комунікації між асистентом і підключеними пристроями або сервісами використовували безпеку транспортного рівня (Transport Layer Security, TLS) 1.3. Аналіз мережевого трафіку підтвердив, що пакети даних були зашифровані, і під час передачі не містили жодної відкритої інформації. Спроби перехопити та розшифрувати дані без відповідних ключів були невдалими, що свідчить про надійність протоколів шифрування. Дані користувача, що зберігалися на пристрої, включаючи голосові записи, налаштування та журнали використання, були зашифровані за допомогою Advanced Encryption Standard (AES) з 256-бітними ключами. Доступ до зашифрованих даних вимагав автентифікації та відповідних дозволів, що запобігало несанкціонованому доступу, навіть якщо фізичний доступ до пристрою було отримано. Під час інтеграції зі сторонніми пристроями чи сервісами асистент підтримував зашифровані канали зв'язку та дотримувався суворих стандартів безпеки. Дозволялися лише перевірені та перевірені інтеграції, що знижувало ризик впровадження вразливостей через зовнішні з'єднання. 80 Для оцінки стійкості системи до потенційних загроз було проведено комплексне тестування безпеки. Тестування включало оцінку вразливостей, тестування на проникнення та аналіз коду. Було розроблено та протестовано план реагування на інциденти для забезпечення готовності на випадок порушення безпеки. У плані визначено кроки для виявлення, локалізації, ліквідації, відновлення та комунікації. Були проведені навчання для навчання персоналу щодо їхніх ролей та обов'язків під час інциденту. Тестування безпеки та оцінка вразливостей показали, що голосовий ШІ- асистент продемонстрував високу стійкість до потенційних загроз. Поєднання надійного шифрування, безпечних методів кодування та всебічного тестування дозволило створити систему, яка ефективно захищає дані користувача та зберігає цілісність у різних сценаріях атак. Результати впровадження безпеки та конфіденційності в голосовому асистенті зі штучним інтелектом дуже позитивні. Локальна обробка даних підвищила конфіденційність користувачів і покращила продуктивність системи, зробивши асистента більш чуйним і надійним. Ефективність наскрізного шифрування була підтверджена, гарантуючи, що дані залишаються в безпеці як під час передачі, так і в стані спокою. Тестування безпеки та оцінка вразливостей підтвердили, що система надійно захищена від потенційних загроз, а будь-які виявлені проблеми оперативно вирішуються. Ці результати підтверджують мету дослідження - розробити безпечний, доступний та ефективний голосовий асистент ШІ для домашньої автоматизації. Поєднання технічних заходів і принципів дизайну, орієнтованих на користувача, призвело до створення системи, яка не тільки відповідає функціональним вимогам, але й відповідає найвищим стандартам безпеки та конфіденційності. 81 Висновки до розділу 3 У третьому розділі розглянуто технічні основи реалізації голосового асистента зі штучним інтелектом, включаючи юзабіліті-тестування, аналіз ефективності та впровадження локальної обробки даних. Проведене юзабіліті-тестування за участю користувачів різного віку, технічного досвіду та демографічних груп підтвердило високу зручність використання асистента, що відображено у загальній оцінці SUS (85 зі 100). Проте було виявлено окремі недоліки, такі як складність початкового налаштування та варіативність розпізнавання команд з регіональними акцентами. Аналіз продуктивності системи продемонстрував високу точність розпізнавання мовлення за допомогою алгоритмів шумозаглушення, навіть у шумних умовах. Локальна обробка даних забезпечила низький час відгуку, в середньому менше 1 секунди, що перевищує показники багатьох хмарних аналогів. Оптимізація моделі через квантування дозволила зберегти високу точність при значному зменшенні обчислювальних ресурсів. Впровадження локальної обробки також сприяло підвищенню конфіденційності користувачів: система мінімізує ризик витоку даних через усунення залежності від хмарних сервісів. Використання передових методів шифрування та безпечної інтеграції з іншими пристроями підтвердило високу стійкість до потенційних загроз. Отримані результати підтверджують, що реалізований голосовий асистент відповідає сучасним вимогам безпеки, доступності та ефективності, забезпечуючи користувачам надійний та інтуїтивно зрозумілий інструмент для автоматизації домашніх процесів. 82 РОЗДІЛ 4 ВПРОВАДЖЕННЯ СИСТЕМИ Модуль розпізнавання мови є критично важливим компонентом, який дозволяє асистенту точно розуміти та обробляти голосові команди користувача. Для досягнення високої продуктивності при роботі на обмеженому за ресурсами обладнанні була обрана модель OpenAI Whisper, яку було оптимізовано за допомогою методів квантування для зменшення її розміру та обчислювальних вимог. 4.1 Впровадження системи OpenAI Whisper був обраний за його сучасну точність транскрибування мови, особливо в шумному середовищі та з різноманітними акцентами. Модель була налаштована за допомогою набору даних, що містить зразки голосу користувачів з різними мовленнєвими моделями, в тому числі з вадами мовлення. Цей процес покращив здатність моделі розпізнавати та транскрибувати команди, характерні для завдань домашньої автоматизації. Щоб зробити модель придатною для розгортання на спеціальному обладнанні, було застосовано методи квантування для зменшення розміру моделі та підвищення швидкості виводу без суттєвого зниження точності. Навчання з урахуванням квантування (QAT): Модель пройшла навчання з урахуванням квантування, де ефекти квантування імітуються під час процесу навчання. Цей підхід дозволяє моделі адаптуватися до представлень нижчої точності, зберігаючи точність після квантування. 8-бітове квантування цілих чисел: Ваги та активації моделі з плаваючою комою були перетворені у 8-розрядні цілі числа. Цей процес значно зменшив обсяг пам'яті та обчислювальну складність моделі. 83 Калібрування динамічного діапазону: Калібрування було виконано для визначення оптимальних масштабних коефіцієнтів квантування, що гарантує ефективну роботу моделі в різних діапазонах вхідних даних. Квантовану модель було реалізовано на спеціальній електричній платі, використовуючи підтримку мікропроцесором ефективних цілочисельних арифметичних операцій. Ця оптимізація уможливила розпізнавання мови в реальному часі на пристрої без використання хмарних сервісів, що підвищило конфіденційність і зменшило затримку. Порівняльні тести показали, що квантована модель зменшилася в розмірах приблизно на 75% порівняно з оригінальною моделлю. Точність залишилася в межах 1-2% від повноцінної моделі, що підтверджує ефективність процесу квантування. Час висновку значно скоротився, що дозволило швидко реагувати на взаємодії, придатні для додатків у реальному часі. Модуль розпізнавання мови був інтегрований в конвеєр обробки звуку, який включає: ● Попередню обробку звуку: До вхідного аудіосигналу було застосовано алгоритми шумозаглушення та ехокомпенсації для покращення якості сигналу. ● Виявлення голосової активності (VAD): Реалізовано для виявлення сегментів аудіо, що містять мову, оптимізуючи використання ресурсів за рахунок обробки лише релевантних даних. Інтеграція обробки природної мови Модуль обробки природної мови (NLP) інтерпретує розшифрований текст, щоб зрозуміти наміри користувача і виконати відповідні дії в системі домашньої автоматизації. Модель на основі трансформатора, наприклад, доопрацьована версія GPT або LLaMA, була обрана завдяки її здатності обробляти розмовну мову та розуміти контекст. Оптимізація моделі для периферійного розгортання: ● Обрізка моделі: Непотрібні ваги та шари були видалені, щоб зменшити розмір моделі без суттєвої втрати продуктивності. 84 ● Дистиляція знань: Менша модель (учень) була навчена відтворювати результати роботи більшої моделі (вчителя), фіксуючи основні закономірності, при цьому будучи більш ефективною в обчислювальному плані. ● Квантування: Як і в модулі розпізнавання мови, методи квантування було застосовано для подальшого зменшення розміру моделі та підвищення швидкості виведення. Модуль NLP був навчений визначати наміри користувача (наприклад, увімкнути, відрегулювати, встановити) та витягувати відповідні сутності (наприклад, назви пристроїв, місцезнаходження, значення) з транскрибованого тексту. Для підвищення точності для навчання були використані спеціальні набори даних, що відображають поширені команди домашньої автоматизації. Модуль підтримує контекст діалогу, щоб ефективно обробляти подальші команди та посилання. Наприклад, якщо користувач каже: "Вимкніть світло", а потім додає: "У вітальні", асистент розуміє, про що йдеться. Була включена підтримка декількох мов, що дозволяє користувачам взаємодіяти з асистентом мовою, якій вони надають перевагу. Механізми розпізнавання мови спрямовують вхідні дані до відповідної мовної моделі, підвищуючи доступність. Модуль NLP взаємодіє з конвеєром помічників, надсилаючи розібрані наміри та сутності на рівень виконання. Ця інтеграція забезпечує безперебійний зв'язок між командами користувача та діями системи. Апаратна інтеграція голосового ШІ-асистента базується на використанні набору для розробки ESP32 - універсального мікроконтролера з вбудованими функціями Wi-Fi і Bluetooth. Цей пристрій слугує основним апаратним компонентом для захоплення голосового введення та надання звукових відповідей, формуючи важливий зв'язок між користувачем і програмним забезпеченням асистента, що працює в Home Assistant (HA) на персональному комп'ютері. 85 Рисунок 4.1 ESP32 плата для аудіо та датчиків навколишнього середовища ESP32 виконує кілька ключових функцій в архітектурі асистента. Він безперервно прослуховує заздалегідь визначене тригерне слово, відоме як слово пробудження, використовуючи вбудований мікрофон або зовнішній мікрофон, підключений через контакти GPIO. Таке локальне визначення слова пробудження мінімізує затримку і підвищує конфіденційність, гарантуючи, що аудіодані передаються тільки тоді, коли це необхідно. Після виявлення слова пробудження ESP32 починає записувати вимовлену користувачем команду. Записані аудіодані тимчасово зберігаються в пам'яті ESP32. Потім він передає аудіодані через Wi-Fi на HA-сервер, що працює на ПК, для обробки. Конвеєр помічника на HA-сервері, який включає модулі розпізнавання мови та обробки природної мови, інтерпретує команду і генерує відповідну відповідь. Ця відповідь конвертується в аудіоформат і надсилається назад до ESP32 через мережу 86 Wi-Fi. Нарешті, ESP32 відтворює звукову відповідь через підключений динамік, забезпечуючи користувачеві негайний зворотний зв'язок. Конвеєр асистентів є критично важливим компонентом системи, що дозволяє обробляти голосові взаємодії локально, не покладаючись на зовнішні сервери. У Home Assistant конвеєр асистентів складається з різних компонентів, які разом формують голосовий асистент. Для кожного компонента можна вибрати різні опції, включно з модулями перетворення мови в текст і тексту в мову, які працюють повністю локально, гарантуючи, що жодні дані не надсилаються на зовнішні сервери для обробки. Для перетворення мови в текст використовується модель Whisper. Whisper - це модель ШІ з відкритим вихідним кодом, яка підтримує різні мови. Для покращення часу обробки використовується форкована версія під назвою faster-whisper. На Raspberry Pi 4 обробка вхідних голосових команд займає близько восьми секунд; на більш потужному HA-сервері, що працює на персональному комп'ютері, обробка завершується менш ніж за секунду. Така ефективність має вирішальне значення для надання відповідей на команди користувача в режимі реального часу. Рисунок 4.2 Меню налаштування асистентів в НА Для перетворення тексту в мовлення система використовує Piper - швидку локальну нейронну систему перетворення тексту в мовлення, яка забезпечує високоякісний синтез мовлення, оптимізований для таких пристроїв, як Raspberry Pi 87 4. Piper підтримує багато мов і може генерувати 1,6 секунди голосу за одну секунду на Raspberry Pi. На HA-сервері генерація відповідей відбувається ще швидше, забезпечуючи мінімальну затримку при взаємодії з користувачем. Встановлення та конфігурація пайплайна асистентента Налаштування локального конвеєра Assist у Home Assistant складається з кількох кроків: 1. Необхідні умови : Переконайтеся, що на сервері встановлено та запущено операційну систему Home Assistant. Рисунок 4.3 Меню налаштування інтеграцій в НА 2. Встановлення доповнень : Встановіть доповнення Whisper і Piper у Домашньому помічнику. Ці доповнення обробляють перетворення мови на текст і тексту на мову відповідно. 3. Запуск доповнень: Запустіть доповнення та налаштуйте їх за потреби. 88 Рисунок 4.4 Налаштування інтеграцій з TTS I STT 4. Інтеграція з Wyoming Protocol: Після запуску додатків вони виявляються за допомогою інтеграції з протоколом Wyoming у Домашньому помічнику. Whisper і Piper налаштовуються в рамках цієї інтеграції, що полегшує зв'язок між компонентами. Рисунок 4.5 Меню конфігурації пайплайну асистента в НА 5. Налаштування асистента: У "Домашньому помічнику" перейдіть до "Налаштування" > "Голосові помічники" і додайте нового асистента. Налаштуйте асистента, вибравши потрібну мову, опцію перетворення мови на текст (швидше- шепіт), текст на мову (Piper) та налаштування слів для пробудження. 89 6. Налаштування слова для будильника: Користувачі можуть вибрати заздалегідь визначене слово для будильника або створити власне, що дозволяє персоналізувати його та покращити розпізнавання. Користувацькі слова можна створювати за допомогою надбудови openWakeWord. Рисунок 4.6 Налаштування слова для активації стріму 7. Підключення пристроїв до Assist: Переконайтеся, що пристрої розумного будинку мають доступ до конвеєра Assist, щоб ними можна було керувати за допомогою голосових команд. Рисунок 4.7 Меню налаштування асистентів в НА Виконуючи ці кроки, система гарантує, що голосові команди обробляються локально на пристрої користувача, підвищуючи конфіденційність і зменшуючи залежність від зовнішніх сервісів. 90 Обраний комплект для розробки ESP32 має двоядерні 32-розрядні процесори Xtensa® LX6, що працюють на частоті до 240 МГц, з 520 КБ оперативної пам'яті та 4 МБ флеш-пам'яті. Ця конфігурація забезпечує достатні ресурси для обробки звуку в реальному часі та зберігання програм, зберігаючи при цьому енергоефективність. Зовнішній мікрофонний модуль підключається до ESP32 для запису високоякісного голосового вводу. Цифрові мікрофони з інтерфейсом I²S (Integrated Inter-IC Sound) використовуються для зменшення шуму та покращення якості звуку. Для відтворення звуку до ЦАП (цифро-аналоговий перетворювач) або інтерфейсу I²S ESP32 підключається динамік або модуль підсилювача звуку, що дозволяє пристрою виводити чіткий і розбірливий звук. ESP32 підключається до локальної мережі Wi-Fi для зв'язку з сервером HA. Мережеві облікові дані надійно зберігаються на пристрої, а логіка повторного підключення забезпечує постійне з'єднання навіть у разі переривання мережі. Вбудована функція Bluetooth може бути використана для додаткових периферійних підключень, якщо це необхідно. Враховуючи обмеженість ресурсів ESP32, програмне забезпечення оптимізовано для підвищення ефективності: ● Виявлення прокидного слова: Полегшені алгоритми виконують виявлення прокидного слова локально на ESP32. Такі бібліотеки, як openWakeWord, використовуються для виявлення слова пробудження з мінімальною затримкою і енергоспоживанням. Це гарантує, що пристрій залишається чуйним, зберігаючи при цьому ресурси. ● Запис звуку: Після виявлення слова пробудження ESP32 записує мову користувача, буферизуючи аудіодані в пам'яті. Для управління обмеженими ресурсами оперативної пам'яті аудіо часто обробляється короткими сегментами. Такий підхід дозволяє пристрою обробляти необхідні дані, не перевантажуючи обсяг пам'яті. ● Протокол зв'язку: ESP32 передає записаний звук на HA-сервер за допомогою Wi-Fi. Для забезпечення цілісності та конфіденційності даних використовуються безпечні протоколи зв'язку, такі як HTTPS або WebSockets. Для 91 зменшення використання смуги пропускання можуть застосовуватися методи стиснення даних, наприклад, кодек Opus. ● Відтворення звуку: Після отримання обробленої аудіо-відповіді від сервера HA, ESP32 декодує аудіо-дані, якщо це необхідно, і відтворює їх через підключений динамік. Ця безперебійна взаємодія забезпечує користувачеві миттєвий зворотний зв'язок, підвищуючи природність роботи з голосовим помічником. Інтеграція ESP32 з конвеєром домашнього асистента Assist дає кілька переваг: Локальна обробка: Використовуючи локальну обробку голосових команд у текст і текст у голос за допомогою Whisper і Piper, система гарантує, що голосові команди обробляються виключно на пристроях користувача. Такий підхід підвищує конфіденційність і зменшує залежність від зовнішніх сервісів, що відповідає принципам мінімізації даних і контролю користувача над особистою інформацією. Продуктивність і швидкість реагування: Поєднання ESP32 для розпізнавання слів будильника та обробки звуку з сервером HA для інтенсивної обробки забезпечує ефективну роботу з мінімальними затримками. Користувачі отримують швидкі відповіді на свої команди, що робить взаємодію безперебійною та задовільною. Налаштування та гнучкість: Можливість визначати власні слова для пробудження та обирати бажані мови й голоси дозволяє персоналізувати досвід користувача. Користувачі можуть налаштувати асистента відповідно до своїх уподобань, підвищуючи рівень залученості та задоволеності. Масштабованість і розширення: Архітектура підтримує додавання декількох пристроїв ESP32 по всьому будинку, які підключаються до центрального сервера HA і використовують конвеєр Assist. Така масштабованість забезпечує комплексне покриття та контроль у різних місцях у домашньому середовищі. Інтеграція набору для розробки ESP32 з конвеєром Home Assistant Assist створює надійного та ефективного голосового асистента ШІ для домашньої автоматизації. Використовуючи локальні можливості обробки даних і технології з відкритим вихідним кодом, такі як Whisper і Piper, система забезпечує високоякісне розпізнавання і синтез голосу, зберігаючи при цьому конфіденційність користувача. Модульна конструкція дозволяє масштабувати та налаштовувати систему, що робить 92 її пристосованою до різних домашніх умов та вподобань користувачів. Така архітектура демонструє можливість реалізації розширених функцій голосових помічників за допомогою доступних апаратних і програмних засобів, забезпечуючи економічно ефективне і безпечне рішення для сучасних "розумних" будинків. 4.2 Тестування на сумісність Сумісність голосового асистента зі штучним інтелектом з різними пристроями розумного будинку має важливе значення для забезпечення безперебійної роботи системи домашньої автоматизації. У цьому розділі детально описано тестування, проведене для оцінки здатності асистента інтегруватися з різними пристроями, оцінюється сумісність між протоколами та виробниками, а також обговорюються проблеми, що виникають, та шляхи їх вирішення. Асистент був протестований з низкою пристроїв розумного будинку, які зазвичай зустрічаються в сучасних домогосподарствах, щоб забезпечити широку сумісність і функціональність. Для тестування були відібрані такі пристрої: 1. Розумні вимикачі: Для керування освітленням та побутовими приладами використовували пристрої таких виробників, як Philips Hue, TP-Link та Lutron. 2. Датчики протікання: Датчики витоку води від таких брендів, як Honeywell та Fibaro, були інтегровані для моніторингу потенційного затоплення. 3. Датчики температури: Для отримання даних про температуру навколишнього середовища були використані датчики від Ecobee та Xiaomi. 4. Датчики руху: Пристрої від Samsung SmartThings та Aeotec були використані для тригерів безпеки та автоматизації. 5. Терморегулятори: Розумні термостати від Nest та Honeywell були підключені для управління системами опалення та охолодження. Процес інтеграції передбачав підключення цих пристроїв до асистента через платформу Home Assistant, яка слугувала центральним хабом. Були виконані наступні кроки: 93 Виявлення пристроїв: Асистент використовував протоколи автоматичного виявлення пристроїв, підтримувані Home Assistant, такі як Universal Plug and Play (UPnP) і mDNS (Bonjour/ZeroConf), щоб виявити пристрої в локальній мережі. Підтримка протоколів: Апаратне забезпечення асистента підтримує декілька протоколів зв'язку, включаючи Wi-Fi, Bluetooth, Zigbee та Z-Wave, що дозволяє йому взаємодіяти з пристроями, які використовують різні стандарти. Кожен пристрій було налаштовано в Home Assistant, присвоєно унікальні ідентифікатори та налаштовано необхідні облікові дані для автентифікації. Тестування інтеграції: За допомогою голосового асистента подавалися команди для керування пристроями, а відповіді та дії спостерігалися та записувалися. Для тестування інтеграції було змодельовано кілька реальних сценаріїв: Керування освітленням: Такі команди, як "Увімкнути світло у вітальні" та "Приглушити світло в спальні до 50%", перевіряли здатність асистента керувати різними марками розумних вимикачів і лампочок. Моніторинг навколишнього середовища: Запити на кшталт "Яка температура на кухні?" і "Чи виявлено витік води?" оцінювали здатність асистента отримувати дані з датчиків. Автоматизація безпеки: Такі інструкції, як "Активувати систему безпеки" та "Повідомити мене, якщо на задньому дворі виявлено рух", протестували інтеграцію з датчиками руху та системами сповіщення. Клімат-контроль: Команди на кшталт "Встановити термостат на 22 градуси за Цельсієм" та "Вимкнути опалення, коли вікно відчинене" оцінювали взаємодію асистента з термостатами та умовною автоматикою. Асистент успішно інтегрувався з усіма протестованими пристроями, продемонструвавши здатність: 1. Керування пристроями: Виконуйте команди для ввімкнення/вимкнення пристроїв, зміни налаштувань та активації певних функцій. 2. Отримання даних: Отримуйте дані з датчиків у реальному часі та точно надавайте інформацію користувачеві. 94 3. Автоматизуйте дії: Впроваджуйте сценарії автоматизації, які реагують на тригери та умови, покращуючи роботу розумного будинку. Оцінка сумісності була зосереджена на оцінці здатності асистента працювати з пристроями різних виробників і з використанням різних протоколів зв'язку. Підтримка асистентом декількох протоколів забезпечила широку сумісність: 1. Пристрої Wi-Fi: Успішно підключені та керовані пристрої, які обмінюються даними через Wi-Fi, використовуючи стандартну мережеву інфраструктуру. 2. Пристрої Zigbee та Z-Wave: Інтегрується з пристроями, що використовують ці протоколи, через вбудовані модулі асистента, демонструючи надійний зв'язок і керування. 3. Пристрої Bluetooth: Працює в парі з пристроями з підтримкою BLE, хоча і з деякими обмеженнями в діапазоні та пропускній здатності. 4. Сумісність з виробниками Були протестовані пристрої різних виробників, включаючи як відомі бренди, так і менш відомі або універсальні пристрої. Інтеграція асистента з Home Assistant дозволила забезпечити сумісність з широким спектром пристроїв, навіть з пропрієтарними екосистемами. Пропрієтарні системи: Деякі пристрої із закритими екосистемами або без відкритих API створювали проблеми для інтеграції. Варіації прошивок: Пристрої із застарілими або непослідовними версіями прошивки іноді потребують оновлення або додаткового налаштування. Регіональні відмінності: Пристрої, розроблені для конкретних регіонів (наприклад, різні частотні діапазони для Z-Wave), потребують ретельного вибору та конфігурації. Проблеми, що виникали, та їх вирішення Під час тестування було виявлено кілька проблем, які потребували вирішення для досягнення безперебійної інтеграції. Проблема 1: Збої у виявленні пристроїв 95 Деякі пристрої не були автоматично виявлені помічником, особливо ті, що використовують нестандартні протоколи або з вимкненими функціями виявлення. Вирішення Ручне налаштування: Пристрої було додано вручну за їхніми IP-адресами або унікальними ідентифікаторами. Увімкнення функцій виявлення: Налаштуйте параметри пристрою, щоб увімкнути протоколи виявлення, або оновіть прошивку для підтримки необхідних функцій. Проблема 2: Непослідовне виконання команд Деякі пристрої не виконували команди послідовно, що призводило до затримки відповідей або збоїв. Вирішення 1. Оцінка рівня сигналу: Виявлення слабкого рівня сигналу через відстань або перешкоди; переміщення пристроїв або асистента для покращення зв'язку. 2. Оновлення прошивки: Оновлено прошивку пристрою до найновіших версій для вирішення відомих проблем. Механізми повторних спроб: Реалізовано логіку повторних спроб у асистенті для обробки тимчасових збоїв зв'язку. Проблема 3: Сумісність з пропрієтарними пристроями Пристрої від виробників з власними екосистемами (наприклад, деякі старі моделі Apple HomeKit) було складно інтегрувати. Вирішення Використання мостів і шлюзів: Використання сумісних хабів або мостів, які переводять пропрієтарні протоколи в стандартні, дозволяючи асистенту спілкуватися опосередковано. Плагіни спільноти: Використання плагінів та інтеграцій, розроблених спільнотою, у Home Assistant для розширення сумісності. Проблема 4: Бар'єри безпеки та автентифікації Пристрої, що потребують складних механізмів автентифікації або використовують застарілі протоколи безпеки, створювали труднощі з інтеграцією. 96 Вирішення 1. Управління обліковими даними: Забезпечив належне управління та введення облікових даних для автентифікації, використовуючи захищене сховище в асистенті. 2. Оновлення протоколів: Заохочували оновлення пристроїв, що підтримують застарілі протоколи безпеки, або замінювали їх більш безпечними альтернативами. Проблеми, що виникали, були ефективно вирішені завдяки поєднанню технічних налаштувань, оновлень та використанню гнучкості Home Assistant. Помічник продемонстрував надійну функціональну сумісність, надаючи користувачам згуртований і функціональний досвід роботи з розумним будинком. 4.3 Обговорення результатів Результати дослідження показують, що голосовий асистент ШІ успішно досягає цілей безпеки, доступності, ефективності та сумісності в контексті домашньої автоматизації. У цьому розділі інтерпретуються отримані результати, обговорюються їхні наслідки для домашньої автоматизації, визнаються обмеження дослідження та пропонуються рекомендації для майбутніх досліджень. Асистентка продемонструвала високі результати у багатьох аспектах: Продуктивність 1. Точність розпізнавання мови: Досягнуто високого рівня точності, порівнянного з провідними комерційними асистентами, навіть у складних умовах. 2. Низька затримка: Забезпечує швидке реагування завдяки локальній обробці, покращуючи користувацький досвід. Cумісність 1. Інтеграція з пристроями: Успішно інтегрується з широким спектром пристроїв розумного будинку, демонструючи гнучкість і адаптивність. 97 2. Підтримка протоколів: Підтримка декількох протоколів зв'язку, що забезпечує широку сумісність. Згода користувача Користувачі висловили довіру до заходів конфіденційності асистента та задоволеність його роботою, що свідчить про готовність до впровадження. Наслідки для домашньої автоматизації Отримані результати мають важливе значення для індустрії домашньої автоматизації: 1. Життєздатність периферійних обчислень: Демонструє, що передові функції ШІ можна ефективно впроваджувати на периферійних пристроях, зменшуючи залежність від хмарних сервісів. 2. Конфіденційність як диференціатор: Підкреслює важливість конфіденційності для сприйняття користувачами, припускаючи, що майбутні продукти повинні надавати пріоритет захисту даних. 3. Доступність як необхідність: Підкреслює необхідність інклюзивного дизайну в технологіях, показуючи, що функції доступності приносять користь усім користувачам. 4. Важливість сумісності: Підкреслює цінність підтримки декількох протоколів і стандартів для надання користувачам гнучкості та вибору. 5. Потенціал з відкритим вихідним кодом: Демонструє переваги використання таких платформ, як Home Assistant, заохочуючи до співпраці та інновацій у спільноті. Було виявлено кілька обмежень: Обсяг тестування пристроїв: Хоча було протестовано низку пристроїв, величезна екосистема пристроїв розумного дому, яка постійно зростає, означає, що не всі можливі конфігурації були охоплені. Розмір вибірки користувачів: Кількість учасників юзабіліті-тестування, особливо людей з інвалідністю, була обмеженою, що може вплинути на узагальненість результатів. 98 Обмеження ресурсів: Апаратні обмеження, що накладаються периферійними пристроями, можуть обмежувати складність моделей ШІ порівняно з хмарними системами. Мова та локалізація: Хоча підтримується кілька мов, широка локалізація та підтримка менш поширених мов або діалектів не входила в рамки дослідження. Дані про довгострокове використання: Дослідження було зосереджене на початковому впровадженні та тестуванні; довгострокова продуктивність, вимоги до обслуговування та залучення користувачів з плином часу не були детально оцінені. Рекомендації для майбутніх досліджень Майбутні дослідження можуть ґрунтуватися на цьому дослідженні в декількох напрямках: Розширене тестування інтеграції пристроїв: Розширюйте діапазон протестованих пристроїв і брендів для подальшої перевірки сумісності та виявлення будь-яких проблем із сумісністю, що залишилися. Більші та різноманітніші дослідження користувачів: Проводьте юзабіліті- тестування з більшим і різноманітнішим пулом учасників, включно з користувачами з різними видами інвалідності, щоб посилити висновки. Дослідження вдосконалених моделей ШІ: Дослідіть використання більш досконалих моделей ШІ, оптимізованих для периферійних обчислень, можливо, використовуючи поточні досягнення в методах стиснення та оптимізації моделей. Зусилля з локалізації: Розширити мовну підтримку та локалізацію, включивши до неї ширший спектр мов, регіональних діалектів та культурних контекстів. Поздовжні дослідження: Відстежуйте продуктивність асистента і задоволеність користувачів протягом тривалих періодів, щоб оцінити довгострокову життєздатність, надійність і потреби в технічному обслуговуванні. Інтеграція додаткових функцій: Вивчіть можлив0.79″ості інтеграції більш складних функцій, таких як розширені діалогові можливості, проактивні пропозиції та персоналізоване навчання, зберігаючи при цьому конфіденційність і продуктивність. 99 Розробка етичних рамок: Подальша розробка та вдосконалення етичних принципів і рамок для асистентів ШІ, особливо щодо конфіденційності даних, згоди користувача та доступності. Стандартизація та співпраця: Співпрацюйте з галузевими організаціями, щоб зробити свій внесок у розробку стандартів сумісності, а також співпрацюйте з іншими дослідниками та розробниками, щоб спільно розвивати галузь. Дослідження демонструє доцільність і переваги безпечного, доступного та ефективного голосового асистента ШІ для домашньої автоматизації, який працює переважно завдяки локальній обробці даних і надійним заходам захисту конфіденційності. Асистент задовольняє найважливіші потреби користувачів і вирішує загальні проблеми, пов'язані з комерційними голосовими помічниками. Незважаючи на існуючі обмеження, дослідження забезпечує міцну основу для майбутніх досягнень і створює прецедент для орієнтованих на конфіденційність рішень для розумного будинку, орієнтованих на користувача. Висновки до розділу 4 У четвертому розділі було реалізовано впровадження голосового асистента зі штучним інтелектом у систему домашньої автоматизації. Основну увагу приділено оптимізації моделі OpenAI Whisper для локальної обробки, що забезпечує високу точність розпізнавання мовлення навіть у шумних умовах. Застосування методів квантування значно зменшило обсяг моделі, що дозволило її ефективне використання на пристроях з обмеженими ресурсами. Розроблений модуль розпізнавання мови інтегровано з модулем обробки природної мови, що дозволило інтерпретувати команди користувача та ефективно керувати пристроями розумного будинку. Інтеграція з платформою Home Assistant забезпечила сумісність з різноманітними протоколами, такими як Zigbee, Z-Wave та Wi-Fi, що розширює спектр пристроїв, доступних для управління. 100 Тестування продемонструвало здатність асистента працювати локально без залежності від хмарних сервісів, що підвищило рівень конфіденційності користувачів і зменшило затримку при виконанні команд. Система також забезпечує масштабованість, дозволяючи підключати декілька пристроїв у різних частинах будинку. Отримані результати підтверджують ефективність розробленої системи, яка відповідає сучасним вимогам до швидкості, точності та конфіденційності. Ці висновки створюють основу для подальшого вдосконалення функціональних можливостей голосових асистентів у сфері домашньої автоматизації. 101 ВИСНОВКИ У межах випускної кваліфікаційної роботи було виконано проектування та розробку голосового асистента зі штучним інтелектом для систем домашньої автоматизації. Проведено аналіз існуючих рішень у сфері автоматизації розумного дому, зокрема в аспектах безпеки, конфіденційності та доступності. Розроблено архітектуру системи голосового управління, яка інтегрує сучасні моделі розпізнавання мовлення, зокрема OpenAI Whisper, з акцентом на підвищення точності та надійності в умовах реального використання. Виконано тестування в екосистемі Home Assistant, що дозволило оцінити ефективність системи в забезпеченні взаємодії з різноманітними пристроями. Запропоновано рішення для локальної обробки даних, яке дозволяє зменшити ризики витоку конфіденційної інформації, водночас забезпечуючи низьку затримку та високу доступність навіть в умовах обмеженого інтернет-з’єднання. Особливу увагу приділено розробці механізмів сумісності, які дозволяють інтегрувати голосовий асистент з широким спектром пристроїв, використовуючи стандарти, такі як Matter і Zigbee. Отримані результати підтвердили ефективність запропонованих підходів до оптимізації роботи голосового асистента, його інтеграції в розумні будинки та забезпечення безпеки даних користувачів. Це дослідження створює основу для подальшого вдосконалення технологій голосового управління та їх поширення в системах автоматизації.