Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://er.chdtu.edu.ua/handle/ChSTU/9019
Повний запис метаданих
Поле DCЗначенняМова
dc.contributor.authorDidus, Andrii-
dc.contributor.authorTereikovskyi, Ihor-
dc.contributor.authorДідус, Андрій-
dc.contributor.authorТерейковський, Ігор-
dc.date.accessioned2026-03-23T13:54:54Z-
dc.date.available2026-03-23T13:54:54Z-
dc.date.issued2025-
dc.identifier.issn2306-4412 (print)-
dc.identifier.issn2708-6070 (online)-
dc.identifier.urihttps://er.chdtu.edu.ua/handle/ChSTU/9019-
dc.description.abstractKeyword spotting on embedded platforms must balance accuracy and strict resource limits while remaining independent of network connectivity. The aim of the study was to develop and experimentally validate a classical, frugal recognition method that increases feature informativeness without increasing model complexity and is suitable for autonomous use on edge devices that rely only on a central processing unit. A weighted acoustic fingerprinting mechanism was proposed. Mel-frequency cepstral coefficients, together with their derivatives, were reweighted, aggregated, and serialised into compact discrete “fingerprints”, which were then classified using the Levenshtein edit distance. Experiments were carried out on a Ukrainian-language command corpus from six native speakers (three male, three female), recorded with both headsets and far-field microphones; lexicons of 10, 100, and 200 words were evaluated under speaker-independent splits of 70%/15%/15%. The methodology comprised fixed parametrisation of mel-frequency cepstral coefficients, construction of a static weighting vector, voiceactivity detection with spectral subtraction, uniform quantisation and serialisation, and deterministic edit-distance classification; for comparison, equal-weight baselines, hidden Markov models with Gaussian mixture emissions, Dynamic Time Warping, a lightweight convolutional neural network, and a reference depthwise-separable convolutional neural network were considered. The proposed method achieved macro-averaged harmonic means of precision and recall of 0.96/0.92/0.89 for 10/100/200-word lexicons in clean audio, and 0.78 at a signal-to-noise ratio of 5 decibels (100-word lexicon). The implementation required approximately 250 kilobytes of memory and operated with a real-time factor of 0.005 on Raspberry Pi 4 with 4 gigabytes, i.e., faster than real time. Superiority over equal-weight baselines, hidden Markov models with Gaussian mixture emissions, and Dynamic Time Warping was demonstrated, with performance approaching that of a compact convolutional neural network. It is concluded that weighted acoustic fingerprinting provides a robust, efficient, and autonomous keyword-spotting solution for deployments that use only a central processing unit.uk_UA
dc.description.abstractРозпізнавання ключових слів на вбудованих платформах вимагає балансу між точністю та жорсткими ресурсними обмеженнями, зберігаючи при цьому незалежність від підключення до мережі. Метою дослідження було розробити та експериментально валідувати класичний, ощадний метод розпізнавання, який підвищує інформативність ознак без ускладнення моделі та придатний для автономного використання на периферійних пристроях, що покладаються лише на центральний процесор. Методологія охоплювала фіксовану параметризацію мел-частотних кепстральних коефіцієнтів, формування статичного вектора ваг, виявлення голосової активності зі спектральним відніманням, рівномірне квантування та серіалізацію, а також детерміновану класифікацію на основі редакційної відстані; для порівняння розглянуто підходи з рівними вагами, приховані марковські моделі з гаусовими сумішами, динамічне вирівнювання за часом, легку згорткову нейронну мережу та еталонну глибоко роздільну згорткову нейронну мережу. Запропоновано механізм зваженого акустичного фінгерпринтингу. Мел-частотні кепстральні коефіцієнти разом із їхніми похідними перезважувалися, агрегувалися та серіалізувалися у компактні дискретні «відбитки», що класифікувалися за редакційною відстанню Левенштейна. Експерименти виконувалися на україномовному корпусі команд від шести носіїв (троє чоловіків, троє жінок) із записами через гарнітури та мікрофони дальнього поля; оцінювалися лексикони на 10, 100 і 200 слів із незалежним від диктора поділом 70 % / 15 % / 15 %. Запропонований метод досяг макро-усередненого гармонійного середнього точності та повноти 0,96 / 0,92 / 0,89 для лексиконів у 10 / 100 / 200 слів у чистому аудіо та 0,78 за співвідношення сигнал/шум 5 децибелів (лексикон 100 слів). Потрібно приблизно 250 кілобайт пам’яті; робота відбувалася з коефіцієнтом реального часу 0,005 на Raspberry Pi 4 (4 гігабайти), тобто швидше за реальний час. Показано перевагу над підходами з рівними вагами, прихованими марковськими моделями з гаусовими сумішами та динамічним вирівнюванням за часом і наближення до показників компактної згорткової нейронної мережі. Зроблено висновок, що зважений акустичний фінгерпринтинг є надійним, ефективним та автономним рішенням розпізнавання ключових слів для розгортання на системах із висновуванням лише на центральному процесорі.uk_UA
dc.language.isoenuk_UA
dc.publisherВісник Черкаського державного технологічного університетуuk_UA
dc.subjectembedded edge computinguk_UA
dc.subjectacoustic fingerprintinguk_UA
dc.subjectfeature reweightinguk_UA
dc.subjectedit-distance-based classificationuk_UA
dc.subjectrobust speech commandsuk_UA
dc.subjectresource-constrained devicesuk_UA
dc.subjectвбудовані периферійні обчисленняuk_UA
dc.subjectакустичний фінгерпринтингuk_UA
dc.subjectперезважування ознакuk_UA
dc.subjectкласифікація за відстаннюuk_UA
dc.subjectстійкі мовленнєві командиuk_UA
dc.subjectмалоресурсні пристроїuk_UA
dc.titleA method for keyword recognition in voice signals in resource-constrained computer systemsuk_UA
dc.title.alternativeМетод розпізнавання ключових слів у голосовому сигналі в комп’ютерних системах з обмеженими ресурсамиuk_UA
dc.typeArticleuk_UA
dc.citation.volume30uk_UA
dc.citation.issue4uk_UA
dc.citation.spage119uk_UA
dc.citation.epage127uk_UA
dc.identifier.doihttps://doi.org/10.62660/bcstu/4.2025.119-
Розташовується у зібраннях:том 30, №4/2025

Файли цього матеріалу:
Файл Опис РозмірФормат 
11.pdf580.51 kBAdobe PDFЕскіз
Переглянути/Відкрити
зміст.pdf143.09 kBAdobe PDFЕскіз
Переглянути/Відкрити
титул.pdf202.08 kBAdobe PDFЕскіз
Переглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.