A method for keyword recognition in voice signals in resource-constrained computer systems

Didus, Andrii; Tereikovskyi, Ihor; Дідус, Андрій; Терейковський, Ігор

doi:https://doi.org/10.62660/bcstu/4.2025.119

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://er.chdtu.edu.ua/handle/ChSTU/9019

Повний запис метаданих

Поле DC	Значення	Мова
dc.contributor.author	Didus, Andrii	-
dc.contributor.author	Tereikovskyi, Ihor	-
dc.contributor.author	Дідус, Андрій	-
dc.contributor.author	Терейковський, Ігор	-
dc.date.accessioned	2026-03-23T13:54:54Z	-
dc.date.available	2026-03-23T13:54:54Z	-
dc.date.issued	2025	-
dc.identifier.issn	2306-4412 (print)	-
dc.identifier.issn	2708-6070 (online)	-
dc.identifier.uri	https://er.chdtu.edu.ua/handle/ChSTU/9019	-
dc.description.abstract	Keyword spotting on embedded platforms must balance accuracy and strict resource limits while remaining independent of network connectivity. The aim of the study was to develop and experimentally validate a classical, frugal recognition method that increases feature informativeness without increasing model complexity and is suitable for autonomous use on edge devices that rely only on a central processing unit. A weighted acoustic fingerprinting mechanism was proposed. Mel-frequency cepstral coefficients, together with their derivatives, were reweighted, aggregated, and serialised into compact discrete “fingerprints”, which were then classified using the Levenshtein edit distance. Experiments were carried out on a Ukrainian-language command corpus from six native speakers (three male, three female), recorded with both headsets and far-field microphones; lexicons of 10, 100, and 200 words were evaluated under speaker-independent splits of 70%/15%/15%. The methodology comprised fixed parametrisation of mel-frequency cepstral coefficients, construction of a static weighting vector, voiceactivity detection with spectral subtraction, uniform quantisation and serialisation, and deterministic edit-distance classification; for comparison, equal-weight baselines, hidden Markov models with Gaussian mixture emissions, Dynamic Time Warping, a lightweight convolutional neural network, and a reference depthwise-separable convolutional neural network were considered. The proposed method achieved macro-averaged harmonic means of precision and recall of 0.96/0.92/0.89 for 10/100/200-word lexicons in clean audio, and 0.78 at a signal-to-noise ratio of 5 decibels (100-word lexicon). The implementation required approximately 250 kilobytes of memory and operated with a real-time factor of 0.005 on Raspberry Pi 4 with 4 gigabytes, i.e., faster than real time. Superiority over equal-weight baselines, hidden Markov models with Gaussian mixture emissions, and Dynamic Time Warping was demonstrated, with performance approaching that of a compact convolutional neural network. It is concluded that weighted acoustic fingerprinting provides a robust, efficient, and autonomous keyword-spotting solution for deployments that use only a central processing unit.	uk_UA
dc.description.abstract	Розпізнавання ключових слів на вбудованих платформах вимагає балансу між точністю та жорсткими ресурсними обмеженнями, зберігаючи при цьому незалежність від підключення до мережі. Метою дослідження було розробити та експериментально валідувати класичний, ощадний метод розпізнавання, який підвищує інформативність ознак без ускладнення моделі та придатний для автономного використання на периферійних пристроях, що покладаються лише на центральний процесор. Методологія охоплювала фіксовану параметризацію мел-частотних кепстральних коефіцієнтів, формування статичного вектора ваг, виявлення голосової активності зі спектральним відніманням, рівномірне квантування та серіалізацію, а також детерміновану класифікацію на основі редакційної відстані; для порівняння розглянуто підходи з рівними вагами, приховані марковські моделі з гаусовими сумішами, динамічне вирівнювання за часом, легку згорткову нейронну мережу та еталонну глибоко роздільну згорткову нейронну мережу. Запропоновано механізм зваженого акустичного фінгерпринтингу. Мел-частотні кепстральні коефіцієнти разом із їхніми похідними перезважувалися, агрегувалися та серіалізувалися у компактні дискретні «відбитки», що класифікувалися за редакційною відстанню Левенштейна. Експерименти виконувалися на україномовному корпусі команд від шести носіїв (троє чоловіків, троє жінок) із записами через гарнітури та мікрофони дальнього поля; оцінювалися лексикони на 10, 100 і 200 слів із незалежним від диктора поділом 70 % / 15 % / 15 %. Запропонований метод досяг макро-усередненого гармонійного середнього точності та повноти 0,96 / 0,92 / 0,89 для лексиконів у 10 / 100 / 200 слів у чистому аудіо та 0,78 за співвідношення сигнал/шум 5 децибелів (лексикон 100 слів). Потрібно приблизно 250 кілобайт пам’яті; робота відбувалася з коефіцієнтом реального часу 0,005 на Raspberry Pi 4 (4 гігабайти), тобто швидше за реальний час. Показано перевагу над підходами з рівними вагами, прихованими марковськими моделями з гаусовими сумішами та динамічним вирівнюванням за часом і наближення до показників компактної згорткової нейронної мережі. Зроблено висновок, що зважений акустичний фінгерпринтинг є надійним, ефективним та автономним рішенням розпізнавання ключових слів для розгортання на системах із висновуванням лише на центральному процесорі.	uk_UA
dc.language.iso	en	uk_UA
dc.publisher	Вісник Черкаського державного технологічного університету	uk_UA
dc.subject	embedded edge computing	uk_UA
dc.subject	acoustic fingerprinting	uk_UA
dc.subject	feature reweighting	uk_UA
dc.subject	edit-distance-based classification	uk_UA
dc.subject	robust speech commands	uk_UA
dc.subject	resource-constrained devices	uk_UA
dc.subject	вбудовані периферійні обчислення	uk_UA
dc.subject	акустичний фінгерпринтинг	uk_UA
dc.subject	перезважування ознак	uk_UA
dc.subject	класифікація за відстанню	uk_UA
dc.subject	стійкі мовленнєві команди	uk_UA
dc.subject	малоресурсні пристрої	uk_UA
dc.title	A method for keyword recognition in voice signals in resource-constrained computer systems	uk_UA
dc.title.alternative	Метод розпізнавання ключових слів у голосовому сигналі в комп’ютерних системах з обмеженими ресурсами	uk_UA
dc.type	Article	uk_UA
dc.citation.volume	30	uk_UA
dc.citation.issue	4	uk_UA
dc.citation.spage	119	uk_UA
dc.citation.epage	127	uk_UA
dc.identifier.doi	https://doi.org/10.62660/bcstu/4.2025.119	-
Розташовується у зібраннях:	том 30, №4/2025

Файли цього матеріалу:

Файл	Розмір	Формат
11.pdf	580.51 kB	Adobe PDF	Переглянути/Відкрити
зміст.pdf	143.09 kB	Adobe PDF	Переглянути/Відкрити
титул.pdf	202.08 kB	Adobe PDF	Переглянути/Відкрити

Показати базовий опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.

Репозиторій ЧДТУ