Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/9019Повний запис метаданих
| Поле DC | Значення | Мова |
|---|---|---|
| dc.contributor.author | Didus, Andrii | - |
| dc.contributor.author | Tereikovskyi, Ihor | - |
| dc.contributor.author | Дідус, Андрій | - |
| dc.contributor.author | Терейковський, Ігор | - |
| dc.date.accessioned | 2026-03-23T13:54:54Z | - |
| dc.date.available | 2026-03-23T13:54:54Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.issn | 2306-4412 (print) | - |
| dc.identifier.issn | 2708-6070 (online) | - |
| dc.identifier.uri | https://er.chdtu.edu.ua/handle/ChSTU/9019 | - |
| dc.description.abstract | Keyword spotting on embedded platforms must balance accuracy and strict resource limits while remaining independent of network connectivity. The aim of the study was to develop and experimentally validate a classical, frugal recognition method that increases feature informativeness without increasing model complexity and is suitable for autonomous use on edge devices that rely only on a central processing unit. A weighted acoustic fingerprinting mechanism was proposed. Mel-frequency cepstral coefficients, together with their derivatives, were reweighted, aggregated, and serialised into compact discrete “fingerprints”, which were then classified using the Levenshtein edit distance. Experiments were carried out on a Ukrainian-language command corpus from six native speakers (three male, three female), recorded with both headsets and far-field microphones; lexicons of 10, 100, and 200 words were evaluated under speaker-independent splits of 70%/15%/15%. The methodology comprised fixed parametrisation of mel-frequency cepstral coefficients, construction of a static weighting vector, voiceactivity detection with spectral subtraction, uniform quantisation and serialisation, and deterministic edit-distance classification; for comparison, equal-weight baselines, hidden Markov models with Gaussian mixture emissions, Dynamic Time Warping, a lightweight convolutional neural network, and a reference depthwise-separable convolutional neural network were considered. The proposed method achieved macro-averaged harmonic means of precision and recall of 0.96/0.92/0.89 for 10/100/200-word lexicons in clean audio, and 0.78 at a signal-to-noise ratio of 5 decibels (100-word lexicon). The implementation required approximately 250 kilobytes of memory and operated with a real-time factor of 0.005 on Raspberry Pi 4 with 4 gigabytes, i.e., faster than real time. Superiority over equal-weight baselines, hidden Markov models with Gaussian mixture emissions, and Dynamic Time Warping was demonstrated, with performance approaching that of a compact convolutional neural network. It is concluded that weighted acoustic fingerprinting provides a robust, efficient, and autonomous keyword-spotting solution for deployments that use only a central processing unit. | uk_UA |
| dc.description.abstract | Розпізнавання ключових слів на вбудованих платформах вимагає балансу між точністю та жорсткими ресурсними обмеженнями, зберігаючи при цьому незалежність від підключення до мережі. Метою дослідження було розробити та експериментально валідувати класичний, ощадний метод розпізнавання, який підвищує інформативність ознак без ускладнення моделі та придатний для автономного використання на периферійних пристроях, що покладаються лише на центральний процесор. Методологія охоплювала фіксовану параметризацію мел-частотних кепстральних коефіцієнтів, формування статичного вектора ваг, виявлення голосової активності зі спектральним відніманням, рівномірне квантування та серіалізацію, а також детерміновану класифікацію на основі редакційної відстані; для порівняння розглянуто підходи з рівними вагами, приховані марковські моделі з гаусовими сумішами, динамічне вирівнювання за часом, легку згорткову нейронну мережу та еталонну глибоко роздільну згорткову нейронну мережу. Запропоновано механізм зваженого акустичного фінгерпринтингу. Мел-частотні кепстральні коефіцієнти разом із їхніми похідними перезважувалися, агрегувалися та серіалізувалися у компактні дискретні «відбитки», що класифікувалися за редакційною відстанню Левенштейна. Експерименти виконувалися на україномовному корпусі команд від шести носіїв (троє чоловіків, троє жінок) із записами через гарнітури та мікрофони дальнього поля; оцінювалися лексикони на 10, 100 і 200 слів із незалежним від диктора поділом 70 % / 15 % / 15 %. Запропонований метод досяг макро-усередненого гармонійного середнього точності та повноти 0,96 / 0,92 / 0,89 для лексиконів у 10 / 100 / 200 слів у чистому аудіо та 0,78 за співвідношення сигнал/шум 5 децибелів (лексикон 100 слів). Потрібно приблизно 250 кілобайт пам’яті; робота відбувалася з коефіцієнтом реального часу 0,005 на Raspberry Pi 4 (4 гігабайти), тобто швидше за реальний час. Показано перевагу над підходами з рівними вагами, прихованими марковськими моделями з гаусовими сумішами та динамічним вирівнюванням за часом і наближення до показників компактної згорткової нейронної мережі. Зроблено висновок, що зважений акустичний фінгерпринтинг є надійним, ефективним та автономним рішенням розпізнавання ключових слів для розгортання на системах із висновуванням лише на центральному процесорі. | uk_UA |
| dc.language.iso | en | uk_UA |
| dc.publisher | Вісник Черкаського державного технологічного університету | uk_UA |
| dc.subject | embedded edge computing | uk_UA |
| dc.subject | acoustic fingerprinting | uk_UA |
| dc.subject | feature reweighting | uk_UA |
| dc.subject | edit-distance-based classification | uk_UA |
| dc.subject | robust speech commands | uk_UA |
| dc.subject | resource-constrained devices | uk_UA |
| dc.subject | вбудовані периферійні обчислення | uk_UA |
| dc.subject | акустичний фінгерпринтинг | uk_UA |
| dc.subject | перезважування ознак | uk_UA |
| dc.subject | класифікація за відстанню | uk_UA |
| dc.subject | стійкі мовленнєві команди | uk_UA |
| dc.subject | малоресурсні пристрої | uk_UA |
| dc.title | A method for keyword recognition in voice signals in resource-constrained computer systems | uk_UA |
| dc.title.alternative | Метод розпізнавання ключових слів у голосовому сигналі в комп’ютерних системах з обмеженими ресурсами | uk_UA |
| dc.type | Article | uk_UA |
| dc.citation.volume | 30 | uk_UA |
| dc.citation.issue | 4 | uk_UA |
| dc.citation.spage | 119 | uk_UA |
| dc.citation.epage | 127 | uk_UA |
| dc.identifier.doi | https://doi.org/10.62660/bcstu/4.2025.119 | - |
| Розташовується у зібраннях: | том 30, №4/2025 | |
Файли цього матеріалу:
| Файл | Опис | Розмір | Формат | |
|---|---|---|---|---|
| 11.pdf | 580.51 kB | Adobe PDF | ![]() Переглянути/Відкрити | |
| зміст.pdf | 143.09 kB | Adobe PDF | ![]() Переглянути/Відкрити | |
| титул.pdf | 202.08 kB | Adobe PDF | ![]() Переглянути/Відкрити |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.


