Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/4165
Назва: | Methods and means of intelligent analysis of text documents |
Інші назви: | Методи та засоби інтелектуального аналізу текстових документів |
Автори: | Yakymenko, Dmytro Kataieva, Yevhenia |
Ключові слова: | keywords;text analysis;search;text documents;classifications;ключові слова;аналіз тексту;пошук;текстові документи;класифікація |
Дата публікації: | 2022 |
Видавництво: | Вісник Черкаського державного технологічного університету. Технічні науки |
Короткий огляд (реферат): | The paper reviews the methods of analysis and processing of electronic documents. Methods
of analysis of text documents to solve the problem of determining the thematic affinity of texts
are analyzed. An overview of existing approaches to solving the classification problem is performed.
The main approaches used in the task of text classification are described; the stages of
the classification process are determined and the most common methods of classifying text documents
are considered. The main approaches to text pre-processing, such as: lower case, root correction,
stemming, lemmatization, stop word removal, normalization, are considered. Advantages and
disadvantages of each approach are considered. The procedure for reducing the dimension of a set of
features with a division into sub-processes: selecting features and highlighting features is considered. В роботі проведено огляд методів аналізу та обробки електронних документів. Проаналізовано методи аналізу текстових документів для вирішення задачі визначення тематичної спорідненості текстів. Виконано огляд існуючих підходів до вирішення задачі класифікації. Описано основні підходи, що використовуються в задачі класифікації текстів; визначено етапи процесу класифікації та розглянуто найпоширеніші методи класифікації текстових документів. Розглянуто основні підходи до попередньої обробки тексту: Нижній регістр, Коренева корекція, Стемінг, Лематизація, Видалення стоп-слова, Нормалізація. Розглянуто переваги та недоліки кожного підходу. Розглянуто процедуру зменшення розмірності набору ознак із поділом на підпроцеси: обирання ознак та виділяння ознак. Розглянуто, в яких випадках кожен із підпроцесів є недоцільним для використання, та описано, які пошукові та фільтрові підходи і метрики є альтернативними або спорідненими для них. Зроблено висновок щодо необхідності подальшого розроблення алгоритмів класифікації на базі зазначених методів, що були б простими в реалізації, ефективними, мали низькі обчислювальні витрати під час навчання та високу якість класифікації в реальних завданнях. Визначено підхід до оцінки тематичної близькості документів з використанням редукції простору ознак і розглянуто алгоритм формування інформаційно-пошукових атрибутів документів для виконання автоматичної кластеризації документів. Розглянуто доцільність застосування для цього методів інтелектуального аналізу тексту. Проаналізовано відкрите програмне забезпечення з використанням розглянутих методів. |
URI (Уніфікований ідентифікатор ресурсу): | https://er.chdtu.edu.ua/handle/ChSTU/4165 |
ISSN: | 2306-4412 (print) 2708-6070 (online) |
DOI: | 10.24025/2306-4412.2.2022.259408 |
Випуск: | 2 |
Початкова сторінка: | 43 |
Кінцева сторінка: | 52 |
Розташовується у зібраннях: | №2/2022 |
Файли цього матеріалу:
Файл | Опис | Розмір | Формат | |
---|---|---|---|---|
43-52_Якименко_Катаєва.pdf | 299.18 kB | Adobe PDF | ![]() Переглянути/Відкрити | |
зміст 2-2022.pdf | 121.71 kB | Adobe PDF | ![]() Переглянути/Відкрити | |
титул 2-2022.pdf | 493.85 kB | Adobe PDF | ![]() Переглянути/Відкрити |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.