Methods and means of intelligent analysis of text documents

Yakymenko, Dmytro; Kataieva, Yevhenia

doi:10.24025/2306-4412.2.2022.259408

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://er.chdtu.edu.ua/handle/ChSTU/4165

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Yakymenko, Dmytro	-
dc.contributor.author	Kataieva, Yevhenia	-
dc.date.accessioned	2022-10-03T10:06:47Z	-
dc.date.available	2022-10-03T10:06:47Z	-
dc.date.issued	2022	-
dc.identifier.issn	2306-4412 (print)	-
dc.identifier.issn	2708-6070 (online)	-
dc.identifier.uri	https://er.chdtu.edu.ua/handle/ChSTU/4165	-
dc.description.abstract	The paper reviews the methods of analysis and processing of electronic documents. Methods of analysis of text documents to solve the problem of determining the thematic affinity of texts are analyzed. An overview of existing approaches to solving the classification problem is performed. The main approaches used in the task of text classification are described; the stages of the classification process are determined and the most common methods of classifying text documents are considered. The main approaches to text pre-processing, such as: lower case, root correction, stemming, lemmatization, stop word removal, normalization, are considered. Advantages and disadvantages of each approach are considered. The procedure for reducing the dimension of a set of features with a division into sub-processes: selecting features and highlighting features is considered.	uk_UA
dc.description.abstract	В роботі проведено огляд методів аналізу та обробки електронних документів. Проаналізовано методи аналізу текстових документів для вирішення задачі визначення тематичної спорідненості текстів. Виконано огляд існуючих підходів до вирішення задачі класифікації. Описано основні підходи, що використовуються в задачі класифікації текстів; визначено етапи процесу класифікації та розглянуто найпоширеніші методи класифікації текстових документів. Розглянуто основні підходи до попередньої обробки тексту: Нижній регістр, Коренева корекція, Стемінг, Лематизація, Видалення стоп-слова, Нормалізація. Розглянуто переваги та недоліки кожного підходу. Розглянуто процедуру зменшення розмірності набору ознак із поділом на підпроцеси: обирання ознак та виділяння ознак. Розглянуто, в яких випадках кожен із підпроцесів є недоцільним для використання, та описано, які пошукові та фільтрові підходи і метрики є альтернативними або спорідненими для них. Зроблено висновок щодо необхідності подальшого розроблення алгоритмів класифікації на базі зазначених методів, що були б простими в реалізації, ефективними, мали низькі обчислювальні витрати під час навчання та високу якість класифікації в реальних завданнях. Визначено підхід до оцінки тематичної близькості документів з використанням редукції простору ознак і розглянуто алгоритм формування інформаційно-пошукових атрибутів документів для виконання автоматичної кластеризації документів. Розглянуто доцільність застосування для цього методів інтелектуального аналізу тексту. Проаналізовано відкрите програмне забезпечення з використанням розглянутих методів.	uk_UA
dc.language.iso	en	uk_UA
dc.publisher	Вісник Черкаського державного технологічного університету. Технічні науки	uk_UA
dc.subject	keywords	uk_UA
dc.subject	text analysis	uk_UA
dc.subject	search	uk_UA
dc.subject	text documents	uk_UA
dc.subject	classifications	uk_UA
dc.subject	ключові слова	uk_UA
dc.subject	аналіз тексту	uk_UA
dc.subject	пошук	uk_UA
dc.subject	текстові документи	uk_UA
dc.subject	класифікація	uk_UA
dc.title	Methods and means of intelligent analysis of text documents	uk_UA
dc.title.alternative	Методи та засоби інтелектуального аналізу текстових документів	uk_UA
dc.type	Article	uk_UA
dc.citation.issue	2	uk_UA
dc.citation.spage	43	uk_UA
dc.citation.epage	52	uk_UA
dc.identifier.doi	10.24025/2306-4412.2.2022.259408	-
Располагается в коллекциях:	№2/2022

Файлы этого ресурса:

Файл	Размер	Формат
43-52_Якименко_Катаєва.pdf	299.18 kB	Adobe PDF	Просмотреть/Открыть
зміст 2-2022.pdf	121.71 kB	Adobe PDF	Просмотреть/Открыть
титул 2-2022.pdf	493.85 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Репозиторий ЧГТУ