Please use this identifier to cite or link to this item: https://er.chdtu.edu.ua/handle/ChSTU/4165
Full metadata record
DC FieldValueLanguage
dc.contributor.authorYakymenko, Dmytro-
dc.contributor.authorKataieva, Yevhenia-
dc.date.accessioned2022-10-03T10:06:47Z-
dc.date.available2022-10-03T10:06:47Z-
dc.date.issued2022-
dc.identifier.issn2306-4412 (print)-
dc.identifier.issn2708-6070 (online)-
dc.identifier.urihttps://er.chdtu.edu.ua/handle/ChSTU/4165-
dc.description.abstractThe paper reviews the methods of analysis and processing of electronic documents. Methods of analysis of text documents to solve the problem of determining the thematic affinity of texts are analyzed. An overview of existing approaches to solving the classification problem is performed. The main approaches used in the task of text classification are described; the stages of the classification process are determined and the most common methods of classifying text documents are considered. The main approaches to text pre-processing, such as: lower case, root correction, stemming, lemmatization, stop word removal, normalization, are considered. Advantages and disadvantages of each approach are considered. The procedure for reducing the dimension of a set of features with a division into sub-processes: selecting features and highlighting features is considered.uk_UA
dc.description.abstractВ роботі проведено огляд методів аналізу та обробки електронних документів. Проаналізовано методи аналізу текстових документів для вирішення задачі визначення тематичної спорідненості текстів. Виконано огляд існуючих підходів до вирішення задачі класифікації. Описано основні підходи, що використовуються в задачі класифікації текстів; визначено етапи процесу класифікації та розглянуто найпоширеніші методи класифікації текстових документів. Розглянуто основні підходи до попередньої обробки тексту: Нижній регістр, Коренева корекція, Стемінг, Лематизація, Видалення стоп-слова, Нормалізація. Розглянуто переваги та недоліки кожного підходу. Розглянуто процедуру зменшення розмірності набору ознак із поділом на підпроцеси: обирання ознак та виділяння ознак. Розглянуто, в яких випадках кожен із підпроцесів є недоцільним для використання, та описано, які пошукові та фільтрові підходи і метрики є альтернативними або спорідненими для них. Зроблено висновок щодо необхідності подальшого розроблення алгоритмів класифікації на базі зазначених методів, що були б простими в реалізації, ефективними, мали низькі обчислювальні витрати під час навчання та високу якість класифікації в реальних завданнях. Визначено підхід до оцінки тематичної близькості документів з використанням редукції простору ознак і розглянуто алгоритм формування інформаційно-пошукових атрибутів документів для виконання автоматичної кластеризації документів. Розглянуто доцільність застосування для цього методів інтелектуального аналізу тексту. Проаналізовано відкрите програмне забезпечення з використанням розглянутих методів.uk_UA
dc.language.isoenuk_UA
dc.publisherВісник Черкаського державного технологічного університету. Технічні наукиuk_UA
dc.subjectkeywordsuk_UA
dc.subjecttext analysisuk_UA
dc.subjectsearchuk_UA
dc.subjecttext documentsuk_UA
dc.subjectclassificationsuk_UA
dc.subjectключові словаuk_UA
dc.subjectаналіз текстуuk_UA
dc.subjectпошукuk_UA
dc.subjectтекстові документиuk_UA
dc.subjectкласифікаціяuk_UA
dc.titleMethods and means of intelligent analysis of text documentsuk_UA
dc.title.alternativeМетоди та засоби інтелектуального аналізу текстових документівuk_UA
dc.typeArticleuk_UA
dc.citation.issue2uk_UA
dc.citation.spage43uk_UA
dc.citation.epage52uk_UA
dc.identifier.doi10.24025/2306-4412.2.2022.259408-
Appears in Collections:№2/2022

Files in This Item:
File Description SizeFormat 
43-52_Якименко_Катаєва.pdf299.18 kBAdobe PDFThumbnail
View/Open
зміст 2-2022.pdf121.71 kBAdobe PDFThumbnail
View/Open
титул 2-2022.pdf493.85 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.