Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/9088Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | Чичужко, Марина Володимирівна | - |
| dc.contributor.author | Коломієць, Іван Вікторович | - |
| dc.date.accessioned | 2024-01-25T12:19:05Z | - |
| dc.date.available | 2024-01-25T12:19:05Z | - |
| dc.date.issued | 2024-01 | - |
| dc.identifier.uri | https://er.chdtu.edu.ua/handle/ChSTU/9088 | - |
| dc.description.abstract | В результаті виконання роботи отримані наступні основні результати: 1. проведена формалізація опису соціальних мереж для спілкування, представлені характеристики фейків, описана специфіка фейкової інформації, виділені основні особливості її поширення в соціальних мережах. Наведена класифікація фейків може служити основою для формалізації подання фейків та їх врахування при побудові моделей поширення фейкового контенту в соціальних мережах. Запропонована модель знаходження ефективності контенту; 2. запропонована інтелектуальна модель поширення фейкового контенту, що враховує особливості соціальних мереж. Ймовірності переходів для запропонованої моделі можливо тримати методом опитування користувачів соціальної мережі; 3. створено моделювання процесів поширення фейків на основі розробленої моделі, проведено порівняння з існуючими моделями поширення фейків. Досліджено порівняння способів поширення між звичайними користувачами і за допомогою соціальних та пошукових роботів. | uk_UA |
| dc.language.iso | uk | uk_UA |
| dc.title | Дослідження методів автоматизованого розпізнавання фальсифікованої інформації | uk_UA |
| dc.type | Master Thesis | uk_UA |
| Appears in Collections: | 174 Автоматизація, комп'ютерно-інтегровані технології та робототехніка (Автоматизація та комп'ютерно-інтегровані системи та компоненти) | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| М_174_2023_Коломієць.pdf Restricted Access | 1.9 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОІЧНИЙ УНІВЕРСИТЕТ
ФАКУЛЬТЕТ ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ І СИСТЕМ
КАФЕДРА РОБОТОТЕХНІКИ ТА СПЕЦІАЛІЗОВАНИХ КОМП’ЮТЕРНИХ СИСТЕМ
Пояснювальна записка
до кваліфікаційної роботи
освітнього ступеню «магістр»
на тему: ДОСЛІДЖЕННЯ МЕТОДІВ АВТОМАТИЗОВАНОГО
РОЗПІЗНАВАННЯ ФАЛЬСИФІКОВАНОЇ ІНФОРМАЦІЇ
Виконав: здобувач 2 курсу, групи МАКІТ-2209
спеціальності 151 Автоматизація та
комп’ютерно-інтегровані технології,
освітня програма «Автоматизація
комп’ютерно-інтегровані системи та
компоненти»
Коломієць І.В.
(Прізвище ім’я по-батькові)
Керівник Чичужко М.В.
(Прізвище ім’я по-батькові)
Рецензент
(Прізвище ім’я по-батькові)
Черкаси 2023 року
2
ЗМІСТ
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І
ТЕРМІНІВ .................................................................................................................... 3
ВСТУП ......................................................................................................................... 4
РОЗДІЛ 1 АНАЛІЗ ПРОБЛЕМ РОЗПІЗНАВАННЯ ФЕЙКОВОЇ ІНФОРМАЦІЇ
ОСОБИСТОСТІ КОРИСТУВАЧА СОЦІАЛЬНОЇ МЕРЕЖІ ................................. 9
1.1 Огляд сучасної цифрової сфери ....................................................................... 9
1.2 Фейкові профілі соціальних мереж та їх вплив на користувачів ............... 19
1.3 Інтелектуальні методи обробки природної мови ......................................... 29
Висновки ................................................................................................................ 32
РОЗДІЛ 2 РОЗРОБКА ІНФОРМАЦІЙНОЇ МОДЕЛІ РОЗПІЗНАВАННЯ
ФЕЙКОВОЇ ІНФОРМАЦІЇ НА ОСНОВІ ТЕКСТОВИХ ПОВІДОМЛЕНЬ........ 34
2.1 Дослідження методів визначення фейкових акаунтів ................................. 34
2.2 Метод розпізнавання авторства повідомлень акаунтів соціальних мереж 41
2.3 Інтелектуальна модель визначення фейкових акаунтів на основі
повідомлень ........................................................................................................... 48
Висновки ................................................................................................................ 55
РОЗДІЛ 3 РЕАЛІЗАЦІЯ ІНФОРМАЦІЙНОЇ МОДЕЛІ ІНТЕЛЕКТУАЛЬНОГО
РОЗПІЗНАВАННЯ ФЕЙКОВИХ КОРИСТУВАЧІВ СОЦІАЛЬНОЇ МЕРЕЖІ .. 57
3.1. Засоби реалізації створення програмного продукту .................................. 57
3.2 Архітектура роботи та структура програмного забезпечення .................... 60
3.3 Експериментальна перевірка результату роботи системи .......................... 67
Висновки ................................................................................................................ 72
ВИСНОВКИ ............................................................................................................... 74
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ................................................................. 76
3
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ,
СКОРОЧЕНЬ І ТЕРМІНІВ
API (Application Programming Interface) – програмний інтерфейс додатку.
CRUD (Create-Read-Update-Delete) – веб-додаток з функціями Створити-
Переглянути-Оновити-Видалити.
CSRF (Cross-Site Request Forgery) – міжсайтова підробка запитів.
DI (Dependency injection) – впровадження залежностей.
HTTP (HyperText Transfer Protocol) – протокол передачі гіпертексту.
IoC (Inversion of Control) – інверсія управління.
MVC (Model-View-Controller) – архітектура Модель-Вид-Контролер.
REST (Representational State Transfer) – передача репрезентативного стану.
SQL (Structured query language) – структурована мова запитів.
URL (Uniform Resource Locator) – уніфікований локатор ресурсів.
4
ВСТУП
Актуальність теми дослідження.
Інтернет зараз є основним джерелом інформації для більшості людей.
Згідно з детальним аналізом низки соціальних опитувань, кількість користувачів
значно зростає з кожним роком [3]. Згідно з останніми дослідженнями,
опублікованими у звіті ООН "Стан широкосмугового зв'язку: Широкосмуговий
зв'язок на підтримку сталого розвитку", кількість користувачів Інтернету досягла
майже половини населення планети [1], а серед молоді у віці 16-29 років цей
показник сягнув 97% [3].
Завдяки високій популярності соціальних мереж вони не лише
підтримують спілкування, обмін думками та отримання інформації, але й стають
об'єктами та інструментами управління знаннями та майданчиками
інформаційного протистояння. Окрім мети маніпулювання індивідами,
соціальними групами та суспільством в цілому, вони також стали незамінним
засобом інформаційного впливу у сфері інформаційної війни [7].
Соціальна мережа - це соціальна структура, що складається з груп вузлів,
які є соціальними об'єктами (люди, групи людей, спільноти та організації) та
зв'язків між ними (соціальні відносини) [9]. Усі соціальні мережі, що
використовуються для спілкування, мають структуру автоматизованого
соціального середовища, яке забезпечує комунікацію не лише окремих
користувачів, але й груп, які користувачі утворюють, об'єднуючись за спільними
інтересами.
Однак соціальні мережі несуть в собі як серйозні загрози з точки зору
інформаційної безпеки, так і переваги. Будь-яка соціальна мережа визначається
контентом, який вона містить. Через інформаційні мережі може поширюватися
практично будь-який контент, у тому числі деструктивний. Значна частина
інформаційного потоку містить ненадійний контент. Це явище відоме як фейкові
або неправдиві новини. Через свою популярність термін "фейк" став
5
використовуватися в дуже широкому сенсі, і відфотошоплені фотографії, іноді
змонтовані відео, сторінки в соціальних мережах, створені від імені інших (часто
відомих) людей, розважальні ресурси також можуть бути названі "фейковими
новинами".
Загалом, фейкові новини - це свідоме використання вигаданих, спеціально
сфабрикованих новин з метою дискредитації установи, організації чи особи.
Найбільш точним синонімом фейкових новин є дезінформація або
фальсифікація. Як правило, творці фейкових новин мають на меті
дискредитувати або очорнити когось. Навіть якщо інформаційна агенція швидко
викриває фейк, фейком маніпулюють через психологію сприйняття. Фейки
залишають неприємний осад у свідомості глядачів навіть після того, як їх
викрили [11].
Дослідження показали, що відносно невелика кількість акаунтів, які
використовують боти та команди, може створити великий потік дезінформації
[13-16]. Для цього використовується кілька стратегій. По-перше, оскільки
інформація спочатку систематично тиражується ботами, алгоритми соціальних
мереж не можуть відрізнити справжні "вірусні" інтереси користувачів від
штучно створених. По-друге, боти використовують такі механізми соціальних
мереж, як хештеги та коментарі, щоб привернути увагу користувачів з центром
впливу.
Нарешті, технологічні інструменти, такі як TOR-мережі та проксі-сервери,
використовуються для приховування реального місцезнаходження користувачів
і створення видимості географічної різноманітності. Таким чином, соціальні
мережі все частіше використовуються як ефективний інструмент для поширення
дезінформації, недобросовісної конкуренції та політичної пропаганди.
Дослідження показують, що близько 78% людей довіряють інформації,
розміщеній у соціальних мережах. [17].
Користувачі не читають матеріали, на які посилаються соціальні мережі, і
не перевіряють достовірність фактів, викладених у заголовках, текстових
анонсах, картинках і самому матеріалі. Це дає потенційну можливість впливати
6
на часто нереалістичні очікування користувачів і формувати громадську думку
на користь тієї чи іншої сторони.
Таким чином, важливість цього дослідження полягає в наступних аспектах
1. У сфері управління інформаційними ризиками в соціальних мережах
наразі бракує досліджень, які б враховували особливості конкретних соціальних
мереж, зокрема їхній контент для спілкування, а також деструктивний і
домінуючий вплив користувачів мережі на 1. поширення дезінформації з
ефектом впливу.
2. Наявність великих обсягів деструктивної дезінформації в інформаційних
мережах.
3. Поширення дезінформації в соціальних мережах та обмежену
обізнаність людей, особливо молоді, щодо визначення достовірної інформації.
Таким чином, в даній області необхідно створення інтелектуальної
системи забезпечення, яка дозволить детально досліджувати процеси поширення
фейків в соціальних мережах для спілкування.
Відносно питань дослідження інформаційних ризиків [18, 19] в соціальних
мережах опубліковано досить багато робіт, в яких проаналізовані і структуровані
як самі способи поширення шкідливого контенту, так і було запропоновано
заходи і засоби для протидії [30, 35, 40-44].
Однак дані роботи не розглядали поширення фейків в соціальних мережах,
що не дозволяє в достатній мірі дослідити процес поширення фейків в
соціальних мережах.
Мета роботи – створення інтелектуальної системи розпізнавання та
поширення фейкової інформації на основі повідомлень, що враховує особливості
роботи соціальних мереж.
Об’єкт дослідження – соціальні мережі для спілкування, в яких
відбувається створення фейкових акаунтів та поширення неправдивої
інформації.
Предмет дослідження – автоматизоване розпізнавання фальсифікованої
інформації.
7
Для досягнення поставленої мети необхідним вирішити наступні
завдання:
− провести формалізацію опису соціальних мереж для спілкування з
урахуванням особливостей поширення фейкового контенту, а також
визначити основні способи поширення фейків в соціальних мережах;
− розробити модель розпізнавання фейкової інформації щодо
особистості користувача, яка буде враховувати особливості роботи
соціальних мереж;
− створити програмний комплекс, який реалізовуватиме можливість
моделювання процесу створення та поширення фейків на основі
розробленої моделі.
Методи дослідження. У дослідженні передбачається використовувати
методи теорії ймовірності, методи математичної статистики і статистичного
аналізу, методи теорії графів, методи аналітичного моделювання, методи теорії
прийняття рішень, системного аналізу для аналізу структури інформаційної
системи, теорії інформації, теорії класифікацій, теорії комп’ютерного
моделювання, теорії порівняння.
Наукова новизна.
У процесі вирішення поставлених завдань отримані наступні результати:
− здобуло подальший розвиток систематизація загальних підходів до
опису та формалізації фейків, визначені основні способи поширення
фейкового контенту в соціальних мережах. Вперше запропоновано
модель для знаходження ефективності фейкової інформації, що
враховує особливості контенту соціальних мереж;
− удосконалено інтелектуальну модель визначення фейків, що враховує
потенційну можливість поставити під сумнів отриману інформацію та
перевірити її на достовірність, таким чином дозволяючи користувачам
набути імунітет до фейкової інформаці;
− створено спеціалізоване програмне забезпечення для ідентифікації
фейкової інформації щодо особистості користувача соціальної мережі.
8
Практичне значення отриманих результатів.
Практична цінність роботи полягає в наступному:
− дослідження способів поширення фейків в соціальній мережі
дозволяють розширити і доповнити моделювання епідемій і відповідно
уявити більш цільну картину функціонування соціальних мереж при
поширенні фейковий контенту;
− запропонована модель розпізнавання фейків в соціальних мережах
розкриває нові можливості для поширення деструктивного контенту, в
зв'язку з цим удосконалюються методи управління ризиками;
− моделювання процесів поширення фейків в соціальних мережах
дозволяє розробити ефективні способи протидії процесам поширення
фейків.
Апробація результатів роботи. Результати кваліфікаційної роботи
доповідалися й обговорювалися на науковій конференції:
− «Topical aspects of modern Scientific research»: Тези доповідей четвертої
міжнародної науково-практичної конференції: (21-23 грудня 2023 р.,
Токіо), 2023.
Публікації. Результати досліджень опубліковані в:
1. Research of methods for automated recognition of falsified information /
S.Mitsenko, I.Kolomiec // «Topical aspects of modern Scientific research»:
Тези доповідей четвертої міжнародної науково-практичної
конференції: (21-23 грудня 2023 р., Токіо), 2023. – С. 32.
Структура та обсяг кваліфікаційної роботи. Кваліфікаційна робота
складається із списку умовних скорочень, вступу, трьох розділів, висновку та
списку використаних джерел. Загальний обсяг роботи складає 80 сторінок,
24 рисунки, 5 таблиць. Список використаних джерел містить 48 найменувань.
9
РОЗДІЛ 1
АНАЛІЗ ПРОБЛЕМ РОЗПІЗНАВАННЯ ФЕЙКОВОЇ ІНФОРМАЦІЇ
ОСОБИСТОСТІ КОРИСТУВАЧА СОЦІАЛЬНОЇ МЕРЕЖІ
1.1 Огляд сучасної цифрової сфери
На початок 2023 року понад 4,5 мільярда людей користуються інтернетом,
а аудиторія соціальних мереж перевалила за позначку в 3,8 мільярда. Майже 60%
світового населення вже онлайн, і є всі підстави вважати, що до кінця року
половина всіх людей на планеті будуть користуватися соціальними мережами.
Однак залишаються бар'єри, які заважають надати людям в усьому світі
справедливий і рівний доступ до цифрового всесвіту, який змінює повсякденне
життя (рис. 1.1).
Рис. 1.1. Цифровізація сучасного світу на 2020 рік
Значення цифрових технологій в нашому житті досягла нових висот, і все
велика кількість людей проводять все більше часу в інтернеті, вирішуючи там
все більше завдань:
− кількість інтернет-користувачів у світі зросла до 4,54 мільярда, що на
7% більше торішнього значення;
10
− в світі налічується 3,8 мільярда користувачів соціальних мереж,
аудиторія виросла на 9% в порівнянні з минулим роком;
− 5,19 мільярда осіб користуються мобільними телефонами – приріст на
124 мільйони (2,4%) за останній рік.
Середньостатистичний користувач проводить в інтернеті 6 год. 43 хв.
кожен день. Це на 3 хвилини менше, ніж рік тому, але як і раніше становить
понад 100 днів на користувача на рік. Якщо залишити близько 8 годин на добу
на сон, це означає, що зараз понад 40% часу неспання проводиться в інтернеті.
У сукупності глобальна аудиторія інтернету буде онлайн 1,25 мільярда
років за один тільки 2020 рік, і третина цього часу припадає на соціальні мережі.
Кількість часу, який люди проводять в інтернеті, сильно відрізняється в різних
країнах. Так в Філіппінах це 9 год. 45 хв. в день, а в Японії – 4 год. 22 хв.
(рис. 1.2).
Рис. 1.2. Використання годин на добу інтернету в різних країнах
Сьогодні трохи більше 40% від загальної чисельності населення світу –
приблизно 3,2 мільярда людей – ще не підключені до інтернету. Понад мільярд
«непідключених» живуть в Південній Азії (31% від загальної кількості). На
країни Африки припадає 27%, тобто 870 мільйонів людей по всьому континенту.
11
На мобільні телефони тепер відводиться більше половини часу, яке
проводиться в інтернеті – 50,1% (рис. 1.3).
Рис. 1.3. Використання мобільного інтернету від загальної кількості
Враховуючи, що 92% інтернет-користувачів можуть виходити в онлайн з
мобільних, ця цифра може здатися несподівано низькою, але є безліч свідчень
того, що комп'ютери продовжують відігравати важливу роль в користуванні
інтернетом. Незважаючи на повсюдне поширення мобільних пристроїв, 3/4
інтернет-користувачів у віці від 16 до 64 років все ще виходять в інтернет з
ноутбуків і ПК.
Рис. 1.4. Використання інтернет трафіку різними пристроями
12
Судячи зі статистики Statcounter, близько 53% всіх запитів в інтернеті
роблять з мобільних, на комп'ютери як і раніше припадає 44% від загальної
кількості.
В App Annie заявляють, що на мобільні додатки тепер відводиться 10 з
кожних 11 хвилин користування мобільним пристроєм, а на перегляд веб-
сторінок йде тільки 9% «мобільного часу». Дані GlobalWebIndex показують, що
використовуються додатки практично у всіх сферах життя (рис. 1.5).
Рис. 1.5. Використання мобільних додатків за категоріями
Приблизно половина з 3,7 год. в день, які люди проводять з мобільними в
руках, вони витрачають на додатки соціальних мереж і месенджери. Це означає,
що на ці платформи йде стільки ж часу, скільки на іншу мобільну активність
(рис. 1.6).
На мобільних пристроях і комп'ютері середньостатистичний користувач
витрачає на соцмережі 2 год. 24 хв. в день, що на 2 хв. більше, ніж в минулому
році. Статистика сильно варіюється від країни до країни. Філіппінці як і раніше
є найактивнішими користувачами соцмедіа: середній користувач віком від 16 до
64 років проводить майже 4 год. в день на соціальних платформах. На іншому
кінці шкали – Японія, жителі якої сидять в соціальних мережах всього по 45 хв.
на добу.
13
Рис. 1.6. Час в мобільних додатках за 2020 рік
Незважаючи на проблеми різного роду, з якими Facebook зіткнувся в
останні кілька років, ця соціальна платформа зберігає статус найпопулярнішої.
За даними в оголошеннях про доходи компанії, соцмережа вже переступила
історичну позначку в 2,5 мільярда активних користувачів на місяць і кількість
користувачів Facebook продовжувало неухильно зростати в більшості країн
протягом 2019 року (рис. 1.7).
Рис. 1.7. Найпопулярніші соціальні платформи
За останній рік в Facebook також спостерігалося кілька випадків спаду
активності аудиторії. За даними власних рекламних інструментів платформи, в
14
порівнянні з декількома попередніми місяцями на початок 2020 року значне
зниження відбулося в Індії, Іспанії та Північної Кореї. Проте тільки за останні
3 місяці загальна аудиторія Facebook зросла на 1%.
Важливо, що сьогодні в Facebook маркетологи можуть охопити третину
всього дорослого населення планети і більше половини всіх людей у віці від 18
до 34 років (рис. 1.8).
Рис. 1.8. Характеристики аудиторії Facebook
Напевно, головним відкриттям 2019 року серед соцмереж став TikTok. У
заголовках ЗМІ раз у раз показували величезні цифри. Однак дані по рекламі в
TikTok, про які повідомили AdAge, дозволяють отримати більш чітке уявлення
про те, що відбувається. Найголовніше – TikTok величезний. У нього
800 мільйонів активних користувачів на місяць. Однак 500 мільйонів з цих
активних користувачів живуть в Китаї. Це означає, що у платформи щомісяця
близько 300 мільйонів активних користувачів за межами Китаю.
До того ж, за даними від App Annie, на китайську аудиторію припадає 80%
всього часу, проведеного в TikTok в 2019 році, а на користувачів в Індії – ще 10%.
Тому, 9 з 10 хвилин TikTok використовують користувачі з Китаю та Індії.
Незважаючи на нерівномірність використання в різних країнах, TikTok піднявся
на шосте місце в глобальному рейтингу мобільних додатків за кількістю
15
активних користувачів за 2019 рік. Він все ще відстає від WhatsApp, Facebook,
WeChat і Instagram, але вже випереджає всі інші соціальні платформи (рис. 1.9).
Рис. 1.9. Кількість активних користувачів мобільних додатків
При цьому важливо підкреслити, що немає даних, що вказують на те, що
своїм успіхом TikTok зобов'язаний будь-якій із західних соціальних мереж.
Facebook, Instagram і Snapchat повідомили про зростання рекламної аудиторії за
останні кілька місяців, навіть серед користувачів у віці від 13 до 17 років.
Рис. 1.10. Аудиторія Reddit в 2022 році
16
Найбільш вражаючий ріст продемонстрував Reddit, щомісячна активна
аудиторія якого виросла на 30% (100 мільйонів нових користувачів) в порівнянні
з минулим роком. За найсвіжішими даними компанії, кожен місяць на платформу
заходять 430 мільйонів користувачів (рис. 1.10).
Pinterest – за минулий рік його активна, призначена для користувача, база
виросла на 29%. За останні 12 місяців платформа залучила понад 70 мільйонів
нових активних користувачів, а на початок 2020 року загальний обсяг
щомісячної активної аудиторії склав 322 мільйони.
Sina Weibo також демонструє вражаючий ріст: якщо судити з останніх
трендів, щомісячна активна аудиторія платформи повинна подолати планку в
півмільярда в найближчі кілька місяців. Заява на листопад 2019 року компанії
про 497 мільйонах активних користувачів свідчить про приріст в 51 мільйон
нових користувачів за рік (це + 11%).
Останні дані компанії Ericsson говорять про те, що в 2020 році споживання
мобільних даних мобільними користувачами досягне більше половини
трильйона гігабайт, причому приблизно дві третини від цього обсягу будуть
використовуватися для потокової передачі і завантаження відеоконтенту.
Рис. 1.11. Види контенту, який споживають інтернет-користувачі
GlobalWebIndex повідомляє, що кожен місяць онлайн-відео сьогодні
дивляться 90% інтернет-користувачів у віці від 16 до 64 років, – більше половини
світового населення (рис. 1.11).
17
Найбільша частка онлайн-споживачів відеоконтенту як і раніше
доводиться на YouTube. Приблизно 3 мільярди чоловік дивляться хоча б одне
відео в місяць на цій платформі (YouTube повідомляє про 2 мільярди переглядів
зареєстрованими користувачами на місяць).
Кількість переглядів ТВ-контенту через інтернет теж продовжує зростати.
За найсвіжішими даними GlobalWebIndex, дві третини інтернет-користувачів у
віці від 16 до 64 років сьогодні дивляться ТВ-шоу і фільми в сервісах по підписці
(Netflix) (рис. 1.12).
Рис. 1.12. Статистика ТВ-контента в інтернеті
Конфіденційність залишається важливою проблемою для користувачів
інтернету в усьому світі, і останні дослідження показують, що стали турбуватися
про ці питання ще більше, якщо порівнювати з даними минулого року. За даними
GlobalWebIndex, тим, як компанії використовують дані, стурбовані 64%
користувачів інтернету в порівнянні з 63% на початку 2023 року (рис. 1.13).
18
Рис. 1.13. Стурбованість питаннями конфіденційності даних в інтернеті
Люди також все менше довіряють тому, що вони бачать і чують в інтернеті.
56% опитаних Інститутом вивчення журналістики Reuters у віці від 18 років
заявили, що «стурбовані» достовірністю фактів в інтернеті. У минулому році це
значення було на рівні 54% (рис. 1.14).
Рис. 1.14. Стурбованість аудиторії фейковою інформацією на 2020 рік
GlobalWebIndex повідомляє, що майже половина всіх користувачів
інтернету у віці від 16 до 64 років користувалися блокувальниками реклами в
минулому місяці. Рік тому їх було 47%. Основною причиною використання
19
блокерів респонденти назвали незадоволення великою кількістю реклами в
інтернеті, а не стурбованість питаннями, пов'язаними з конфіденційністю.
1.2 Фейкові профілі соціальних мереж та їх вплив на користувачів
Термін «соціальна мережа» був введений задовго до появи Інтернету і
традиційних інтернет-мереж. У 1954 році американський соціолог Джеймс Барнс
так позначив соціальну структуру, що складається з групи вузлів, якими є
соціальні об'єкти (спільність, соціальна група, людина, особистість, індивід) [8].
З розвитком Інтернету цей термін став широко застосовуватися для
позначення ресурсів, функціонал яких дозволяє представляти себе в Інтернеті,
створювати власну сторінку і спілкуватися з іншими користувачами. Сьогодні в
загальноприйнятому понятті під соціальною мережею розуміють інтернет-
майданчик, сайт, який дозволяє зареєстрованим на ньому користувачам та
розміщувати інформацію про себе і комунікувати між собою, встановлюючи
соціальні зв'язки.
Соціальні мережі на сьогоднішній день є одними з найбільш відвідуваних
ресурсів в Інтернеті [1, 3]. За даними дослідницької компанії comScore їх
використовують близько 85% від всіх Інтернет-користувачів світу. На думку
ряду вчених освітня парадигма XXI століття включає в себе тріаду найбільших
фундаментальних проблем – безперервність, масовість і якість [4].
Протягом останніх років соціальні мережі відчувають експоненціальне
зростання як в реєстрації профілів, так і в соціальних взаємодіях. Однак їх
швидке зростання викликає і різке зростання шкідливих дій, включаючи спам,
створення підроблених облікових записів, фішинг і поширення шкідливих
програм. За оцінками Facebook, 8,7% зареєстрованих в цій соціальній мережі
облікових записів не належать реальним користувачам, і ще близько 1,5%
належать користувачам, які можуть поширювати шкідливий зміст інформації.
При цьому розробка ефективної системи виявлення, яка може ідентифікувати
шкідливі акаунти, а також їх підозрілу поведінку в соціальних мережах, була і
залишається складним завданням.
20
Фейк (від англ. Fake) – це інформаційна містифікація або навмисне
поширення дезінформації в соціальних мережах і традиційних ЗМІ [12]. Фейк
по-англійськи означає «підробка». Навіть в ідеальних умовах, коли користувачі
націлені на виявлення та відмову від поширення низькоякісної інформації, потік
інформації настільки великий, що в результаті інформаційної перевантаження і
втрати пильності все одно стає можливим потрапляння в нього значної частки
дезінформації. У реальному ж світі, особливо в умовах соціальних мереж,
користувачі яких розділені на спільноти з тенденцією до поляризації політичних
та інших поглядів, на довіру до інформації нерідко впливають упередження
учасників і механізми групового підкріплення. Крім того, самі по собі алгоритми
соціальних мереж побудовані таким чином, що пріоритет отримують не
матеріали, які заслуговують на довіру, а ті, які привертають більше уваги
користувачів.
Підроблені акаунти (фейки) можуть використовуватися для того, щоб
підірвати відносини довіри в соціальній мережі шляхом різних шкідливих дій –
розсилки спаму, збору приватних даних та ін. Забезпечуючи фейкові акаунти
характеристиками (фотографією, персональною інформацією про себе), їх творці
імітують реальних користувачів. Ця імітація побудована на великій довірі
користувачів таким же «звичайним людям», як вони самі, на противагу довірі до
ЗМІ та іншим інституціональним агентам, які можуть бути ангажовані на
користь тих чи інших соціально-політичних сил, товарів і послуг.
Фейки перетворилися на багатомільйонний бізнес, вони виставляються на
продаж для тих, хто хоче підвищити репутацію свого облікового запису. Їх
дослідження показує, що профілі знаменитостей, політиків і популярних
організацій демонструють підозріле збільшення серед їх передплатників
підроблених акаунтів. Такі дії часто можуть завдати шкоди репутації та мати
далекосяжні наслідки і ризики для соціальної мережі.
Приклади використання фейків в політичних кампаніях і створенні
політичного іміджу (в тому числі «чорний піар» конкурентів) описані в роботі Л.
Давидова. Він з співавторами вбудовують проблему існування штучних профілів
21
в онлайн соціальних мережах в ще більш широкий соціальний контекст. Автори
вважають виявлення таких користувачів важливою дослідницькою задачею,
оскільки фейки можуть проникати в політичний дискурс, маніпулювати
фондовим ринком, роздувати паніку під час надзвичайних ситуацій та
поширювати дезінформацію, що тягне за собою ерозію довіри до соціальних
мереж. «Соціальні боти» також можуть перешкоджати просуванню громадської
та державної політики, створюючи видимість низового руху або сприяючи
сильній поляризації політичної дискусії в інтернеті.
Для соціологічного аналізу мереж також великий інтерес представляє
питання, як наявність фейків впливає на вибірки. Соціальні мережі, такі як
Facebook та інші, – це гігантські графи з безліччю вузлів і ребер. Збір і аналіз
настільки великих мереж часто дуже затратний або неможливий (в тому числі в
силу політики конфіденційності). Вже з 1970-х рр. дослідники обговорюють
способи формування вибіркових сукупностей з мереж. Репрезентативна вибірка
повинна зберігати такі властивості вихідної мережі, як щільність, структура
співтовариства, розподіл ступенів, коефіцієнт кластеризації та інші, проте різні
види вибірок дають неоднакові результати в різних дослідних ситуаціях. Деякі
роботи присвячені застосуванню і порівнянню різних вибіркових методів для
мереж [32, 41]. Основними методами формування вибірок з мереж є вибірка по
вузлах, вибірка по ребрах, метод випадкового блукання і метод снігової кулі.
Оскільки фейки можуть впливати на показники мереж і зміщувати їх, доречно
виявляти підроблені акаунти перед формуванням вибіркової сукупності.
Виявлення фейків в соціальних мережах
Збільшення числа штучних акаунтів не залишається непоміченим на рівні
топології соціальної мережі, яку формують користувачі. Це призводить до
спотворення картини взаємодій реальних користувачів і може спричинити
некоректність висновків щодо пропускної здатності мережі, які роблять
дослідники на основі мережевого аналізу.
Наприклад, мережева візуалізація в роботі Феррари ілюструє втручання
«соціальних ботів» в онлайн-дебати у Twitter, США. На графі мережі ретвітів
22
розмір у фейків набагато більше, ніж розмір вузлів, репрезентуючих справжні
акаунти, що відображає вплив користувача – число ретвітів його поста [26].
Очевидно, що видалення штучних акаунтів з цієї мережі істотно змінило б її
структуру, давши досліднику більш коректну інформацію про поширення теми
тільки серед реальних агентів. Однак виявлення фейків являє собою складну
задачу, для вирішення якої існують різні підходи (поведінковий аналіз, теорія
графів, машинне навчання) і пропонуються різні алгоритми.
Поведінковий підхід заснований на моніторингу поведінки користувача і
на впевненості в тому, що люди зазвичай ведуть себе інакше, ніж фейки, тому
виявлення такої поведінки призведе до їх знаходження. А. Алімов і співавтори,
аналізуючи можливості детектування підроблених акаунтів в соціальній мережі,
виділяють два типи ознак для їх виявлення: статичні і поведінкові [18].
До статичних відносяться такі ознаки, як повнота заповнення профілю,
число друзів (у фейків їх більше, ніж у середнього користувача), кількість
коментарів від друзів (у фейків практично відсутні), наявність рекламного
контента та ін. Поведінкові ознаки відображають різні форми активності,
наприклад швидкість коментування, яка у штучних акаунтів набагато вище.
Слабким місцем поведінкового підходу є те, що якщо фейк не зловживає різними
платформами, використовуючи деяку базову інформацію профілю, його буде
складно виявити.
Теорія графів – поширена перспектива в дослідженнях фейків. Наприклад,
Конті зі співавторами аналізує граф соціальної мережі в динаміці для виявлення
тих, хто створює підроблені профілі для уособлення реальних людей, а потім
взаємодіє з їх друзями [7]. Багато дослідників застосовують алгоритми
машинного навчання для виявлення спаму в онлайн соціальних мережах.
Наприклад, Фаєр та ін. використовують аномалії топології, дерева рішень
і наївні класифікатори Байеса для ідентифікації спамерів і підроблених профілів
[21].
Деякі роботи в цій області виходять з того, що фейки групуються в
кластери і є можливість виявити такі групи взаємопов'язаних штучних акаунтів
23
[36]. Однак частіше можна спостерігати протилежну картину. На прикладі
китайської соціальної мережі Renren виявлено, що сусіди підроблених акаунтів
складаються в основному з реальних користувачів.
Іншими словами, фейки не утворюють кластер, вони добре інтегровані в
більш широку соціальну мережу. Дослідження також показують, що підроблені
акаунти додають друзів по методу «снігової кулі»: починаючи з популярних
користувачів, вони поступово додають все більше рядових користувачів,
незабаром опиняючись інтегрованими в соціальну мережу, як звичайні учасники.
Для боротьби зі спамом сайти соціальних мереж дозволяють користувачам
повідомляти про шахрайські профілі або дії. В роботі Фрімана обговорюються
можливості виявлення фейків силами користувачів соціальних мереж, а саме: чи
дійсно деякі користувачі («довірений набір») краще визначають підроблені
акаунти, ніж інші? Фріман виявив, що учасники, які демонструють вимірні,
повторювані навички в ідентифікації підроблених профілів, існують, але рідкісні
(не більше 2,4%) [8].
Таким чином, будь-який надійний «довірений набір» користувачів занадто
малий, щоб мати помітний вплив на показники шкідливих дій в соціальних
мережах.
При виборі алгоритму виявлення фейків спираються на роботу дослідників
з LinkedIn. Для навчання класифікатора для виявлення фейків в LinkedIn автори
використовували і порівнювали алгоритми випадкового лісу, логістичної
регресії і метод опорних векторів. Виявлено, що алгоритм випадкового лісу дає
кращі результати для всіх показників (показник AUC на тестовій вибірці склав
0,98). Також створюється класифікатор для виявлення підроблених акаунтів в
соціальній мережі, використовуючи алгоритм випадкового лісу. Будучи
найпопулярнішими сайтами, вони являють собою соціальне поле для
комунікації, підтримки соціальних зв'язків і формування соціального капіталу.
Внаслідок популярності цього майданчика в мережу проникають агенти, які
прагнуть використовувати її як економічний інструмент або в інших цілях,
створюючи мережу підроблених профілів.
24
Дослідницький інтерес зосереджений на тому, як таке втручання
відбивається на топології і властивості мережі користувачів. Виявлення і
видалення фейків дозволяє скорегувати мережу користувачів і оцінити вплив,
який штучні акаунти надають на мережу.
До значущим метрик мережевого аналізу відносяться наступні:
− розмір мережі – кількість «вузлів» або «вершин» (користувачів);
− середня довжина шляху між двома будь-якими учасниками мережі;
− розподіл ступенів (тобто кількості зв'язків, якими користувач
пов'язаний з іншими);
− асортативність – тенденція вузлів з однаковим ступенем утворювати
зв'язки один з одним. Асортативність означає, що користувачі об'єднані
зв'язками з тими, у кого схоже з ними кількість друзів;
− транзитивність – частка закритих «тріад», де всі троє пов'язані між
собою ( «друг мого друга – мій друг»);
− модулярність – властивість, що характеризує ступінь кластеризації
вузлів, коли всередині кластера щільність мережі висока, а між
кластерами – низька; та ін.
Видалення з мережі акаунтів, які є фейковий, вплине на спостережувані
мережеві метрики. Метрики, що розраховуються для мереж користувачів, дають
інформацію про те, наскільки згуртованим є спільнота, чи містить вона підгрупи,
які вузли (тобто користувачі) в ній мають найбільшу вага і значення, як та за
рахунок яких учасників відбувається розширення мережі та поширення
інформації.
Парсинг (Parsing) – це прийняте в інформатиці визначення синтаксичного
аналізу. Для цього створюється математична модель порівняння лексем з
формальною граматикою, яка описана однією з мов програмування. Наприклад,
PHP, Perl, Ruby, Python [8].
Коли людина читає, то, з точки зору науки філології, вона робить
синтаксичний аналіз, порівнюючи побачені на папері слова (лексеми) з тими, що
є в його словниковому запасі (формальної граматики).
25
Сфера застосування таких програм, як парсер, дуже широка, але всі вони
працюють практично за одним алгоритмом. На практиці зазвичай проводиться
парсинг більш ніж одного ресурсу або сторінки сайту. Так що процес міг би
затягнутися на досить значний час, якби алгоритм виконувався послідовно для
кожної нової сторінки.
При цьому ресурси комп’ютера, на якому працює парсер,
використовувалися б лише в малому ступені. Рішення проблеми – багато-парсер,
здатний обробляти величезну кількість сторінок і задіяти ресурси комп’ютера
максимально раціональним чином. Таким чином час парсинга скорочується в
десятки разів.
Найбільш відомий приклад використання парсерів – пошукові системи.
Також використовують парсинг програми пошуку плагіату і аналізу семантики в
текстах, без яких не обійдеться жоден копірайтер і SEO-спеціаліст. Тому основна
область використання – інтернет-маркетинг і пошукове просування. За
допомогою парсера складається семантичне ядро сайту, проводиться аналіз
сайтів конкурентів. [8].
Дуже потрібен парсер власникам Інтернет-магазинів. За його допомогою
вони отримують опис товарів, задаючи модель. В іншому випадку це довелося б
щоразу робити вручну, що займало б сотні годин. Окрема сфера застосування –
парсинг валютних курсів і курсів криптовалют. Для тих, хто торгує на біржі
Forex, важливо вчасно отримувати актуальну інформацію про зміни курсів.
Допоможе спеціальна програма-біржі парсер-бот [9].
Ця програма не лише збирає актуальну інформацію, а й торгує на біржі в
рамках заданих користувачем змінних – біржовій комісії, бажаного прибутку.
Активно застосовуються боти і в області ставок на спортивні події, в тому числі
кіберспорт. В такому випадку програма-парсер займається збором коефіцієнтів
в різних букмекерських конторах.
В даному випадку, користувач задає ареал пошуку – наприклад, певні
дисципліни, змагання або дати. Бот шукає коефіцієнти і самостійно здійснює
ставки в заданих користувачем прикладах. Робити це можна і вручну, однак це
26
займає набагато більше часу. Крім того, бот працює цілодобово, тому можна
робити ставки на події в реальному часі, що відбуваються в інших часових
поясах. В даному випадку, парсинг даних з сайту – це процедура збору
інформації по заданих параметрах. Програма-парсер сайтів проводить
синтаксичний аналіз заданого онлайн-ресурсу і надає інформацію в заданому
вигляді. [9]
Парсити сайт можна за допомогою самих різних парсерів – багатопоточних
і універсальних, а також вузькоспеціалізованих, орієнтованих на конкретні
завдання. Парсери сайтів за принципом роботи трохи схожі на пошукові боти,
використовувані відомими пошуковими системами. Однак вони зазвичай
парсять сайти по заданих параметрах і збирають сам контент з можливістю його
використання, а не надають інформацію про нього.
Парсер контенту з сайту може зібрати його з будь-яких відкритих для
людей і пошукових роботів джерел в мережі. Це можуть бути каталоги, інтернет-
форуми, сайти оголошень, магазини, сайти-візитки, блоги, корпоративні
портали, маркетплейси і багато іншого.
Наприклад, власники інтернет-магазинів активно використовують парсери
сайтів, щоб автоматизувати процедуру збору характеристик і фотографій товарів
на офіційних сайтах виробників і дистриб’юторів. Тобто, автоматизують роботу,
яка зайняла б у людини в десятки разів більше часу і зажадала б значно більших
коштів [10].
Наведемо конкретний приклад, пов’язаний з інтернет-магазином.
Припустимо інтернет-магазин включає в себе окремі картки товарів. Якщо
заповнювати такі вручну, то на цей процес може піти чимало часу. Коли
асортимент значний, то доведеться докласти багато зусиль. Вручну робити це
нераціонально і довго.
Програми для парсинга оптимізують процес. З їх допомогою добитися
бажаного можна буде всього за «пару кліків». Це дуже зручно, особливо
алгоритм підходить тим інтернет-магазинах, які реалізують продукцію окремого
бренду з офіційним сайтом, де зосереджені тисячі найменувань продукції. [10].
27
Використовувати програму парсинг при інтернет-магазині або в інших
сферах діяльності дійсно дуже зручно. Адже вона дозволяє:
− зібрати і швидко скопіювати інформацію з інших сайтів;
− скопіювати дані та постійно підтримувати актуальність відомостей;
− зібрати і обробити великі масиви інформації з подальшим розміщенням
на особистому ресурсі.
Незалежно від того на якій формальній мові програмування написаний
парсер, алгоритм його дії залишається однаковим:
− вихід в інтернет, отримання доступу до коду веб-ресурсу і його
скачування;
− читання, вилучення та обробка даних;
− представлення витягнутих даних в доступному вигляді – файли .txt,
.sql, .xml, .html та інші формати.
В інтернеті часто зустрічаються висловлювання, з яких випливає, ніби
парсер (пошуковий робот, бот) постійно працює по всій мережі Інтернет. Але
найчастіше дана програма повністю працює на персональному комп'ютері, на
якому вона інстальована.
Цим парсер докорінно відрізняється від комп'ютерного вірусу –
автономної програми, здатної до розмноження, хоча по суті своєї роботи він
схожий на трояна. Адже він отримує дані, іноді конфіденційного характеру, не
питаючи бажання їх власника.
Збір інформації в інтернеті – трудомістка, рутинна, що забирає багато часу
робота. Парсери, здатні протягом доби перебрати більшу частину веб-ресурсів в
пошуках потрібної інформації [11].
Найбільш активно «парсять» всесвітню мережу роботи пошукових систем.
Але інформація збирається парсером і в приватних інтересах. На її основі,
наприклад, можна написати дисертацію. Парсинг використовують програми
автоматичної перевірки унікальності текстової інформації, швидко порівнюючи
вміст сотень веб-сторінок із запропонованим текстом. Без програм парсинга
власникам інтернет-магазинів, які потребують сотні однотипних описів товарів,
28
технічних характеристик та іншої інформації, яка не є інтелектуальною
власністю, було б важко вручну заповнювати характеристики товарів.
Можливістю «спарсити» чужий контент для наповнення свого сайту
користуються багато веб-майстрів і адміністраторів сайтів. Це виправдано, якщо
потрібно часто змінювати контент для подання поточних новин, які швидко
змінюються [12].
Парсинг – важливий інструмент для організаторів спам-розсилок по
електронній пошті або каналів мобільного зв'язку. Для цього їм потрібно
запустити «бота», який буде збирати «телефони, адреси». Власники деяких,
особливо недавно організованих веб-ресурсів, люблять наповнити свій сайт
чужим контентом. Правда, вони ризикують, оскільки пошукові системи швидко
знаходять і банять їх.
Звичайно ж, парсери не читають текст, вони всього лише порівнюють
запропонований набір слів з тим, що виявили в інтернеті і діють за заданою
програмою. Те, як пошуковий робот повинен надійти зі знайденим контентом,
написано в командному рядку, що містить набір букв, слів, виразів і знаків
програмного синтаксису. Такий командний рядок називається «регулярний
вираз».
Щоб парсер розумів регулярні вирази, він повинен бути написаний на мові,
що підтримує їх в роботі з рядками. Така можливість є в РНР, Perl. Регулярні
вирази описуються синтаксисом Unix, який хоча і вважається застарілим, але
широко застосовується завдяки властивості зворотної сумісності.
Синтаксис Unix дозволяє регулювати активність парсинга, роблячи його
«ледачим», «жадібним» і навіть «зверхскупим». Від цього параметра залежить
довжина рядка, яку парсер копіює з веб-ресурсу. Зверхскупий парсинг отримує
весь контент сторінки, її HTML-код і зовнішню таблицю CSS [13].
В даний час всі процеси, де застосовується синтаксичний аналіз,
використовують парсери – програми для проведення візуального або програмно-
автоматизованого синтаксичного і лексичного аналізу або розбору будь-якого
документа з метою вилучення з нього необхідних даних. Це і різні
29
автоматизовані перекладачі з однієї мови на іншу, і транслятори мов
програмування, які формують програмний код на машинно-орієнтовану мову, це
і мова SQL-запитів і тому подібні застосування.
1.3 Інтелектуальні методи обробки природної мови
Обробка природної мови (NLP) - це галузь на перетині комп'ютерних наук,
штучного інтелекту та лінгвістики. Його мета - обробляти та "розуміти"
природну мову, перекладати текст і відповідати на запитання [9]. З появою і
стрімким розвитком текстової інформації, голосових інтерфейсів і чат-ботів в
Інтернеті розвиток НЛП значно прискорився. В даний час кількість корисних
додатків, розроблених з використанням методів обробки природної мови,
стрімко зростає, вирішуючи такі завдання, як
Отримання необхідної інформації;
Аналіз тональності тексту;
відображення онлайн-реклами відповідно до потреб та вподобань
користувача;
Автоматичний переклад;
Аналіз маркетингових завдань;
Розпізнавання мови (найчастіше використовується в розробці чат-ботів);
Голосові асистенти.
Вирішення проблеми усунення неправдивої інформації в інтернеті вимагає
використання механізмів аналізу та фільтрації цієї інформації. Це можна
розробити за допомогою методів НЛП.
Зазвичай неправдива інформація виявляється на різних рівнях: джерело,
документ і висловлювання. На кожному рівні існують різні методи виявлення
дезінформації. Методи, що базуються на джерелах, зазвичай простіші і
зосереджені на визначенні достовірності джерела на основі минулої поведінки
представників цього джерела в Інтернеті. Виявлення дезінформації на основі
джерел є найпростішим, але найменш надійним методом, оскільки будь-який
документ, опублікований від імені ненадійного джерела, вважається
30
недостовірним. Підхід на основі документів перевіряє, чи містять документи
неправдиву інформацію. Оскільки документи можуть містити як правдиву, так і
неправдиву інформацію, їх потрібно розбивати на менші частини і
використовувати методи, засновані на твердженнях. Пошук неправдивої
інформації на рівні тверджень вимагає декількох кроків, таких як вилучення
тверджень, розбиття їх на речення та оцінка їхньої правдоподібності [10].
Більшість завдань з обробки природної мови починаються з попередньої
обробки тексту, яка складається з декількох кроків:
− сегментація речень;
− лексикалізація;
− нормалізація (лематизація);
− видалення стоп-слів.
Для вирішення завдань, пов'язаних з обробкою природної мови,
використовується ряд методів, таких як
− Байєсівські класифікатори;
− Машини опорних векторів;
− Нейронні мережі;
− Технологія Word2Vec;
− Методи на основі правил та словників.
Методи керованого машинного навчання часто використовуються в
дослідженнях. Суть цих методів полягає в тому, що спочатку навчають
машинного класифікатора на заздалегідь розміченому тексті, а потім
використовують отриману модель для аналізу нової інформації. Одним з таких
методів є наївний класифікатор Байєса.
Наївні байєсівські класифікатори часто використовуються в задачах
класифікації тексту, фільтрації спаму, визначення тональності інформації тощо.
Перевагою наївних байєсівських класифікаторів є невелика кількість
навчальних даних, необхідних для оцінки параметрів, що використовуються для
класифікації.
31
Вхідними даними для реалізації наївного байєсівського класифікатора є
навчальна множина, що описує відповідність між текстовими документами та
класом, до якого вони належать [11].
Машини опорних векторів (SVM) - це метод керованого навчання для
бінарної класифікації. У цьому методі кожен документ представляється у вигляді
вектора в багатовимірному просторі. На основі навчальних даних SVM будує
модель, яка визначає цільове значення тексту і створює найбільш відповідну
дискримінативну гіперплощину. Метод опорних векторів дуже стійкий до
великих обсягів даних, що робить текстові дані придатними для використання в
SVM-класифікаторах [12].
Нейронні мережі також можна використовувати для визначення
емоційного забарвлення тексту. Штучні нейронні мережі - це системи простих
процесів або штучних нейронів, які пов'язані між собою та взаємодіють.
Алгоритми такої обробки зазвичай прості, але в поєднанні з великими мережами
з контрольованими взаємодіями вони можуть виконувати набагато складніші
завдання. Рекурентні та згорткові нейронні мережі були використані для
вирішення завдань НЛП [12].
Технологія Word2Vec заснована на представленні слів у вигляді векторів
заданого розміру та наближенні схожих слів одне до одного. Це означає, що
відстань між векторами слів, які представляють схожі речі, наприклад, "кішка" і
"собака", набагато менша, ніж відстань між словами з менш поширеним
значенням, наприклад, "кіт" і "літак". Ця особливість дозволяє створити більш
гнучке представлення даних, яке можна використовувати для навчання
нейронних мереж і різних класифікаторів. Для побудови бази даних
відповідностей слово-вектор алгоритм спочатку переглядає весь заданий текст і
створює "словник", який використовується в наступних ітераціях алгоритму для
ідентифікації відповідних векторів [12].
Метод, заснований на правилах і словнику, використовує попередньо
складений словник і правила, які використовують лінгвістичний аналіз для
32
пошуку емоційних слів у тексті. Тексти оцінюються за шкалою, яка включає
кількість негативних і позитивних слів [12].
Альтернативою методам машинного навчання є підхід Elasticsearch;
Elasticsearch широко використовується як інструмент пошуку та аналізу. Його
функціональність як API для аналізу текстової інформації менш відома, але він
має переваги у вирішенні завдань, пов'язаних з обробкою тексту. Він простий і
швидкий у використанні. У цьому підході завдання класифікації вирішуються
набагато швидше, ніж у традиційних підходах. Однак існують також завдання
NLP, які вимагають більш глибокого аналізу, і в цьому випадку Elasticsearch не
має ідеальної архітектури та формату даних, а для доступу до повного тексту
необхідно використовувати додаткові плагіни.
Описані вище методи також можуть бути використані для вирішення
завдань, пов'язаних з фільтрацією фейкової інформації в Інтернеті, включаючи
виявлення фейкової інформації, тобто її класифікацію, тобто автоматичне
розрізнення фейкової і справжньої, тим самим чітко, швидко і ефективно
припиняючи поширення неправдивої інформації.
Висновки
Кількість активних користувачів популярних соціальних мереж становить
понад 3,5 млрд. [10]. В них на добу користувачі відправляють 50 млрд.
повідомлень і 10 млрд. раз роблять репост. Всі ці дані говорять про високу
популярність соціальних мереж.
Дезінформація в повідомленнях – це не нове явище, але онлайнові системи
поширення інформації, особливо побудовані по моделі соціальних мереж, є
особливо сприятливим середовищем. Пов'язано це з тим, що механізми, які
визначають популярність певного повідомлення, легко піддаються маніпуляції з
використанням спеціальних програм, що імітують активність реальних
користувачів, або «бригад» – спеціально організованих дезінформаційних груп,
що діють аналогічним чином. Дані групи стають центрами мережі соціальних
33
контактів, втираючись в довіру до користувачів, які також починають брати
участь в поширенні фейкового контенту.
Наприклад, розміщення підроблених репостів на матеріали провідних
економічних ЗМІ, чиї бренди мають репутацію довірених, щодо стану
національної економіки і курсів валют може спровокувати паніку у населення
того чи іншого регіону. Як показали події навколо виборів президента в США та
економічної ситуації в світі, які супроводжувалися масовим вкидання
неправдивої інформації в соціальні мережі, внесенням правок у «Вікіпедію»,
зростанням активності фейковий акаунтів та іншими подібними діями,
технологія розпізнавання дуже затребувана і в Facebook, і в Twitter, та в інших
соціальних мережах.
Дослідження моделей поширення фейків в соціальних мережах вказують
на неповноту і недосконалість цих моделей, в зв'язку з цим виникають наступні
протиріччя.
1. Існуючі моделі поширення фейків не враховують особливості
поширення фейкових акаунтів в деяких соціальних мережах. В зв'язку з цим є
логічним вивчення основних способів поширення фейків в соціальних мережах.
2. Згадані моделі розповсюдження фейків не враховують потенційну
можливість користувачів поставити під сумнів отриману інформацію та
перевірити її на достовірність.
3. Також не проводиться моделювання процесів поширення фейків в
соціальних мережах, що не дозволяє в достатній мірі зробити висновки про
успішність поширення фейків при різних параметрах.
34
РОЗДІЛ 2
РОЗРОБКА ІНФОРМАЦІЙНОЇ МОДЕЛІ РОЗПІЗНАВАННЯ ФЕЙКОВОЇ
ІНФОРМАЦІЇ НА ОСНОВІ ТЕКСТОВИХ ПОВІДОМЛЕНЬ
2.1 Дослідження методів визначення фейкових акаунтів
У сучасному світі все частіше використовується Інтернет-комунікація для
організації та розповсюдження широкого кола фейкової діяльності та матеріалів.
Фундаментальна анонімність, яку пропонує Інтернет, і легкість, з якою
поєднуються різні ідентичності, дозволяє людям ділитися такою інформацією у
відносній безпеці. Сучасна робота з аналізу авторства мала значний успіх у тих
випадках, коли їх мало та відомо набір інформації, а також є достатня кількість
тексту відомого авторства. Ці методи нелегко перевести на комп’ютерну
комунікацію, де може бути невідома кількість авторів, котрі надають невідому
кількість коротких повідомлень. Звіти про проект, який розширив існуючі
роботи в даній галузі успішно застосовано до кримінальних розслідувань, що
стосуються тексту коротких повідомлень, шляхом розробки автоматизованого
процесу, який може бути застосований до онлайнових середовищ. [12]
Традиційно проблема пов'язана з літературними, біблійними та
політичними текстами, інтерес останнім часом змінився до ідентифікації авторів
коротких текстів, таких як блоги та тексти SMS. Zheng et al. вказують на
зловживання онлайновими повідомленнями для шкідливих та/або незаконних
цілей, які стали серйозною проблемою останнім часом. Осторонь від простоти
анонімності для авторів в Інтернеті та стислості текстів, труднощів у створенні
надійних методів ускладняється великим і відкритим характером сукупності
потенційних авторів у даному контексті.
Такі особливості, як відносна частота функціональних слів та розподіл
частоти слів традиційно об'єднуються в багатовимірні моделі для приписування
авторство, тому варіація індивіда у використанні функціональних слів
залишається популярним методом і сьогодні. Ідентифікація акаунтів досягається
35
через сукупність маркерів – використання середнього слово, речення та довжини
абзаців, частоти та розподіл типів слів для аналіз вмісту, хоча зазначалося, що
вони часто використовуються в комбінації для досягнення максимальної
дискримінаційної сили. Підхід Часкі, хоча і не позбавлений критики через деяку
суттєву слабку сторону методології, перевірив низку функцій для аналізу
повідомлень, включаючи синтаксичний аналіз, синтаксично класифіковані
розділові знаки, складність речень, багатство словникового запасу,
читабельність, аналіз вмісту, орфографічні помилки, пунктуаційні помилки,
помилки у формі слів та граматичні помилки, і виявив, що лише синтаксичний
аналіз та синтаксично класифіковані розділові знаки успішно дискриміновані.
Коппель зазначав, що майже всі існуючі дослідження в галузі авторства
«розглядає лише найпростіший варіант проблеми», тобто ті випадки, коли
відносно довгий анонімний текст приписується одному з невеликих, закритих
наборів акаунтів. Така версія приписування авторства дуже рідкісна – навпаки,
часто стикаються з потенціалом сотень фейкових авторів. Вирішуючи ці
обмеження, Коппель показав власну техніку для вирішення питань ідентифікації,
у випадку, коли кількість фейкових акаунтів досягала тисячі. Даний підхід
передбачає визначення того, чи включає даний фрагмент набір мовних
особливостей унікальний для реального користувача. Результати показали, що
цей досить грубий підхід спрацював тільки певною мірою, коли текст здатен
досягти досить надійної атрибуції фрагментів. [22]
Коппель поділяє існуючі методи автоматизованого розпізнавання акаунтів
на дві парадигми – парадигма на основі подібності, де вимірюється відстань між
двома повідомленнями, а атрибуція базується на акаунті, який має багато
спільного із даним текстом; парадигма машинного навчання, де відомі
повідомлення кожного акаунта використовуються для побудови класифікатора,
який потім використовується для класифікації інших повідомлень.
Автори вказують, що методи, які базуються на подібності, є більш
доречними при розгляді великої кількості акаунтів, і використання цих методів
дозволяє перевірити ідентифікацію автора. Основа для слова, які мають довжину
36
чотири та не містять пробілів, або рядки з чотирьох та менше символів оточені
пробілами. Одна з перевага даного підходу – це вимірюваність будь-якою мовою
без необхідності наявності спеціальних базових знань.
Однак з лінгвістичної точки зору цим методам не вистачає чіткості,
подібно до особливостей, на яких зосереджено увагу ранніми стилометристами:
існують очевидні проблеми застосування алгоритму в обчислювальній техніці,
який відрізняє повідомлення, але при цьому не має лінгвістичного пояснення або
обґрунтованість. Метод Коппеля виявився успішним у 46% випадків –метод є
ефективним засобом роботи з великими наборами акаунтів, для яких традиційні
методи класифікації були неефективними, але випадок з невеликими відкритими
наборами акаунтів поки що не дає задовільного результату.
Берроуз зазначає, що більшість методів, які зараз використовуються в цій
галузі, використовують багатовимірне статистичне порівнянні між певними
ознаками прикладу та відповідний набір норм. Вони містять частоти відносно
простих явищ, і може включати алфавітні символи, цілі слова або загальні
граматичні форми. Дана процедура успішна у виділенні найбільш вірогідного
автора тексту, що перевищують 1500 слів.
Перехід до методів атрибуції авторства більш вкорінений у лінгвістичній
теорії, Макменамін окреслює свій підхід до текстів, який ґрунтується на основах
стилістики – інтерпретація маркерів стилю описується та аналізується мовою
груп та окремих акаунтів. Відхилення від норми часто можуть бути пов'язані з
певними класами людей, як у випадку змішування омонімів, таких як „ваш” та
„ви” чи „їх” та „їхній” – відхилення, що може бути спільним для необережних
або недостатньо освічених авторів, або використання «тоді» для «ніж», що може
свідчити про певний мовний різновид, у якому ці форми омонімічні. Тоді ці
особливості навряд чи можуть бути індивідуальними, хоча їх вибір може бути
таким.
Макменамін розрізняє модель узгодженості, яка використовується для
визначення окремих текстів для одного автора і популяційна модель, яка повинна
використовуватися, коли група акаунтів велика, тобто не обмежується одним або
37
двома підозрілими акаунтами: у цьому випадку модель подібності
використовується неодноразово для одного акаунта. Підхід Макменаміна багато
в чому ефективний, що відображено в мовній оцінці стилю.
Грант при досліджені текстових повідомлень SMS показав, що мовна
відмінність та мовна послідовність – це питання ступеня, і це питання можна
дослідити за допомогою статистичних методів. Він використовує описові
методів для подальшого розвитку, щоб забезпечити кількісну оцінку порівняння
послідовності та відмінності. З цією метою Грант використовує коефіцієнт
Jaccard, статистичний інструмент для встановлення ступеня подібності між
випадками.
Присутність або відсутність кожної стилістичної особливості, виявленої
вище певної частоти позначається, як 1 або 0 відповідно. Потім ці кодування
дозволяють проводити статистичне порівняння для подібності або неподібності.
Коефіцієнт Jaccard можна використовувати для порівняння пар повідомлень
кожен з яких кодується як ряд нулів та одиниць, що стосуються відсутності або
присутності специфічної мовної особливості. Jaccard – це коефіцієнт кореляції,
який застосовується до двійкових рядків і призводить до метрики (не)подібності,
яка перетворюється на десяткову цифру від нуля до одиниці, де один вказує, що
два текстові повідомлення містять однакові лінгвістичні ознаки та нуль вказує
на відсутність спільних мовних особливостей. Перевагою полягає в тому, що збіг
у двох текстах не впливає на загальний результат оцінки подібності. Оскільки
повідомлення короткі, відсутність даної ознаки в тексті не має значення та не
впливає на обчислення подібності в будь-якому напрямку. В поточному проекті
використовує розширення Jaccard, яке називається Delta-S (Δs). Delta-S
розроблена в морській біології та судовій психології, щоб дозволити зважування
змінних в межах Jaccard. У коротких формах обміну повідомленнями для цього
потрібна таксономіка Потужність Δs така, що вона дозволяє визначення
подібних, але не однакових стилістичних рішень, які будуть представлені у
метриці подібності. Враховуючи все вище сказане можна представити
класифікацію методів ідентифікації фейкових акаунтів у соціальній мережі.
38
Методи ідентифікації фейковий акаунтів в соціальних мережах
можливо розділені на два великі класи:
1. на основі аналізу профілів акаунтів;
2. на основі аналізу поведінки груп акаунтів.
Розглянемо спочатку методи, які дозволяють відрізняти фейковий акаунти
від справжніх, аналізуючи вміст профілів. Як правило, при цьому з профілів
виділяються деякі характеристики, на основі яких далі працюють алгоритми
машинного навчання.
В роботі [32] описана ідентифікація фейків в мережі LinkedIn. Автори на
основі експерименту демонструють ймовірність розпізнавання фейків з
ймовірністю до 84% точності, використовуючи в якості вхідних даних – дані
аналізованого профілю. При цьому застосовуються класифікатори на основі
нейронних мереж, і серед інших, опорними є такі характеристики профілю, як
кількість мов, які відомі власникові облікового запису, освіта, професійні
навички і т.д. Для навчання використовуються характеристики акаунтів, які
свідомо визнані фейковими та які публікуються на спеціальних сайтах.
В роботі [33] акцент зроблений на виявлений фейків в Твіттері. Робота
цікава тим, що тут використаний класифікатор на основі біграм, який
використовує пари слів як характеристики текстів. У сукупності з іншими
характеристиками, такими, як регулярність повідомлень, опис профілю та ін.
Описувана система досить легко розрізняє акаунти людські і фейки, що належать
роботам.
Інший підхід до ідентифікації фейковий акаунтів в соціальних мережах –
це методи, які спираються на аналіз графів зв'язків між групами акаунтів.
В роботі [34] описаний експеримент по ідентифікації фейків в мережах
Facebook і Twitter. Авторами було створено 900 акаунтів, для яких проведений
збір статистики контактування з ними інших акаунтів протягом року. Після
цього був проведений аналіз графа профілів і виявлено понад 16 тисяч спам-
акаунтів. У подальшому отримані дані були використані для навчання
класифікаторів.
39
В роботі [35] висунуто припущення про те, що фейкові профілі частіше
об'єднуються з іншими фейковий профілями, що дозволяє розділити граф
зв'язків на підграфи, що містять фейки і легітимні акаунти. Однак, в роботі [36]
дана гіпотеза поставлена під сумнів, і запропонований новий метод визначення
фейків на базі аналізу профілів користувачів, тобто тих акаунтів, з якими
контактують фейки.
Ще одним етапом в ідентифікації фейкових профілів стала робота [37], де
замість спроб характеризувати профілі фейкових акаунтів, запропоновано
спиратися на аномалії поведінки таких акаунтів шляхом моніторингу часу
перебування в мережі, походження повідомлень, тематики повідомлень. На
основі цих характеристик створений класифікатор на основі методу опорних
векторів. Навчальна вибірка позначена в ручному режимі.
Методи деанонімізація та ідентифікація фейкових акаунтів-
«двійників»
Деанонімізація також є актуальним завданням сучасних соціальних мереж
[38] і може бути розглянута як в ракурсі протизаконного розкриття анонімності.
Проблемна область досить широка, і покриває проблематику ідентифікації
зловмисників з DeepWeb, деанонімізація користувачів таких систем, як TOR, і
крім того, завдання пошуку фейкових акаунтів одного і того ж індивіда в мережі.
Множинні фейкові акаунти користувача тісно пов'язані з проблемами
анонімності. Наприклад, користувач може мати низький рейтинг в
співтоваристві і завести новий акаунт для того, щоб увійти до спільноти з чистою
репутацією [39]. Також фейкові акаунти використовують для участі в дебатах
різного роду, в спільнотах, для розповсюдження продукції і т.д.
Назва завдання – деанонімізація – говорить сама за себе: оскільки
передбачається, що користувач в мережі анонімний, деанонімізація знімає його
анонімність.
Однак, в деяких роботах [40] деанонімізація включає і завдання пошуку
двійників, тобто фейкових акаунтів, створених однією і тією ж людиною. У
контексті даної роботи акцентовано увагу на відомих методах ідентифікації
40
фейків, що належать одному автору в межах більш ніж однієї соціальної мережі
як підзадача деанонімізація.
Огляд публікацій в цій галузі показав, що до теперішнього часу склалися
наступні основні напрямки виявлення «двійників»:
− методи на основі схожості псевдонімів (String-based matching);
− методи на основі стилеметрії (Stylometric matching);
− методи на основі аналізу часового профілю (Time profile-based
matching);
− методи на основі аналізу соціальної взаємодії (Social network-based
matching).
Методи на основі схожості псевдонімів
Призначені для користувача псевдоніми як правило є якимось текстовим
рядком. Найчастіше користувачі створюють схожі псевдоніми в різних мережах,
цей випадок працює тоді, коли користувач не намагається ховатися або вести
протизаконну діяльність [41]. Запропоновано декілька варіантів перевірки
схожості псевдонімів, наприклад, [42]. Однак, ця стратегія не буде працювати,
коли користувач умисно ховається під іншим псевдонімом.
Методи на основі стилеметрії
Під стилеметрією розуміють статистичний аналіз тексту [43]. До
теперішнього часу існує досить широке коло робіт, присвячених ідентифікації
авторства шляхом аналізу тексту, наприклад, [44-46]. Слід зазначити, що
більшість робіт в даній області присвячені проблемі ідентифікації автора малої
розмірності (коли кількість кандидатів у автори відносно невелике), і набагато
менша кількість робіт присвячено ідентифікації авторів у великому
кіберпросторі, або, навпаки, з використанням малої кількості матеріалу для
створення вектору характеристик текстів. Однак, також слід зазначити, що
методи на основі стилеметрія вважаються досить надійними і перспективними:
наприклад, в [47] автори стверджують, що методи на основі стилеметрії
достатньо для деанонімізація в мережі Інтернет. Крім того, достатня кількість
робіт присвячено розвитку і вдосконалення даного напрямку [48, 49].
41
В роботі [50] визначено основні характеристики текстів, необхідні для
успішної ідентифікації авторства і включають лексичні, синтаксичні, структурні,
ідіоматичні ознаки.
Методи на основі аналізу часового профілю
Методи даної групи спираються на припущення про те, що не може один і
той же індивід публікувати пост в один і той же час. На основі цієї гіпотези
складаються тимчасові профілі користувачів, причому можуть включати не
тільки публікацію постів, а й інші дії. Прикладами формування тимчасових
профілів є в роботах [51,52].
Методи на основі соціальної взаємодії
Ця група методів спирається на гіпотезу про те, що псевдоніми одного і
того ж індивіда в мережі з високою вірогідністю взаємодіють з одними і тими ж
акаунтами. Однак проблемою є і те, що не завжди доступні списки друзів
користувача в інтернеті, і з цієї причини можливі варіанти побудови мережі
зв'язків: на основі повідомлень, на основі бесід і т.п.
2.2 Метод розпізнавання авторства повідомлень акаунтів соціальних
мереж
Атрибуція авторства особливо стосується ідентифікація справжнього
автора анонімного повідомлення. У літературі ідентифікація авторства
розглядається як проблема категоризації тексту або класифікація тексту. Процес
починається з очищення даних з подальшим вилученням та нормалізацією ознак.
Кожне повідомлення перетворюється у вектор ознак; який представляє деякий
клас. Значення характеристик обчислюються за допомогою стилометричних
особливостей. Ознаки класифікуються на дві групи: навчально та тестувальні
набори. Навчальний набір потрібен для створення моделі класифікації, тоді як
набір тестувань використовується для перевірки розробленої моделі,
припускаючи, що мітки класів невідомі. Загальні класифікатори включають
дерева рішень, нейронні мережі та підтримку Vector Machine [42]. Робота [26]
розробляє основу для авторства ідентифікації в електронних повідомленнях для
42
вирішення проблеми відстеження особистості. У цих рамках виділено чотири
особливості типу написання (лексичні, синтаксичні, структурні та змістовні
функції). Проведено порівняння між трьома методами класифікації: дерево
рішень, SVM та нейроні мережі зворотного поширення. Експериментальні
результати показали, що ця система здатна ідентифікувати авторів із точність від
70 до 95%, а класифікатор SVM перевершив дві інші. Робота [30] використовує
лише функціональні слова і застосовує п’ять класифікаторів (наївні байєсівські,
байєсівські мережі, метод найближчого сусіда, дерева рішень, SVM).
Характеристика авторства використовується для виявлення соціолінгвістичних
атрибутів, як стать, вік, професія та освітній рівень потенційного автора
повідомлення.
Дослідивши проблему перевірки авторства, як проблему виявлення
подібності – визначити, чи є два тексти створені однією і тією ж людиною, не
знаючи справжнього автора документа. Пропонується новий алгоритм
ідентифікації, коли два псевдоніми належать одній особі, зберігаючи
приватність.
Пропонується підхід, який називається лінгвістичним профілюванням.
Середня кількість функцій для кожного автора порівнюється із загальним
стилістичним профілем, побудованого на основі навчальних зразків обраних
автори.
Стилістика або вивчення стилометричних особливостей показує, що особу
можна ідентифікувати за відносно послідовним стилем письма. Стиль письма
особи визначається наступними характеристиками: використані терміни, вибір
спеціальних символів та склад речень. Існують чотири типи стилометричних
ознак: лексичні, синтаксичні, структурні та специфічні за змістом.
Лексичні особливості
Текст можна розглядати як послідовність маркерів, згрупованих у речення.
Лексемою може бути слово, цифра або розділові знаки. Можливо приписувати
авторство на прості мір – довжина речення та кількість слів. Перевага цих
функцій полягає в тому, що вони можуть застосовуватись до будь-якої мови і без
43
додаткових вимоги, крім наявності токена. Лексичні особливості
використовуються, щоб дізнатись про переважне використання символів та слів
окремої людини.
Дані особливості включають частоту окремих літер, частоту спеціальних
символів, загальну кількість великих літер, великі літери, які використані на
початку речень, середня кількість символів на слів, середня кількість символів в
реченні.
Текст також можна розглядати як послідовність символів. Можуть бути
визначені різні міри на рівні символів, включаючи алфавітну кількість символів,
кількість цифр, великі регістри та розпис малих літер, частота літер, пунктуація.
Функції багатства словника кількісно визначають різноманітність
словникового запасу тексту. Співвідношення V/N, (V – розмір словникового
запасу, а N – загальна кількість лексем тексту) дають міру К: кількість слів, що
трапляються один раз до кількості слів, що трапляються двічі.
На жаль, розмір словникового запасу сильно залежить від довжини тексту.
Методом визначення набору лексичних ознак є вилучення найчастіших слів.
Синтаксичні особливості
Синтаксичні особливості визначаються як шаблони, які
використовувались в раніше створених реченнях. Ця категорія функцій
складається з інструментів для структурування речень. До них належать
розділові знаки та функціональні слова. Функціональні слова – це
загальновживані слова.
Структурні особливості
Структурні особливості корисні для вивчення того, як індивід організовує
структуру своїх повідомлень – впорядкування речень в абзацах та пункти в
повідомленнях. Структурні особливості першими були запропоновані для
призначення авторства електронної пошти. До загальних структурних
особливостей використовували специфічні особливості електронної пошти, такі
як наявність/відсутність привітань та прощань, їхню позицію в тілі електронної
пошти.
44
Особливості вмісту
Особливості вмісту використовуються для характеристики певних заходів,
дискусійних форумів або груп інтересів кількома ключовими словами чи
термінами. Проаналізувавши історичні повідомлення можна визначити 11
ключових слів як особливості, що стосуються вмісту.
На базі розглянутого вище, список найбільш корисних стилометричних
особливостей та огляд попередніх досліджень цих ознак запропоновано нижче.
Стилометричні особливості
Лексичні особливості (F1)
Характерні особливості:
− Кількість символів (C);
− Загальна кількість алфавітних символів / C;
− Загальна кількість великих символів / C;
− Загальна кількість розрядних символів / C;
− Загальна кількість пробілів / С;
− Загальна кількість вкладок пробілів / C;
− Частота букв;
− Частота спеціальних символів ~, @, #, $, %, ^, &, *, -, _, =, +,>, <,
[,], {,};
Функції на основі слова:
− Загальна кількість слів (М);
− Загальна кількість коротких слів (менше чотирьох символів)/M;
− Загальна кількість символів у словах / C;
− Середня довжина слова;
− Середня довжина речення;
− Середня довжина речення з точки зору слова;
− Усього різних слів / М;
− K-міра;
− Міра D Сімпсона;
45
− Міра Сіхеля;
− W міра Бруне;
− Міра Р Оноре;
Синтаксичні особливості (F2)
− Частота знаків пунктуації ",", ".", "?", "!", “:”, “;”, “’ ”,“ ””;
− Частота функціональних слів;
Структурні особливості (F3)
− Загальна кількість рядків;
− Загальна кількість речень;
− Загальна кількість абзаців;
− Кількість речень на абзац;
− Кількість символів в абзаці;
− Кількість слів в абзаці;
− Має привітання;
− Має роздільник між абзацами;
− Використання електронної пошти, як підпис;
− Використання телефону, як підпис;
Особливості вмісту (F4):
− Частота ключових слів, що стосуються змісту.
Методика визначення авторства повідомлень.
Одним із способів обробки доступних навчальних текстів для кожного
автора це об'єднати їх в один текстовий файл. Цей файл використовується для
отримання властивості авторського стилю. Текст невідомого автора
порівнюється з файлами кожного автора та оцінюється на основі міри відстані.
Як результат, відмінності між навчальними текстами однакових авторів
відкидаються. Даний підхід реалізується за допомогою імовірнісних моделей та
компресії моделі. Інший підхід – багаторазове навчання тексту зразків на автора,
щоб скласти точну атрибуцію модель. Це означає, що кожен навчальний текст є
індивідуально представлений як окремий екземпляр авторського стилю. Другий
46
підхід застосовується за допомогою машини вивчення класифікаторів,
алгоритмів кластеризації та інтертекстових відстаней.
Імовірнісні моделі
Цей спосіб заснований на припущенні, що випадкові ознаки
взаємозалежні. За цим припущенням з урахуванням набору ознак {a1, ... ,an},
отриманих з повідомлення автора v, обчислимо
де P(a1 ... an) вважається рівномірним, а n фіксованим. Таким чином можемо
віднести повідомлення до класифікації за допомогою обчислень
використовуючи теорему Байєса, наївним байєсівським класифікатором можна
написано так:
де P(v) можна оцінити шляхом вимірювання частоти у навчанні автора v.
Величина кожної ознаки обчислюється з нормованої частоти слова в
повідомлені. Використання імовірнісної моделі дає високу точність, що
варіюється від 78% до 90,46%.
Розширення наївного алгоритму Байєса з доповненням статистичної
мовної моделі дає високу ефективність в експериментах з приписуванням
авторства. В порівняння зі стандартними наївними класифікаторами Байєса,
підхід допускає локальні залежності ланцюга Маркова в спостережуваній змінні
для контекстної інформації.
Компресійні моделі
Спочатку всі доступні тексти для i-го автора об'єднуються, щоб
сформувати великий файл xa та алгоритм стиснення викликається для створення
стисненого файлу C(xa). Потім, невидимий текст x додається до кожного тексту
xa, а алгоритм стиснення – викликається знову для кожного C(xa + x). Різниця в
розрядному розмірі стислих файлів d(x,xa)=C(xa+x)–C(xa) вказує на подібність
47
тексту з кожним автором-кандидатом. Ця різниця обчислює перехресну
ентропію між двома текстами. Кілька готових алгоритмів стиснення
протестовані з таким підходом, включаючи RAR, LZW, GZIP, BZIP2, 7ZIP і в
більшості випадків RAR був найбільш точним.
Враховуючи компресор C і два документи x, y, відстань визначається як:
де C(x), C(y) та C(xy) – це побітні розміри результату послідовності при
використанні C для стиснення x, y та конкатенації x та y відповідно. NCD оцінює
схожість між парами повідомлень шляхом вимірювання покращення,
досягнутого багатофункціональним стисненням повідомлень.
Порівняємо різні моделі стиснення для атрибуція авторства. З цією метою
існує три різних типи компресорів, а саме GZip, BZip та PPM. Результати
показали, що моделі стиснення є хорошою альтернативою атрибуції авторству
системи розпізнавання образів на базі класифікаторів та ознак.
Класифікатори машинного навчання та алгоритми кластеризації
Використання класифікаторів машинного навчання та алгоритмів
кластеризації ознаменували важливий поворотний момент в досліджені
атрибуції. Застосування таких методів є прямолінійним: навчальні тексти
представлені, як позначені для пошуку числові вектори та методи навчання між
класами (авторами), які мінімізують деяка класифікаційна функція втрат.
Для прогнозування продуктивності певного алгоритму використовуються
міра, точність і відкликання. Вони визначаються як:
Правильність = Кількість повідомлень автора, яких правильно визначено
/ Загальна кількість повідомлень
Точність = Кількість повідомлень, правильно визначеного автора /
Загальна кількість повідомлень, визначеного автора
Повторний виклик = Кількість повідомлень, правильно визначеного автор
/ Загальна кількість повідомлень, написаних автором
48
Тексти перетворюються у вектор стилометричних функцій та алгоритми
кластеризації застосовуються до об’єднання текстів, написані одним і тим же
автором у кластері. Розробляється основа для ідентифікації авторства в мережах
повідомлень на вирішується проблема відстеження особистості. Визначаються
чотири типи особливостей стилю письма (лексичні, синтаксичні, структурні та
специфічні для вмісту функції). Три класифікації порівнюють методи: дерево
рішень, SVM та нейромережі зворотного розповсюдження. Експериментальні
результати показали – дана система може ідентифікувати авторів із точністю від
70 до 95% (SVM – найкращий).
З розширеного набору особливостей електронного документа, включаючи
структурні характеристики та лінгвістичні були виведені шаблони та
використаний алгоритм навчання SVM визначення вмісту електронної пошти.
2.3 Інтелектуальна модель визначення фейкових акаунтів на основі
повідомлень
Набір даних, проаналізований у поточному дослідженні, являє собою
мікроблоги, отримані із соціальної мережі Twitter (рис. 2.1.).
Рис. 2.1 – Приклад середньостатистичного акаунта Twitter (X)
49
Мікроблоги – це форма спілкування, при якій користувачі можуть описати
свій поточний статус у коротких повідомленнях, що розповсюджуються за
допомогою миттєвих повідомлень, мобільних телефонів, електронною поштою
або Інтернет. Twitter – це відносно новий метод масової комунікації, працює в
режимі реального часу і призначений для мобільності.
Оскільки користувачі не потребують знання будь-якої стандартизованої
техніки взаємодії, в результаті чого з’явиться різноманітна база акаунтів. Існує
ряд термінів, які виникли із спільноти Twitter для сприяння організації.
Передпланова обробка твіту («ретвіт») означає, що це репостінг твіту іншого
користувача, тоді як використання хештегу перед словом – дозволяє становити
фільтр твітів за темами, і, отже, служить конвенцією про позначення знизу вгору.
Посібники користувачів, такі як визначення слів, які, як стверджується, є
специфічними для контексту Twitter, але в якій мірі їх фактично залучають
користувачі, залишається незрозумілим.
Вибір особливостей
Хоча за останній час спостерігається різке збільшення використання
послуг мікроблогів, дослідження мовних особливостей текстів, звичок та
спонукань до кількість користувачів залишається мінімальною. Твіти
відображають структуру з двох частин, першою є ім’я користувача та самого
повідомлення, а другий містить метадані, включаючи його тимчасове джерело та
Інтернет походження. Звужуючи фокус до внутрішньої граматичної структури
повідомлення, використання нестандартної пунктуації часто ускладнює
призначення твітів однозначно до певної синтаксичної категорії. Багато твітів
приймають досить фрагментовану форму, а слова іноді протиставляються таким
чином, що робить його тлумачення неможливим. Середня кількість слів на твіт
становив 14,7, це вище, ніж у випадку з миттєвими повідомленнями. Еліпсис
предмета та допоміжного дієслова є частим явищем у твітах. В межах твітів
немає однакового діапазону текстових повідомлень, як у SMS.
У таблиці 2.1 продемонстровано особливості авторства текстів SMS, для
розрахунок метрики Delta-S – більш надійна версія коефіцієнта Jaccard.
50
Таблиця 2.1
Оригінальний перелік функцій коротких повідомлень
Опис Функції Приклад
Орфографічні помилки Будь-яке слово, яке не «Я це бачив у новинах
знайдено у словнику варнці»
Малі регістри Початок речення з малої «я не думаю»
літери
Скорочення Використання «Хто ти, УПУ?»
скорочень
Оклична Використання «Бум, ти мертвий»
ономатопея ономатопеї для передачі
вигуків
Наголоси Передавання конкретної «Похмуууууууууурість»
вимови через правопис
Смайлики Серія символів, що «:-)»
представляють обличчя
Змішані друкарські Використання змішаних «Якого біса?!?!?!?»
вигуки символів для передачі
вигуків
В таблиці добавлено початковий набір типу стилістичних особливостей,
які можна очікувати від даних. Так як лінгвістичний аналіз спілкування в мікро-
блогах – відносно нове поле, початковий список включає функції ряду інших
жанрів, включаючи SMS та миттєві повідомлення.
Проведено якісний аналіз з допомога Wordsmith Tools для виявлення
випадків деяких особливостей. Лексикони, що містять кожен приклад даної
функції, створена шляхом ручного вилучення предметів з списку слів та
створення файлів простого тексту.
Лексикони розроблені для особливостей таким чином, як оклична
ономатопея, наприклад, ініціалізми та абревіатури, але були менш придатними
51
для таких ознак, як ціле слово числівника. Цілком можливо регулярно
замінювати інфінітивний маркер цифрою. Таким чином, створено ряд
граматичних правил, які розрізняють різні способи використання на основі
контекст, у якому вони відбулися. Подальші розмежування проводились на
основі інтервалів – деякі користувачів, які вставляють два пробіли, тоді як інші
вставляють тільки один.
Деякі приклади повідомлень:
а) Нова стаття: GORDON DUFF: ROGUE AMERICA2 (слово і число без
пробілу);
б) @Skeptіs: 2girls 1flower (число і слово, пробіл, далі без пробілу)
в) @thekat: божевільний у зупиненому русі – нездатний прийняти
неконтрольоване – це все ... (інфінітив, пробіл).
Результатом цього процесу стало уточнення вихідної категорії об’єктів на
тридцять дві окремі ознаки на основі всіх можливих комбінацій:
використовуваного числівника, використання інтервалу. Ці відмінності створили
систему категоризації ознак. Найвищий рівень, за яким класифікувалися ознаки,
базувався на основі лексики, граматики та пунктуації, а також за ознаками,
властивими способу, включаючи хештеги та повторні твіти. Функції,
класифіковані під заголовком граматики базувалися головним чином через
пропуск певних класів слів, таких як дієслова. Таким чином, аналіз зосереджений
в основному на особливостях класифікується під лексикою та пунктуацією.
Використання метрики відстані Delta-S (Δs) для визначення між двома
повідомленнями та положення в ієрархії стилістичних особливостей.
Оцінка
Після розробки набору функцій наступний крок – перевірити ефективність
методу – кінцевим завданням є ідентифікація акаунта для одного чи невеликої
кількості коротких повідомлень:
− у наборах акаунтів багато невідомих потенційних авторів;
− автор невідомого повідомлення може не бути присутнім у наборах
акаунтів.
52
Модель повинна давати одну з таких відповідей:
− реальний акаунт: результати перевищують певний рівень довіри;
− можливо реальний акаунт: результати наближаються до рівня
впевненості;
− невизначний акаунт: повідомлення містить занадто мало стилістичних
особливостей для винесення судження вище визначеного порогу
довіри;
− фейк: відсутність реальної людини за акаунтом.
Якщо від невизначеного акаунта доступний лише невеликий набір
повідомлень, рішення приймається для агрегування цих повідомлень,
намагаючись покращити шанси на атрибуцію. Однак слід мати на увазі, що,
особливо в контексті Інтернету, такого не гарантується.
Довіра до атрибуції
Показник Delta-S (Δs) обчислюється між одним тестовим повідомленням
акаунта X та наборами повідомлень від різних авторів (А1, А2, А3, ... Аn); (B1,
B2, B3, ... Bn), (C1, C2, C3, ... Cn) тощо.
Це дає ряд зразків:
A {Δs (X → A1), Δs (X → A2), Δs (X → A3) ... Δs (X → AN)};
B {Δs (X → B1), Δs (X → B2), Δs (X → B3) ... Δs (X → BN)};
C {Δs (X → C1), Δs (X → C2), Δs (X → C3) ... Δs (X → CN)} тощо.
Потім їх можна порівняти з непараметричним тестом статистичної
значущості (у цьому випадку U-тест Манна-Уітні) для визначення ймовірностей
узгодження:
P(A> B), P(A> C), P(B> C) тощо.
Вони представляють ймовірність того, що обидві вибірки можна взяти з
одного набору, низька ймовірність вказує на більш суттєві відмінності.
Ефективність для окремих повідомлень
Початковий тест – 10 одиничних випадкових твітів від відомого акаунта A
(Xa) та створення відстаней Δs, яке вимірює 100 інших твітів від акаунта A та
100 твітів від акаунта B.
53
Проведено три експерименти з різними акаунтами та тестовими
повідомленнями. Результати представлені в таблиці 2.2, яка показує кількість
повідомлень, визначених правильно (з 10 для кожного випробування), кількість
їх визначено правильно з високою статистичною значимістю, та кількість
повідомлень, який не вдалося визначити. У жодному разі повідомлення не були
пов'язані неправильно.
Таблиця 2.2
Ефективність для окремих повідомлень
Кількість Кількість
P < 0.01 P < 0.01
вірних невизначених
Експеримент 1 8 5 1 0
Експеримент 2 4 1 4 0
Експеримент 3 7 4 2 0
Результати показують високу точність і дискримінацію для одного
повідомлення, реальний акаунт ідентифікується у більшості випадків. Однією з
причин, через яку неможливо призначити низку повідомлень, є частота функцій
у таких коротких повідомленнях. У цьому наборі даних твіт зазвичай становить
12 слів і в середньому містить менше 3 стилістичних особливостей. Таким
чином, повинен бути розроблений підхід, який врахує той факт, що деякі з них
містять багато ідентифікаційних ознак, в той час як інші будуть містити мало або
зовсім нічого.
Ефективність для агрегованих повідомлень
Ефект розрідженості ознак можна зменшити, агрегуючи повідомлення
перед Δs розрахунком. Другий тест об’єднав випадкові твіти від відомого автора
А у 10 груп по 1, 2, 5 або 10 повідомлень кожна. Потім розраховані Δs відстані
кожної з цих сукупностей до 100 пакетів інших повідомлень від акаунта А та 100
пакетів повідомлень від акаунта Б. Акаунти, використані в цьому дослідженні,
54
були такими ж, як і в експерименті 2, найгірші показники – з одного текстового
тесту.
Таблиця 2.3
Ефективність агрегованих повідомлень
Кількість Кількість
Агрегація P < 0.01 P < 0.01
вірних невизначених
1 4 1 5 0
2 6 5 3 0
5 7 6 2 0
10 10 10 0
Результати показують покращення показників після агрегування. Кількість
слів у агрегованому повідомленні в середньому складають близько 90 для
випадку 10 повідомлень; все ще значно нижче нижньої межі стилометричних
прийомів.
Цей акаунт досить типовий, використовуючи в середньому 9 слів на
повідомлення, причому кожне повідомлення містить в середньому 2,5
стилістичні особливості. Збільшення продуктивності вражає навіть для помірних
рівнів агрегування.
Наступним сценарієм, який було розглянуто – набір акаунтів. Тест
враховував 10 одиничних випадкових твітів від відомого акаунта A (Xa) та
генерував вимірювання відстані Δs між цими та 100 іншими твітами від акаунта
A, 100 твітів від акаунта B, 100 – від акаунтів C, D тощо.
Результати наведені в таблиці 4. Для кожного повідомлення порядок
ранжування (1 є найбільш подібним, а 20–- найбільша відстань) показує рейтинг
реального акаунта. Таблиця також показує рівень значущості, з якими
повідомленнями були неправильно присвоєні, коли вони не були визначені
першими.
55
Таблиця 2.4
Виконання моделі для кількох авторів
Кількість
Ранговий
Вірність невизначених
порядок
P < 0.01
Повідомлення 1 1 + Не визначено
Повідомлення 2 3 – 0
Повідомлення 3 2 – 0
Повідомлення 4 1 + Не визначено
Повідомлення 5 5 – 0
Повідомлення 6 3 – 0
Повідомлення 7 3 – 0
Повідомлення 8 1 + Не визначено
Повідомлення 9 1 + Не визначено
Повідомлення 10 1 + Не визначено
Дані результати показують, що методологія має достатній успіх у
визначенні акаунтів із наборів з відносно великим наборм кандидатів. Особливий
інтерес викликає те, що реальний акаунт не має найвищого рейтингу. На
практиці це мінімізує ризик хибних результатів.
Висновки
В даному розділі продемонстровано, що для типових коротких
повідомлень можливі позитивні результати дослідження фейкових акаунтів, а
підхід покращує розпізнавання з точки зору розміру повідомлення, до якого
можна застосувати аналіз акаунтів.
Реалізація ідентифікації ознак виявилася ефективною з точки зору точності
та охоплення екземплярів функцій, ідентифікованих та анотованих до кожного
повідомлення. Однак можна зробити деякі покращення для підвищення
загальної продуктивності. Недостатня кількість часу не дозволяє тегувати
56
частини повідомлення, що дозволило б більш широке використання
категоризації функцій на основі правил. Крім ряду детальних лексиконів, який
розроблений для завдань категоризації ознак (таких як ономатопеїчних виразів
та різних підкатегорій ініціалізмів) існує ряд інших типів функцій, для яких це
ще потрібно дослідити.
Подальше вдосконалення процесу ідентифікації можливе шляхом
зважування особливі особливості відповідно до того, наскільки вони поширені
або рідкісні. Це означало б, що наявність фрази, яка дуже часто зустрічається у
вибраних повідомленнях та набір акаунтів отримають нижчу вагу, ніж наявність
більш рідкісного. Всі ці вдосконалення сприятимуть вдосконаленій системі з ще
вищими показниками. Також даний спосіб можливо застосувати для
масштабованості процесу, будь-яка корисна система потребує отримання
дійсних результатів на дуже великому наборі даних, типові для контексту.
57
РОЗДІЛ 3
РЕАЛІЗАЦІЯ ІНФОРМАЦІЙНОЇ МОДЕЛІ ІНТЕЛЕКТУАЛЬНОГО
РОЗПІЗНАВАННЯ ФЕЙКОВИХ КОРИСТУВАЧІВ СОЦІАЛЬНОЇ
МЕРЕЖІ
3.1. Засоби реалізації створення програмного продукту
Для реалізації запропонованої моделі було розроблено три окремі
програмні модулі: скрепер, пошук та REST API додаток для демонстрації
можливостей алгоритму. Завданням скрепера є періодичний запит релевантних
даних, їх аналіз та зберігання результатів аналізу.
Завдання пошукової системи - прийняти акаунт, проаналізувати його,
здійснити пошук схожих акаунтів у перевіреній базі даних і на основі результатів
цього пошуку визначити, чи є акаунт фейковим чи ні.
Програмний додаток також був розроблений з використанням середовища
Anaconda - дистрибутиву мов програмування Python та R, який включає низку
популярних безкоштовних бібліотек, інтегрованих з наукою про дані та
машинним навчанням.
Anaconda включає єдиний узгоджений набір найбільш використовуваних
тематичних модулів (NumPy, SciPy, Astropy та ін.) і вирішує залежності та
конфлікти, які неминучі при самостійному встановленні цих модулів. Станом на
2020 рік включено понад 1,5 тисячі модулів.
Важливою особливістю дистрибутива є оригінальний менеджер Anaconda
Navigator, який дозволяє відмовитися від стандартного менеджера пакетів.
Дистрибутив потрібно завантажити лише один раз, а всі подальші налаштування,
включаючи встановлення додаткових модулів, можна робити в автономному
режимі.
Крім того, можна підтримувати декілька ізольованих середовищ. Всі
необхідні бібліотеки та фреймворки доступні в Anaconda Navigator, потрібно
лише підключитися до нього. [27]. Для реалізації зберігання та пошуку
58
проаналізованих облікових записів ми обрали сервер ElasticSearch. Це пошукова
система на основі бібліотеки Lucene, яка надає розподілену повнотекстову
пошукову систему з HTTP веб-інтерфейсом і безсхемними JSON документами
ElasticSearch розроблена на Java.
Відповідно до відкритої бізнес-моделі, деякі частини програмного
забезпечення ліцензовані під різними ліцензіями з відкритим вихідним кодом
(зокрема, ліцензією Apache), в той час як інші частини покриваються власною
ліцензією Elastic (з доступом до вихідного коду). Офіційний клієнт доступний на
Java, PHP, .NET (C#), Apache Groovy, Python, Ruby та багатьох інших мовах.
За даними DB-Engines, найпопулярнішою пошуковою системою для
підприємств є ElasticSearch, за нею йде Apache Solr, який базується на Lucene
ElasticSearch може шукати всі типи документів. Вона пропонує масштабований
пошук, пошук в режимі реального часу і підтримує багатосторонній пошук.
ElasticSearch - це розподілена система, що означає, що індекс може бути
розділений на частини і кожна частина може мати різну кількість реплік.
Кожен вузол містить один або кілька контейнерів і діє як координатор,
делегуючи операції відповідній частині. Маршрутизація відбувається
автоматично. Відповідні дані зазвичай зберігаються в єдиному індексі, що
складається з одного або декількох первинних контейнерів і декількох реплік.
Після створення індексу кількість первинних контейнерів не може бути змінена
[32].
Для програми скрапінгу було обрано бібліотеку BeautifulSoup. Це
бібліотека, написана мовою програмування Python для аналізу HTML та XML
документів (включаючи дефекти, тобто незакриті теги).
Бібліотека створює дерево розбору сторінки, яке можна використовувати
для вилучення даних з HTML.
Для реалізації програми, що демонструє алгоритм, було обрано мову
програмування Python та бібліотеку Django; Django - це вільний веб-фреймворк
на основі Python, який відповідає архітектурній моделі Model Template View
59
(MTV). Він підтримується Django Software Foundation (DSF), незалежною
організацією, створеною як неприбуткова організація 501(c)(3).
Основна мета Django - полегшити створення складних веб-об'єктів,
керованих базами даних. Фреймворк наголошує на принципах багаторазового
використання компонентів і "зв'язності", меншої кількості коду, низького рівня
зв'язку, швидкої розробки та відсутності ітерацій; Python використовується
протягом усього циклу розробки, аж до конфігураційних файлів і моделей даних.
Django також надає додаткові інтерфейси управління для створення,
завантаження, оновлення та видалення, які динамічно генеруються шляхом
самоаналізу та конфігуруються за допомогою моделі управління.
Базову структуру Django можна розглядати як архітектуру MVC, але зі
своєю власною схемою іменування, наприклад, іменування об'єктів, які
викликаються при генерації HTTP-відповідей. Фреймворк складається з моделі
даних (визначеної класами Python), об'єктно-реляційної моделі (ORM), яка є
посередником бази даних, системи обробки HTTP-запитів з системою веб-
шаблонів та менеджера URL-адрес на основі регулярних виразів.
Система конфігурації Django дозволяє додавати сторонній код до
звичайних проектів, якщо він відповідає правилам багаторазового використання.
Це включає реєстрацію, пошук, скрапінг, інтерфейси API, CMS тощо.
Однак ця розширюваність обмежується внутрішніми залежностями
компонентів: Філософія Django є слабко пов'язаною, але фільтри шаблонів і теги
припускають єдину реалізацію рушія, в той час як пакети Auth і admin вимагають
використання внутрішнього ORM.
Жоден з цих фільтрів або пакетів не є обов'язковим для запуску проекту
Django, але програми багаторазового використання, як правило, покладаються на
них, і розробникам рекомендується продовжувати використовувати офіційний
стек, щоб отримати всі переваги екосистеми додатків. Django використовується
багатьма відомими сервісами, такими як US Public Broadcasting Service,
Instagram, Mozilla, The Washington Times, Disqus, Bitbucket та Nextdoor.
60
3.2 Архітектура роботи та структура програмного забезпечення
Архітектура - це базова організація системи, втілена в компонентах
системи, взаємозв'язках між компонентами, їх взаємозв'язках з навколишнім
середовищем і принципах, які керують проектуванням і розробкою системи [26].
Архітектура програмного додатку показана на рисунку 3.1, який
представлений у вигляді діаграми компонентів.
Рис. 3.1. Архітектура програмного додатку визначення фейкової інформації
Діаграма компонентів - це діаграма, яка показує компоненти, залежності та
взаємозв'язки між компонентами. Вона показує залежності між компонентами
програмного забезпечення, такими як компоненти вихідного коду, двійкові
компоненти та виконувані компоненти. Програмні модулі можуть бути
представлені як компоненти [37].
У процесі розробки виділяють дві фази: реалізація алгоритмів аналізу
тексту та використання алгоритмів в операціях пошуку та вилучення. При
розробці програмного продукту вимогою є розробка гнучкого рішення з великою
61
кількістю модулів, що дозволяє змінювати певні компоненти системи з часом без
необхідності змінювати всю систему. Тому в результаті аналізу весь програмний
продукт був розділений на наступні окремі модулі:
− Модуль текстового аналізу (FATextAnalysis);
− Модуль скрапінгу (FAScrapper);
− Модуль пошуку (FASearch);
− Модуль прийняття рішень (FADecider);
− Модуль серверу для демонстрації (FAServer).
Модуль текстового аналізу FАTextAnalysis є окремим модулем,
бібліотекою, написаною мовою програмування Python, і може бути
імпортований в інші модулі за допомогою менеджера бібліотек pip. Основне
завдання цього модуля - виконати текстовий аналіз облікового запису і
згенерувати список значущих токенів для цього облікового запису.
Відповідно до задач, модуль містить 3 головні класи:
− HeaderAnalyzer – аналізує основні дані акаунта;
− BodyAnalyzer – аналізує повідомлення;
− CoreAnalyzer – містить спільний функціонал аналізу для
HeaderAnalyzer та BodyAnalyzer.
Безпосередній аналіз тексту відбувається у декілька етапів:
− видалення службових слів;
− синонімайзинг токенів;
− зведення токенів до нормальної форми;
− формування списку семантичних токенів;
− зведення списку до множини.
Для вилучення службових слів використовуються фільтри стоп-символів і
фільтри малих літер. При застосуванні цих фільтрів з тексту вилучаються всі
службові слова, а всі великі літери замінюються малими. Оскільки службові
слова не додають жодного смислового навантаження до тексту, перетворення
всіх літер на малі полегшує подальший аналіз тексту.
62
При синонімізації синоніми замінюються вихідним словом за допомогою
попередньо створеного словника. Наприклад, якщо в словнику є стаття "анімація
- мультиплікація", після цього етапу всі лексеми на позначення "анімація"
замінюються на лексеми на позначення "мультиплікація". Такі словники часто
містять заміни різних форм одного і того ж слова і не несуть додаткового
смислового навантаження. Це зменшує тягар подальшого аналізу токенів.
Наступний етап - приведення токенів до нормальної форми. На цьому етапі
більшість токенів перетворюються в просту форму, що значно полегшує
подальший аналіз.
Потім формується список семантичних токенів. До цього списку входять
лексеми від одного до трьох слів, які пройшли всі попередні етапи. Остаточний
аналіз повідомлення базується на цих лексемах.
Останній етап - перетворення маркерів у набір. Цей процес усуває всі
дублікати, але їх кількість підраховується. Іншими словами, кожен маркер додає
до запису поле, яке вказує на кількість повторень у тексті.
Таким чином, коли всі етапи аналізу завершено, система повертає масив
асоціативних лексем, розташованих у числовому порядку від найбільшої до
найменшої, а також кількість згадок у тексті. Потім дані обробляються, і в
результаті відбираються найбільш семантично значущі лексеми. Ця
послідовність і є кінцевим результатом текстового аналізу.
Модуль вилучення FAScraper - це окрема бібліотека, написана мовою
програмування Python. Вона імпортує модуль текстового аналізу
FАTextAnalysis. Основне завдання цього модуля - періодично завантажувати
інформацію з надійних джерел, аналізувати її, видаляти дублікати та індексувати
в ElasticSearch.
Нижче коротко описано зміст основних класів модуля скрапінгу
FNScraper:
− Fetcher – завантажує перелік інформації з перевіреного джерела;
− Indexer – індексує отримані дані в ElasticSearch після завершення
аналізу;
63
− Analyzer – використовує модуль FАTextAnalysis для того, щоб
проаналізувати повідомлення робить попередню підготовку даних для
зберігання у базу даних.
Модуль пошуку - це окремий модуль, написаний на мові програмування
Python. Основним завданням цього модуля є пошук повідомлень в індексі
ElasticSearch за набором токенів контенту, отриманих під час аналізу, та
сортування повідомлень за схожістю контенту.
До складу розробленого модуля пошуку входять нижче описані класи:
− QueryBuilder – будує фільтруючий запит в базу;
− ScoreBuilder – розраховує формулу показника схожості;
− Engine – формує повний запит до ElasticSearch, використовуючи дані
QueryBuilder та ScoreBuilder.
Оскільки ElasticSearch має вбудовану модель підрахунку балів, пошук і
ранжування відбуваються одночасно. Це дозволяє обчислювати певні метрики
під час пошуку і ранжувати повідомлення відповідно до цих метрик. У цьому
випадку для обчислення різниці між двома токенами використовується алгоритм
Левенштейна. Згідно з результатами розрахунку, чим менша різниця, тим більш
схожими є токени.
Поширена модель побудови систем ранжування документів базується на
розрахунку показника схожості. Цей показник розраховується як сума значень
алгоритму Левенштейна між кожною парою токенів, кожне з яких ділиться на
кількість слів у токені та коефіцієнт семантичної важливості (TF-IDF) токена.
Формула нижче показує загальний розрахунок оцінки схожості:
= ∑ ( / (×−)),
де – показник різниці відстані Левенштейна між i-ми токенами двох
повідомлень, – кількість слів у i-му токені, − – коефіцієнт семантичної
важливості i-го токена. Отримані значення сортуються відповідно до показника
схожості від меншого до більшого.
64
Модуль прийняття рішень FАDecider – незалежна бібліотека, написана на
мові програмування Python. Його задача – отримувати проаналізовані
повідомлення, пошуковий результат зі схожими повідомленнями з бази даних та
на основі цих даних приймати рішення: чи є акаунт правдивий, чи неправдивий.
Алгоритм перевірки полягає в пошуку максимально близьких за змістом
повідомлень у пошуковій видачі ElasticSearch. Розглядаються наступні сценарії:
− у видачі результатів пошуку ElasticSearch знайдено правдивий акаунт,
який схожий з аналізованим на більше, ніж 90%. При такому сценарію
акаунт помічається як «правда» і записується до бази даних;
− у результаті пошуку ElasticSearch виявлено фейк, яка схожий з
аналізованим на 90% і більше. У такому випадку аналізований акаунт
помічається як «фейк» і записується до бази даних;
− у видачі результатів пошуку ElasticSearch знайдена правдивий акаунт,
який протилежний з аналізованим на 90% і більше. У такому випадку
аналізований акаунт помічається як «фейк» і записується до бази
даних;
− у видачі результатів пошуку ElasticSearch знайдено фейк, який
протилежний з аналізованим на більше, ніж 90%. При цьому сценарію
аналізований акаунт помічається як «правда» і записується до бази
даних.
Для демонстрації можливостей алгоритму FAServer було реалізовано
серверний модуль за допомогою мови програмування Python та фреймворку
Django. Завданням модуля є надання програмного інтерфейсу для використання
реалізованих модулів пошуку та скрепінгу.
Методи не потребують авторизації і працюють за асинхронною моделлю.
Тобто вони перевіряють запит, відправляють його на виконання і повідомляють
клієнта про те, що запит успішно оброблено. Виняток становлять запити на
аналітику, які виконуються синхронно. Тобто сервер отримує запит, обробляє
його і формує відповідь в одному потоці. Іншими словами, клієнт одразу отримує
65
результати автоматизованого фактчекінгового аналізу, а не чекає на
повідомлення.
Модуль реалізований у вигляді серверу з набором API методів.
Розглянемо їх:
− POST /start_scrapping – починає процес скрапінгу;
− POST / stop_scrapping – зупиняє процес скрапінгу;
− POST /analyze – аналізує заданий акаунт.
Вхідний набір даних, що використовується для навчання мережі взято із
платформи Monant. Дана платформа – це універсальна та розширювана
платформа, розроблена для моніторингу та витягу інформації [29].
Отримані дані з платформи записуються до json файлу, а потім
конвертуються у файл формату csv для подальшої роботи з ними (рис. 3.2).
Рис. 3.2. Файл з твердженнями з різних платформ
Задаємо параметри для пошукового рядку payload = "{\n \"username\": \"",\n
\"password\": \"\"\n}", вказуємо в заголовку, що будемо працювати з json headers
= { 'Content-Type': 'application/json'}.
66
Відправляємо запит зі встановленими параметрами на сервер, якщо дані
вказані вірно, то відбувається авторизація generatedtoken =
requests.request('POST', url, headers = headers, data = payload), перетворюємо
результат запиту у json a=generatedtoken.json().
Формуємо пошуковий рядок category=search= false&page=1. Вказуємо у
заголовку вид аутентифікації headers = {'Authorization': 'JWT ' + a['access_token'],
'Content-Type': 'application/json'}
Виконуємо запит на отримання даних response = requests.request('GET',
url2, headers = headers, data = payload, allow_redirects=False).
Створюємо файл json та записуємо в нього результат запиту:
todos = json.loads(response.text)
with open('claims1.json', 'a', encoding='utf-8') as f:
json.dump(todos, f, ensure=False, indent=4)
Модель нейронної мережі для класифікації тверджень
Неправдива інформація ідентифікується за допомогою нейронних мереж,
а саме згорткових нейронних мереж (CNN). CNN - це тип глибокої штучної
нейронної мережі прямого поширення. Згорткові нейронні мережі широко
використовуються для класифікації зображень [20].
В даний час CNN використовуються для задач обробки природної мови і
показують високу ефективність. Цей тип може бути використаний для роботи з
текстом і може бути використаний для його класифікації.
Архітектура згорткової нейронної мережі для класифікації тексту показана
на рисунку 3.3. 3.3.
Ця нейронна мережа була створена на мові Python з використанням
бібліотеки Keras Для створення нейронної мережі CNN в Keras необхідно
викликати функцію з наступними параметрами.
Спочатку набір висловлювань розбивається на навчальні та тестові
приклади. Потім виконується попередня обробка виразів: видаляються зайві
символи та пробіли і розбиваються на слова.
67
Рисунок 3.3 – Архітектура згорткової нейронної мережі
Оскільки нейронна мережа має справу з числовими даними, вона
використовує модель word2vec для представлення тексту у вигляді числового
вектора. Згенеровані числові вектори надсилаються до шару 1D згортки Conv1D,
де виконується процес згортки. Результат згортки надсилається до шару
підвизначення MaxPooling1D, де створюються підвибірки. Згенеровані
підвибірки потім подаються в повністю пов'язану нейронну структуру, яка
приймає рішення про класифікацію на основі ваг, присвоєних кожній ознаці в
тексті.
3.3 Експериментальна перевірка результату роботи системи
Перш ніж модель буде готова до навчання, нам потрібно вказати ще кілька
параметрів: функція втрат, оптимізатор, метрики. Вони додаються на етапі
compile моделі. Навчання моделі відбувається за допомогою методу model.fit,
котрий тренує модель на тренувальних даних.
68
Рисунок 3.4 – Навчання моделі
В процесі навчання моделі відображаються метрики втрати і точності.
Дана модель досягає на тренувальних даних досить високу точність (рис. 3.4).
Далі порівняно, яку точність модель показує на тестовому датасеті
(рис. 3.5.)
Рисунок 3.5 – Точність навчання та тестовому наборі даних
Для того, щоб отримати якомога більшу точність було проведено декілька
експериментів, під час яких відбувалася зміна параметрів нейронної мережі
(табл. 3.1).
69
Таблиця 3.1
Підбір параметрів нейронної мережі
К-ть
К-ть Регулізація К-ть Розмір Розмір К-ть
№ навчальних Точність
епох (lambda) фільтрів підвибірки ядра моделей
зразків
1 64 2 0.001 32 2 3 3 0.69
2 32 10 0.0001 32 2 3 3 0.75
3 64 20 0.0001 100 2 3 3 0.80
4 128 20 0.0001 32 2 3 3 0.83
5 128 30 0.0001 32 2 3 2 0.916
Вхідний набір даних необхідно розділити на декілька навчальних зразків.
Параметр «кількість навчальних зразків» – це загальна кількість тренувальних
об'єктів, представлених в одному пакеті. Параметр «к-ть епох» - це кількість
ітерацій навчального алгоритму по всій навчальній множині. Регулізація знижує
складність моделі, зберігши кількість її параметрів. Параметр «к-ть фільтрів»
відповідає за кількість ядр в згорткових шарах. В шарі субдискретизаціїї
параметр задає розмір підвибірки. За розмір ядра в згорткових шарах відповідає
параметр «розмір ядра». Параметр «к-ть моделей» вказує число моделей , котрі
будуть навчені за допомогою вхідної вибірки. Підібравши найбільш оптимальні
параметри проведено навчання мережі.
Над розробленим програмним продуктом проведено тестування, яке
складалося з наступних етапів:
− скрапінг перевірених акаунтів;
− аналіз вибірки акаунтів;
− перевірка результатів людським фактором.
Для тестування використовується модуль FАServer. Сервер запускається
на основі локального середовища (localhost) та з використанням порту 8181.
Запуск та зупинка скрапінгу зображені на рис. 3.6.
70
Рис. 3.6. Запуск та зупинка скрапінгу
Спочатку неперевірене повідомлення акаунта витягується з бази даних, за
допомогою REST API та записується до csv файлу (рис. 3.7).
Рис. 3.7. Файл csv з неперевіреною інформацією
Потім речення класифікуються за допомогою модуля аналізу тексту. Текст
розбивається на речення, і ці речення класифікуються за допомогою навченої
моделі.
Наприкінці процесу вилучення база даних розвінчаних фейкових акаунтів
містила 7837 записів. Процес вилучення зайняв три години, а перевірка вибірки
акаунтів - 12 хвилин. В середньому на аналіз одного акаунта йшло приблизно 1,2
секунди, тобто приблизно 43 акаунти аналізувалися за хвилину.
71
Рис. 3.8.Запит на аналіз інформації
Під час перевірки відбувається аналіз отриманого тексту з використанням
модулю FАTextAnalysis, формування токенів та пошук за токенами у базі з
використанням модулю FАSearch та прийняття рішення з використанням
модулю FАDecider. Запит є синхронним, триває близько 1,2 секунди (тривалість
лінійно залежить від розміру тексту), результатом запиту є статус – truth, якщо є
правдивим і відповідно false – якщо є фейком. Приклад такого запиту
зображений на рисунку 3.8.
Результат класифікації зберігається до бази даних. В таблиці з
повідомленнями вказується статус перевіреного твердження:
правдиве/неправдиве (рис. 3.9).
Рис. 3.9. Поля, де відображається статус повідомлення
Нейронна мережа перевіряє кожний акаунт та визначає % точності
классифікації. В базу даних заноситься точність класифікації кожного акаунта і
якщо воно неправдиве, його колір змінюється в залежності від % точності.
Відображається результат на сторінці адміністратора.
72
Таким чином, програма змогла правильно виявити 83% фейкових акаунтів.
Це позитивний результат, враховуючи, що алгоритм працює трохи більше
секунди, тоді як людині на перевірку одного акаунта знадобилися б години або
дні.
Що ще важливіше, оскільки завдання виявлення шахрайства є настільки
важливим у наш час, ці результати допомагають значно підвищити
продуктивність праці, оскільки кількість ручної роботи зменшується на 83%, і
цей показник зростає прямо пропорційно кількості записів у базі даних.
Висновки
У цьому розділі розглянуто реалізацію програмного продукту для
розпізнавання фейкових акаунтів в Інтернеті та проілюстровано вибір мови
програмування і технології, необхідних для вирішення поставленої задачі.
Мова програмування Python, NLP, технологія TF-IDF, бібліотека
BeautifulSoup, технологія швидкого пошуку ElasticSearch та фреймворк
нереляційних баз даних Django, а також буде обґрунтовано вибір алгоритму
відстані Левенштейна для розробки програмного забезпечення. Буде надано
короткий огляд та перераховано переваги кожної з них. Представлено основні
парадигми, використані при розробці проекту.
Надано детальний опис компонентів програмного забезпечення. Детально
описано модулі, тобто модулі, що відповідають за аналіз тексту, вилучення,
пошук, прийняття рішень та серверну обробку для представлення результатів.
Перераховано основні функціональні можливості, що надаються цими
модулями, методи їх реалізації та експлуатаційні вимоги.
Описано процес розробки алгоритмів збору даних, токенізації текстів на
основі обробки природної мови, обчислення різниці відстаней Левенштейна між
токенами різних текстів та обчислення індексу подібності TFIDF. Наведено
скрипти для запуску основних компонентів програми та покрокові коментарі для
взаємодії користувача з графічним інтерфейсом.
73
Метод було протестовано на вибірці з 500 рахунків. Результати показали,
що метод правильно виявив 83% підроблених акаунтів. При цьому час,
витрачений на обробку одного акаунта, становив від 1,7 до 57 секунд. Таким
чином, запропонований метод виявився ефективним у розпізнаванні підробок з
дуже високою точністю.
74
ВИСНОВКИ
Дана робота присвячена дослідженню процесів створення та поширення
фейків в соціальних мережах. В результаті виконання роботи отримані наступні
основні результати:
1. проведена формалізація опису соціальних мереж для спілкування,
представлені характеристики фейків, описана специфіка фейкової
інформації, виділені основні особливості її поширення в соціальних
мережах. Наведена класифікація фейків може служити основою для
формалізації подання фейків та їх врахування при побудові моделей
поширення фейкового контенту в соціальних мережах. Запропонована
модель знаходження ефективності контенту;
2. запропонована інтелектуальна модель поширення фейкового контенту,
що враховує особливості соціальних мереж. Ймовірності переходів для
запропонованої моделі можливо тримати методом опитування
користувачів соціальної мережі;
3. створено моделювання процесів поширення фейків на основі
розробленої моделі, проведено порівняння з існуючими моделями
поширення фейків. Досліджено порівняння способів поширення між
звичайними користувачами і за допомогою соціальних та пошукових
роботів.
В ході проведеної роботи досягнута поставлена мета: створено
інтелектуальна система розпізнавання та поширення фейкової інформації на
основі повідомлень, що враховує особливості роботи соціальних мереж
Продемонстровано роботу даної моделі в спеціалізованому програмному
забезпеченні. Інтелектуальні методи обробки більш трудомісткі за рахунок
величезної кількості кроків, але вони дозволяють отримати більш якісні вихідну
інформацію, ніж аналітичними методами. Також ці методи можливо
оптимізувати і це дуже збільшить швидкість обробки інформації.
75
Перспективні напрямки розвитку. Майбутні дослідження можуть
складатися у формуванні моделі обмеження та запобігання поширенню
фейкового контенту в соціальних мережах на основі запропонованих систем.
Зазначені перспективні напрямки розвитку показують високу актуальність
і необхідне вивчення тематики поширення фейкового контенту не тільки в
соціальних мережах, але і в інших сферах.
76
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Abbasi A. A stylometric approach toidentitylevel identification and similarity
detection in cyberspace // ACMTrans. Inf. Syst. – 2018. Vol. 26. No. 2. P. 7:1-
7:29
2. Adewole K.S. Malicious accounts: Dark of the social networks. // Journal of
network and computer applications: https://doi.org/1016/j.jnca.2019.11.030.
3. Adikari S. Identifying fake profiles in Linkedin // PACIS 2014 Proceedings.
Presented at the Pacific Asia Conference on Information Systems.
4. Andrzejewski D. Dirichlet allocation with topic-in-set knowledge // Proceedings
of the NAACL HLT 2019 Workshop on Semi-Supervised Learning for Natural
Language Processing. – SemiSupLearn’19. – Stroudsburg, PA, USA:
Association for Computational Linguistics, 2019. – P. 43-48.
5. Apishev M. Additive regularization for topic modeling in sociological studies of
user-generated text content // MICAI 2018, 15th Mexican international
conference on artificial intelligence. – Vol. 10061. – Springer, Lecture Notes in
Artificial Intelligence, 2018. – P. 166–181.
6. Apishev M. Mining ethnic content online with additively regularized topic
models // Computation Systems. – 2018. – Vol. 20, no. 3. – P. 387–403.
7. Avdoshin S. Deep web users deanonimization system. // Proceedings of the
Institute for System Programming of the RAS. – 2020. P. 21-34.
8. Bartunov Sergey. Joint link-attribute user identity resolution in online social
networks // The Sixth SIGKDD workshop on social network mining and analysis
(SNAKDD’20). – 2020. P. 23-34.
9. Blei D. M. The nested chinese restaurant process and bayesian nonparametric
inference of topic hierarchies // J. ACM. – 2019. – Vol. 57, no. 2. – P. 7:1-7:30
10. Blei D. Modeling annotated data // Proceedings of the 26th annual international
acm sigir conference on research and development in informaion retrieval. –
New York, NY, USA: ACM, 2018. – P. 127-134.
77
11. Boshmaf Y. Leveraging victim prediction for robust fake account detection in
large scale OSNs. Comput. Secur. – 2019. P. 142–168.
12. Brin S. The anatomy of a large-scale hypertextual Web search engine //
Computer Networks and ISDN Systems, 2019. – Р. 107-117.
13. Cahyono S.C. Comparison of document similarity measurements in scientific
writing using Jaro-Winkler Distance method and Paragraph Vector method
[Електронний ресурс] / S. C. Cahyono. – 2019. [Електронний ресурс] –
Режим доступу до ресурсу:
https://www.researchgate.net/publication/337401647_Comparison_of_do
cument_similarity_measurements_in_scientific_writing_using_JaroWinkler_D
istance_method_and_Paragraph_Vector_method (дата звернення:
11.09.2022).
14. Cao Y. Real-time traffic information collecting and monitoring system based on
the internet of things. // 6th International Conference on Pervasive Computing
and Applications. – 2019. P. 45-49.
15. Cataldi M. Emerging topic detection on twitter based on temporal and social
terms evaluation // Tenth International Workshop on Multimedia Data Mining–
2019. – P. 438-446.
16. Chu Z. Who is Tweeting on Twitter: Human, Bot, or Cyborg? // 26th Annual
Computer Security Applications Conference, ACSAC’16. ACM, NewYork,
NY, USA, 2020. – P. 21-30.
17. Co-Inform: Co-Creating misinformation-resilient societies / T. Farrell,
M. Mensio, Gr. Burel, L. Piccolo, H. Alani. – 2018. – P. 58
18. Conceptual Modeling for Data Integration / D. Calvaneseet al. Conceptual
Modeling: Foundations and Applications. Lecture Notes in Computer Science,
V. 5600. Berlin, 2019. – P. 173-197.
19. Connaway L. Data Mining, Advanced Collection Analysis and Publisher
Profiles: An Update on the OCLC Publisher Name Authority File. XXVIII
Annual Charleston Conference. [Електронний ресурс] – Режим доступу до
78
ресурсу: http://www.oclc.org/research/presentations/charleston2018.ppt. (дата
звернення: 05.10.2022)
20. Connaway L., Dickey. T. Publisher Names in Bibliographic Data: An
Experimental Authority File and a Prototype Application, Library Resources and
Technical Services. OCLC. [Електронний ресурс] – Режим доступу до
ресурсу: https://www.oclc.org/content/dam/research/publications/connaway-
lrts.pdf. (дата звернення: 05.09.2022)
21. Conti M. Fakebook: Detecting fake profiles in on-line social networks. //
Proceedings 2021 international conference on advances in social networks
analysis and mining (ASONAM 2021): 1071–1078.
22. Davydov L. On the use of social networks as a tool for creating political
authority’s image. // International journal of environmental & science education,
11(18): 12423–12430.
23. DBLP [Електронний ресурс] – Режим доступу до ресурсу: https://dblp.org/
– (дата звернення: 15.09.2022).
24. Delip Rao. Classifying latent user attributes in Twitter // 2nd International
workshop on search and mining user-generated contents. – 2019. P. 13-24.
25. Egele M. Towards detecting compromised accounts on social networks. // IEEE
Trans. Dependable Secure Comput. PP, 1-1. – 2019. P. 142-153.
26. Frost R. Parser Combinators for Ambiguous Left-Recursive Grammars. // 10th
International Symposium on Practical Aspects of Declarative Languages
(PADL), ACM-SIGPLAN, Volume 4902/2018, Pages:, January 2018, San
Francisco. – Р. 167-181.
27. George Pallis. Online social networks: status and trends. new directions // Web
data management studies in computational intelligence. Volume 331, 2019,
P. 213-234.
28. Gjoka M. Practical recommendations on crawling online social networks //
Selected in Communications, IEEE Journal on. – 2021. №. 9. С. 1872-1892.
29. Grune D. Parsing Techniques – A Practical Guide / D. Grune, C. Jacobs. –
Chichester: Originally published by Ellis Horwood, 2020. – 320 р.
79
30. Gundecha U. Selenium WebDriver 3 Practical Guide: End-to-end automation
testing for web and mobile browsers with Selenium WebDriver / U. Gundecha,
S. Avasarala. – 2020. – 280 р.
31. Hahn J. Publisher References in Bibliographic Entity Descriptions. Association
for Information Science and Technology, №58. 2021. – P.461-465.
32. Heydt M. Python Web Scraping Cookbook / Michael Heydt. – 2018. – 364 р.
33. Hriaziuk V.O. Use of statistical methods for the analysis of international activity
// Матеріали ХІХ Міжнародної науково-практичної конференції молодих
вчених і студентів «Сучасні проблеми наукового забезпечення
енергетики» – м. Київ.: «КПІ ім. Ігоря Сікорського», 20-23 квітня 2021 р. –
С. 249-250.
34. Jihyun K. Exposing Standardization and Consistency Issues in Repository
Metadata Requirements for Data Deposition. College & Research Libraries
Journal, V. 80: №6. 2019. PР. 843-875.
35. Kogalovsky M.R. Refinement of the Synthesis language specification by the
ODMG semantics. INTAS-94-1817 Project Report, IPI RAS, 2018.
36. Le Hoi. De-anonymization of single Tweet messages. 8-14, 2018. DOI:
10.1145/3180445.3180451
37. Markines B. Social spamdetection // Proceedings of the 5th International
Workshopon Adversarial Information Retrieval on the Web.ACM, 2019. –
P. 41-48.
38. Natural Language Toolkit (NLTK) [Електронний ресурс] – режим доступу
до ресурсу: https://www.nltk.org/book/ch00.html. – (дата звернення:
20.10.2023).
39. Natural Language Toolkit (NLTK) [Електронний ресурс] – Режим доступу
до ресурсу: https://www.nltk.org/book/ch00.html. (дата звернення:
20.09.2022).
40. Petrenko M. Detection and research of system anomalies in the ISBN field of
bibliographic databases and methods of minimizing their negative impact.
«Danish Scientific Journal» (DSJ) Kobenhavn. Denmark, 2021. V. 53, P. 78- 80.
80
41. Shaikh M. Extended approximate string matching algorithms to detect name
aliases // IEEE International Conference on Intelligence and Security
Informatics. – 2017. P. 216 -219.
42. Song J. Crowd Target: Target-based detection of crowdturfing in online social
networks // Proceedings of the 22Nd ACM SIGSAC Conference on Computer
and Communications Security, CCS’22. ACM, NewYork, NY, USA. P. 793-
804.
43. Srijan Kumar. Antisocial behavior on the web: characterization and detection. //
26th International Conference on World Wide Web Companion. – 2019. –
P. 947-950.
44. Stamatatos E. A survey of modern authorship attribution methods // Journal of
the American Society for Information Science and Technology. – 2019. Vol. 60.
No. 3. P. 538-556.
45. Stringhini G. Detecting spammers on social networks // Proceedings of the 26th
Annual Computer Security Applications Conference, ACSAC’19. ACM, New
York, NY, USA, 2019. P. 1–9.
46. Zheng R.A framework for authorship identification of online messages: Writing-
style features and classification techniques // J. Am. Soc. Inf. Sci. Technol. –
2019. Vol. 57. No. 3. – P. 378-393.
47. Zuo Y. Word network topic model: A simple but general solution for short and
imbalanced texts // Knowledge and information systems. – 2019. – Vol. 48,
no. 2. – P. 379-398.
48. Аналіз тональності тексту: веб-сайт. URL: https://uk.wikipedia.org/wiki/
Аналіз_тональності_тексту – (дата звернення: 18.10.2023).
49. Згорткова нейронна мережа: URL: https://uk.wikipedia.org/wiki/
Згорткова_нейронна_мережа – (дата звернення: 25.10.2023).