Управління стартапом створення онлайн-сервісу генерації синтетичних даних на базі нейронних мереж

Шулаков, Володимир Володимирович
Please use this identifier to cite or link to this item: https://er.chdtu.edu.ua/handle/ChSTU/6049
Title:	Управління стартапом створення онлайн-сервісу генерації синтетичних даних на базі нейронних мереж
Authors:	Триус, Юрій Васильович Шулаков, Володимир Володимирович
Keywords:	ГЕНЕРАЦІЯ СИНТЕТИЧНИХ ДАНИХ,;ОНЛАЙН-СЕРВІС,;СТАРТАП,;НЕЙРОННІ МЕРЕЖІ,;RUST,;KOTLIN,;PYTHON.
Issue Date:	11-Dec-2024
Abstract:	Актуальність проблеми збереження конфіденційності інформації сьогодні продовжує зростати. Оскільки багато реальних даних, зокрема табличних, які можуть бути використані для моделювання інформаційних і фізичних процесів, є конфіденційними, їх застосування ускладняється. Важливі дані, необхідні для прикладного моделювання фізичних систем, для діагностики у медицині, та дані з інших сфер діяльності людини не можуть бути оприлюднені для широкого кола користувачів цих даних. Для вирішення проблеми збереження конфіденційності інформації з одного боку, і для надання можливості використовувати важливу інформацію для дослідження, з іншого боку, пропонується створити власний стартап. Метою роботи є створення стартапу онлайн сервісу генерації синтетичних даних на базі нейронних мереж, що дозволяє синтезувати дані дуже високої якості та досить швидко. Об’єкт дослідження: процес управління стартапом створення онлайн-сервісу синтезу синтетичних даних. Предмет дослідження: стартап створення онлайн-сервісу генерації синтетичних даних. Методи дослідження: аналіз літератури щодо проблеми дослідження, моделювання бізнес-процесів, методи навчання штучних нейронних мереж та методи генерації синтетичних даних, методи розробки веб-сайтів. Апробація результатів роботи. Роботу було апробовано: на III Всеукраїнській науково-практичній конференції з міжнародною участю «Актуальні завдання медичної, біологічної фізики та інформатики» (Вінниця, 5-6 квітня 2024 р.); на Днях студентської науки ЧДТУ-2024 (Черкаси, 23-24 квітня 2024 р.), за результатами якої було отримано почесну грамоту за І місце по секції «Комп’ютерні науки та системний аналіз». Результати кваліфікаційної роботи магістра опубліковано у: 1) збірнику тез доповідей студентської науково-практичної конференції ЧДТУ: Шулаков В.В., Триус Ю.В. Генерація синтетичних даних на основі нейронних мереж в режимі розподіленої системи [Електронний ресурс]: Збірник тез доповідей студентської науково-практичної конференції ЧДТУ: 23–24 квітня 2024 р. [Електронний ресурс] / [упоряд. : Єгорова О. В., Захарова О. В., Тичков В. В. та ін.]; М-во освіти і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2024. С. 39; 2) матеріалах IIІ всеукраїнської науково-практичної конференції з міжнародною участю «Актуальні завдання медичної, біологічної фізики та інформатики»: Шулаков В., Сіньковський А., Триус Ю. Розподілена система генерування синтетичних медичних даних // Актуальні завдання медичної, біологічної фізики та інформатики. Матеріали доповідей та виступів ІІІ всеукраїнської науково-практичної конференції з міжнародною участю 5-6 квітня 2024 року Вінниця. Вінниця: Едельвейс. С. 29-33; 3) на платформі arXiv.org: Shulakov Volodymyr. High-Quality Tabular Data Generation using Post-Selected VAE. arXiv.org. URL: https://doi.org/10.48550/ arXiv.2407.13016 (дата звернення: 06.11.2024).
URI:	https://er.chdtu.edu.ua/handle/ChSTU/6049
Appears in Collections:	122 Комп’ютерні науки (Управління стартапами і проектами в галузі інформаційних технологій)
Files in This Item:
File	Description	Size	Format
Пояснювальна записка_Кваліфікаційна робота магістра_Шулаков Володимир_МСТП-2302_2024.pdf Restricted Access		9.74 MB	Adobe PDF	View/Open Request a copy
Show full item record
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ 
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ 
 
Факультет інформаційних технологій і систем 
 
Кафедра комп’ютерних наук та системного аналізу 
 
 
 
 
 
 
 
Пояснювальна записка 
до кваліфікаційної роботи 
                                           магістра       
 (освітній рівень) 
 
на тему: «Управління стартапом створення онлайн-сервісу генерації 
синтетичних даних на базі нейронних мереж» 
 
 
 
Виконав: студент 2 курсу, групи МСТП-2302 
  
спеціальності 122 – «Комп’ютерні науки» 
                                                             (шифр і назва спеціальності) 
 
Освітня програма «Управління стартапами  
                                                                (назва освітньої програми) 
і проєктами в галузі інформаційних технологій» 
 
Шулаков Володимир Володимирович 
 
Керівник                               Триус Ю.В.  
                                                     (прізвище та ініціали) 
 
Рецензент                             Богатирьов О.О.  
                                               (прізвище та ініціали) 
 
 
 
 
 
 
Черкаси 2024 року 
  
 
 
Бланк завдання на кваліфікаційну роботу магістра студенту 
 
Черкаський державний технологічний університет 
Факультет Інформаційних технологій і систем 
Кафедра Комп’ютерних наук та системного аналізу 
Освітньо-кваліфікаційний рівень Магістр 
Спеціальність 122 – комп’ютерні науки  
Освітня програма Управління стартапами і проєктами в галузі інформаційних технологій                                                                                                                             
 
 
ЗАТВЕРДЖУЮ 
Завідувач кафедри КНСА  
_______________ Юрій ТРИУС 
«____» _____________ 2024 р. 
 
 
ЗАВДАННЯ 
на кваліфікаційну роботу магістра студенту 
Шулакову Володимиру Володимировичу 
(прізвище, ім’я, по батькові) 
1. Тема роботи «Управління стартапом створення онлайн-сервісу генерації 
синтетичних даних на базі нейронних мереж» 
Керівник роботи.   Триус Ю.В., д.п.н., к.ф.-м.н., професор 
(прізвище, ім’я, по батькові, науковий ступінь, вчене звання) 
 
затверджені наказом університету від «07» жовтня 2024 р. №299/04. 
 
2. Строк подання студентом роботи  «10» грудня 2024 року  
3. Вихідні дані до роботи:  
Матеріали III всеукраїнської науково-практичної конференції з міжнародною участю 
«Актуальні завдання медичної, біологічної фізики та інформатики», 5-6 квітня 2024 року Вінниця. 
4. Зміст пояснювальної записки (перелік питань, що їх належить розробити): 
Вступ 
4.1. Аналіз предметної області у сфері синтетичних даних. 
4.2. Концепція онлайн-сервісу генерації синтетичних даних. 
4.3. Планування стартапу онлайн-сервісу генерації синтетичних даних. 
4.4. Практичні напрацювання стартапу онлайн-сервісу генерації синтетичних даних. 
Висновки.  
 5. Перелік додатків (з точним зазначенням назв додатків): 
 5.1. Додаток А. Специфікація 482.ЧДТУ.42308-01. 
15 ..2 І.н Дстордуактцоікя  Бк.о Прирсотгурваамчнаи й код сайту стартапу. 
5.3. Додаток В. Публікація результатів дослідження. 
 
  
 
 
 6. Консультанти розділів роботи 
Розділ Прізвище, ініціали та Підпис, дата 
посада 
консультанта завдання видав завдання прийняв 
Розділ 4. Практичні Сіньковський А.П.,   
напрацювання стартапу асистент кафедри 
онлайн-сервісу комп’ютерних наук та 
генерації синтетичних системного аналізу 
даних 
    
 
7. Дата видачі завдання 02.09.2024 р. 
  
 
КАЛЕНДАРНИЙ ПЛАН 
№ з/п Назва етапів кваліфікаційної роботи магістра Строк виконання 
етапів роботи Примітка 
1 Видача завдання на кваліфікаційну роботу магістра. до 10.10.2024  
2 Аналіз літературних джерел, об’єкту та предмету 
дослідження. до 20.10.2024  
3 Написання теоретичного розділу кваліфікаційної 
роботи магістра. до 30.10.2024  
4 Написання аналітичного розділу (аналіз об’єкту й 
предмету дослідження). до 10.11.2024  
5 Написання практичних розділів й висновків по роботі. до 20.11.2024  
6 Передзахист кваліфікаційної роботи магістра на 
засіданні випускової кафедри. 28.11.2024  
7 Подання роботи завідувачу кафедри КНСА. до 01.12.2024  
8 Захист кваліфікаційної роботи магістра. 11.12.2024  
 
 
Студент                                   _____________________________    Шулаков В.В. 
  (підпис)                                                                     
 
Керівник роботи                     ____________________________     Триус Ю.В. 
                                           (підпис)                                                                    
  
 
 
РЕФЕРАТ 
Кваліфікаційна робота магістра містить: 87 с., 25 рис., 7 таблиць, 34 
використаних джерела, 3 додатки. 
Актуальність теми.  Актуальність проблеми збереження конфіденційності 
інформації сьогодні продовжує зростати. Оскільки багато реальних даних, зокрема 
табличних, які можуть бути використані для моделювання інформаційних і фізичних 
процесів, є конфіденційними, їх застосування ускладняється. Важливі дані, необхідні 
для прикладного моделювання фізичних систем, для діагностики у медицині, та дані 
з інших сфер діяльності людини не можуть бути оприлюднені для широкого кола 
користувачів цих даних. Для вирішення проблеми збереження конфіденційності 
інформації з одного боку, і для надання можливості використовувати важливу 
інформацію для дослідження, з іншого боку, пропонується створити власний стартап. 
Метою роботи є створення стартапу онлайн сервісу генерації синтетичних 
даних на базі нейронних мереж, що дозволяє синтезувати дані дуже високої якості та 
досить швидко. 
Завдання кваліфікаційної роботи магістра: 
– провести аналіз проблеми генерації синтетичних даних; 
– провести огляд ринку існуючих SaaS-систем синтезу табличних даних; 
– розробити концепцію онлайн-системи генерації синтетичних даних; 
– спланувати ключові аспекти стартапу; 
– проаналізувати існуючі алгоритми генерації синтетичних даних та провести 
дослідження по створенню SOTA-алгоритму синтезу даних, що перевершує 
більшість існуючих алгоритмів станом на 2024 рік; 
– реалізувати веб-сайт для інвесторів для демонстрації можливостей нового 
алгоритму генерації синтетичних даних. 
Об’єкт дослідження: процес управління стартапом створення онлайн-сервісу 
синтезу синтетичних даних. 
Предмет дослідження: стартап створення онлайн-сервісу генерації 
синтетичних даних.  
 
 
Методи дослідження: аналіз літератури щодо проблеми дослідження, 
моделювання бізнес-процесів, методи навчання штучних нейронних мереж та методи 
генерації синтетичних даних, методи розробки веб-сайтів. 
Апробація результатів роботи. Роботу було апробовано: на III Всеукраїнській 
науково-практичній конференції з міжнародною участю «Актуальні завдання 
медичної, біологічної фізики та інформатики» (Вінниця, 5-6 квітня 2024 р.); на Днях 
студентської науки ЧДТУ-2024 (Черкаси, 23-24 квітня 2024 р.), за результатами якої 
було отримано почесну грамоту за І місце по секції «Комп’ютерні науки та системний 
аналіз».  
Публікації. Результати кваліфікаційної роботи магістра опубліковано у: 
1) збірнику тез доповідей студентської науково-практичної конференції 
ЧДТУ: Шулаков В.В., Триус Ю.В. Генерація синтетичних даних на основі нейронних 
мереж в режимі розподіленої системи [Електронний ресурс]: Збірник тез доповідей 
студентської науково-практичної конференції ЧДТУ: 23–24 квітня 2024 р. 
[Електронний ресурс] / [упоряд. : Єгорова О. В., Захарова О. В., Тичков В. В. та ін.]; 
М-во освіти і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2024. С. 39; 
2) матеріалах IIІ всеукраїнської науково-практичної конференції з 
міжнародною участю «Актуальні завдання медичної, біологічної фізики та 
інформатики»: Шулаков В., Сіньковський А., Триус Ю. Розподілена система 
генерування синтетичних медичних даних // Актуальні завдання медичної, 
біологічної фізики та інформатики. Матеріали доповідей та виступів ІІІ 
всеукраїнської науково-практичної конференції з міжнародною участю 5-6 квітня 
2024 року Вінниця. Вінниця: Едельвейс. С. 29-33; 
3) на платформі arXiv.org: Shulakov Volodymyr. High-Quality Tabular Data 
Generation using Post-Selected VAE. arXiv.org. URL: https://doi.org/10.48550/ 
arXiv.2407.13016 (дата звернення: 06.11.2024). 
Ключові слова: ГЕНЕРАЦІЯ СИНТЕТИЧНИХ ДАНИХ, ОНЛАЙН-СЕРВІС, 
СТАРТАП, НЕЙРОННІ МЕРЕЖІ, RUST, KOTLIN, PYTHON. 
  
 
 
ABSTRACT 
Master’s thesis contains: 87 pages, 25 figures, 7 tables, 34 sources used, 3 
attachments. 
Relevance of the topic. The importance of the problem of maintaining information 
confidentiality continues to grow today. Since much of the real data, including tabular data, 
which can be used for modeling information and physical processes, is confidential, its 
application is complicated. Important data needed for applied modeling of physical systems, 
for diagnostics in medicine, and data from other areas of human activity cannot be disclosed 
to a wide range of users of these data. To address the problem of maintaining information 
confidentiality on one hand, and to provide the opportunity to use important information for 
research on the other hand, it is proposed to create a personal startup. 
Purpose of the study. The goal of the work is to create a startup for an online service 
that generates synthetic data using neural networks, which allows for the synthesis of very 
high-quality data, quickly and cheaply. 
Tasks of the master’s thesis: 
– conduct an analysis of the problem of generating synthetic data; 
– conduct a review of the market for existing SaaS systems for synthesizing tabular 
data; 
– create a concept of an online system for generating synthetic data; 
– plan key aspects of the startup; 
– analyze existing algorithms for generating synthetic data and conduct research to 
create a state-of-the-art (SOTA) data synthesis algorithm that outperforms most existing 
systems as of 2024; 
– implement a website for investors to show the capabilities of the new synthetic data 
generation algorithm. 
The object of research: the process of managing a startup for creating an online 
service for synthesizing synthetic data. 
The subject of research: a startup for creating an online service for synthetic data 
generation. 
 
 
Research methods: analysis of the literature on the research problem, business 
process modeling, methods of machine learning and methods of synthetic data generation, 
methods for developing websites. 
Approval of the results of work: the work was approved: at the III All-Ukrainian 
Scientific and Practical Conference with International Participation «Current Issues of 
Medical, Biological Physics and Informatics» (Vinnytsya, April 5-6, 2024); at the Student 
Science Days of the Cherkasy State Technical University-2024 (Cherkasy, April 23-24, 
2024), which resulted in an honorary certificate for the first place in the section «Computer 
Science and Systems Analysis». 
Publications. The results of the master’s thesis were published in: 
1) conference proceedings of the scientific and practical student conference of the 
ChSTU: Shulakov V., Tryus Yu. Generation of synthetic data based on neural networks in 
a distributed system mode [Electronic resource]: conference proceedings of the scientific-
practical student conference of the ChSTU: April 23-24, 2024 / [compiled by Egorova O.V., 
Zakharova O.V., Tyshkov V.V., et al]: Ministry of Education and Science of Ukraine, 
Cherkassy State Technology University. Cherkasy: ChSTU, 2024. P. 39; 
2) the materials of the III All-Ukrainian Scientific and Practical Conference with 
international participation «Current Problems of Medical, Biological Physics and 
Informatics»: Shulakov V., Sinkovskyi A., Tryus Yu. Distributed system for generating 
synthetic medical data [Electronic resource]: Current issues of medical, biological physics 
and informatics: materials of the III All-Ukrainian scientific and practical conference with 
international participation (Vinnytsya, April 5-6, 2024) Vinnytsya. – Vinnytsya: Edelweiss. 
P. 76-82. 
3) On the arXiv.org platform: Shulakov V. High-Quality Tabular Data Generation 
using Post-Selected VAE. arXiv.org. URL: https://doi.org/10.48550/arXiv.2407.13016 
(accessed: November 6, 2024). 
Keywords: SYNTHETIC DATA GENERATION, ONLINE SERVICE, STARTUP, 
NEURAL NETWORKS, RUST, KOTLIN, PYTHON. 
 
 8 
 
ЗМІСТ 
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, СКОРОЧЕНЬ І ТЕРМІНІВ ...... 10 
ВСТУП ............................................................................................................................... 11 
1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ У СФЕРІ СИНТЕТИЧНИХ ДАНИХ ............ 14 
1.1 Дослідження потреб ринку .................................................................................. 14 
1.2 Проблеми створення синтетичних даних ........................................................... 15 
1.3 Існуючі системи та методи синтезу даних ......................................................... 16 
1.3.1 Методи на базі байєсових мереж: CLBN, PrivBN ..................................... 16 
1.3.2 Нейромережі TVAE, CTGAN, OCTGAN ................................................... 18 
1.3.3 Системи tonic.ai, mostly.ai, syntho.ai ........................................................... 20 
1.4 Постановка задачі ................................................................................................. 23 
Висновки до розділу 1 .................................................................................................. 24 
2 КОНЦЕПЦІЯ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ СИНТЕТИЧНИХ ДАНИХ ...... 26 
2.1 Зацікавлені сторони та їх вплив на стартап ....................................................... 26 
2.1.1 Визначення вимог до стартапу .................................................................... 30 
2.1.2 Планування та контроль ............................................................................... 32 
2.2 Цілі та місія стартапу ........................................................................................... 32 
2.3 Життєвий цикл стартапу ...................................................................................... 35 
Висновки до розділу 2 .................................................................................................. 36 
3 ПЛАНУВАННЯ СТАРТАПУ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ СИНТЕТИЧНИХ 
ДАНИХ .............................................................................................................................. 38 
3.1 Планування змісту стартапу ................................................................................ 38 
3.2 Планування ресурсів та бюджету стартапу ....................................................... 41 
3.3 Виявлення ризиків стартапу ................................................................................ 44 
3.4 Планування якості стартапу ................................................................................ 47 
Висновки до розділу 3 .................................................................................................. 49 
4 ПРАКТИЧНІ НАПРАЦЮВАННЯ СТАРТАПУ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ 
СИНТЕТИЧНИХ ДАНИХ ............................................................................................... 51 
4.1 Удосконалення алгоритму генерації синтетичних даних ................................. 51 
 9 
 
4.2 Створення веб-сайту стартапу ............................................................................. 61 
Висновки до розділу 4 .................................................................................................. 69 
ВИСНОВКИ ...................................................................................................................... 71 
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ......................................................................... 72 
ДОДАТОК А Специфікація 482.ЧДТУ.42308-01 .......................................................... 75 
ДОДАТОК Б Програмний код сайту стартапу .............................................................. 77 
ДОДАТОК В Публікація результатів дослідження ....................................................... 82 
 
  
 10 
 
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, СКОРОЧЕНЬ І ТЕРМІНІВ 
СГСД – система генерації синтетичних даних; 
SaaS – Software as a Service; 
SOTA – State of the Art. 
  
 11 
 
ВСТУП 
Актуальність проблеми збереження конфіденційності інформації сьогодні 
продовжує зростати. Оскільки багато реальних даних, зокрема табличних, які можуть 
бути використані для моделювання інформаційних і фізичних процесів, є 
конфіденційними, їх застосування ускладняється. Важливі дані, необхідні для 
прикладного моделювання фізичних систем, для діагностики у медицині, для 
прогнозування економічних процесів, та дані з інших сфер діяльності людини не 
можуть бути оприлюднені для широкого кола користувачів цих даних. В результаті, 
отримати доступ до реальних даних для розробки різних інформаційних систем стає 
дедалі важче. Зокрема, для створення моделі оцінки ризику банкрутства підприємства 
необхідно мати реальні дані для навчання штучного інтелекту, якщо мова йде про 
нейромережі. Однак, на даний момент ці дані не можуть бути використані 
безпосередньо через питання конфіденційності.  
Одним із рішень цієї проблеми є використання синтетичних даних, які 
генеруються на основі реальних, але відповідають статистичним характеристикам 
справжніх даних, не відтворюючи їх значень. Таким чином, можна зберегти 
конфіденційність оригінальних даних. 
Розробка і використання систем генерації синтетичних даних (СГСД) для 
створення статистично точних, але з іншими значеннями даних, є актуальною 
науково-практичною проблемою. 
Онлайн-системи генерації синтетичних даних є програмним забезпеченням у 
моделі SaaS, яке створює нові дані шляхом імітації існуючих. Такі дані можуть бути 
використані для різних цілей, зокрема для тестування та валідації алгоритмів 
машинного навчання, розробки імітаційних моделей, аналізу статистичних 
характеристик та багато іншого. Застосування систем для генерації синтетичних 
даних дозволяє отримувати інформацію, не вдаючись до використання реальних 
даних. 
Синтетичні дані також створюються для задоволення специфічних вимог або 
умов, яких немає в первинних даних. Це може бути корисно при розробці різних 
 12 
 
систем, оскільки синтетичні дані можуть слугувати для моделювання або 
представляти теоретичні значення та ситуації. Завдяки цьому можна врахувати 
непередбачувані результати і мати початкове рішення або інструмент на випадок, 
якщо результати виявляться незадовільними. 
Сьогодні світова економіка працює у ринкових умовах. Це надає можливість 
створити власні компанії, відкривати свій бізнес та заробляти кошти, причому 
надаючи клієнтам кращу пропозицію ніж у конкурентів. 
У даний час активно проводяться дослідження в області генерації синтетичних 
даних. Яскравим прикладом цього є розробка систем CTGAN і TVAE у 2019 році [1], 
які перевершили традиційні методи генерації даних без застосування штучного 
інтелекту. У 2022 році з’явилася система OCT-GAN, заснована на нейронних 
диференціальних рівняннях, яка виявилася продуктивнішою за TVAE та інші 
системи. Проте перевага була незначною, а складність OCT-GAN зросла в кілька разів 
у порівнянні з попередніми моделями [2]. 
Метою роботи є створення стартапу онлайн сервісу генерації синтетичних 
даних на базі нейронних мереж, що дозволяє синтезувати дані дуже високої якості та 
досить швидко. 
Завдання кваліфікаційної роботи магістра: 
– провести аналіз проблеми генерації синтетичних даних, 
– провести огляд ринку існуючих SaaS-систем синтезу табличних даних; 
– розробити концепцію онлайн-системи генерації синтетичних даних; 
– спланувати ключові аспекти стартапу; 
– проаналізувати існуючі алгоритми генерації синтетичних даних та провести 
дослідження по створенню SOTA-алгоритму синтезу даних, що перевершує 
більшість існуючих алгоритмів станом на 2024 рік; 
– реалізувати веб-сайт для інвесторів для демонстрації можливостей нового 
алгоритму генерації синтетичних даних. 
Об’єкт дослідження: процес управління стартапом створення онлайн-сервісу 
синтезу синтетичних даних. 
 13 
 
Предмет дослідження: стартап створення онлайн-сервісу генерації 
синтетичних даних.  
Методи дослідження: аналіз літератури щодо проблеми дослідження, 
моделювання бізнес-процесів, методи навчання штучних нейронних мереж, методи 
генерації синтетичних даних, методи розробки веб-сайтів. 
У першу чергу, у роботі представлено розробку стартапу у формі SaaS-сервісу 
для генерування синтетичних даних, що використовує новітні розробки у сфері 
нейронних мереж, а саме самостійно розроблену модель синтезу даних «PSVAE». 
Алгоритм реалізовано як динамічну бібліотеку мовою програмування Rust, до якої 
можна звертатись з будь-якої іншої мови через C ABI (application binary interface). 
Крім цього, створено веб-сайт для зацікавлення інвесторів у стартапі для подальшого 
фінансування та створення реальної компанії. 
Для створення СГСД застосовано сучасні мови програмування та технології: 
Rust, TypeScript, Pytorch та Angular. Ці технології забезпечують високу 
продуктивність, розширюваність і перспективи подальшого використання 
розробленої системи. 
Розроблений веб-сайт доступний за адресою https://synzetic.com. 
  
 14 
 
1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ У СФЕРІ СИНТЕТИЧНИХ ДАНИХ 
1.1 Дослідження потреб ринку 
Синтетичні дані сьогодні потрібні у багатьох сферах: 
– IT-компанії потребують синтетичних даних для тестування та розвитку своїх 
продуктів без ризику порушення конфіденційності. Синтетичні дані 
використовуються для моделювання ситуацій, які важко відтворити на реальних 
даних. 
– Страхові компанії використовують синтетичні дані для створення 
аналітичних моделей, які допомагають у прийнятті рішень щодо надання послуг, 
враховуючи різноманітні фактори ризику. 
– У медичній сфері синтетичні дані можуть служити для досліджень, де доступ 
до реальних даних обмежений через етичні або правові причини. Вони можуть бути 
використані для моделювання епідемій, тестування нових терапій або аналізу впливу 
факторів ризику. 
Існує декілька типів синтетичних даних: 
– візуальні (зображення, відео); 
– аудіо (підробка голосу); 
– текстові (природна мова або кількісні та якісні дані у вигляді таблиць). 
В даній роботі розглядаються саме табличні дані, а саме неперервні (кількісні) 
і дискретні (якісні). 
Синтетичні дані, або фейкові дані, – це штучно створена інформація, що не 
базується на фактичних подіях. Здебільшого такі дані генеруються алгоритмами і 
знаходять застосування у тестуванні математичних моделей чи навчанні моделей 
машинного навчання. Наприклад, дані, отримані через комп'ютерне моделювання, 
також є синтетичними. Це стосується різних типів фізичного моделювання, зокрема 
авіасимуляторів, де вихідні дані максимально наближені до реальних, але все ж 
створені алгоритмами. Синтетичні дані широко використовуються у різних сферах, 
зокрема для захисту конфіденційної інформації, яку складно або неможливо розкрити 
 15 
 
без ризику порушення приватності. У випадках, коли важлива інформація недоступна 
для загального користування, синтетичні дані стають альтернативою, оскільки 
дозволяють уникнути загроз конфіденційності, пов'язаних із доступом до реальних 
даних споживачів без їхньої згоди чи винагороди [3]. 
Табличні дані можна розглядати як набір випадкових змінних, що мають 
невідомі закономірності. Зазвичай такі дані структуровані у форматі стовпців, де 
кожен стовпець містить або дискретні, або неперервні значення. Дискретні дані 
представлені категоріями, наприклад, стать з варіантами «чоловіча», «жіноча» або 
«інша». Неперервні ж дані – це числові значення, як-от вік чи дохід. Для дискретних 
даних іноді замість текстових значень використовуються цілі числа, наприклад, 1 для 
першої категорії, 2 для другої і так далі. Важливо відрізняти ці категоричні числові 
значення від неперервних даних. 
Слід окреслити основні потреби ринку, які будуть задоволені завдяки 
створенню онлайн-сервісу генерації синтетичних даних: 
– потреба у захисті конфіденційної інформації є однією з основних – 
синтетичні дані дозволяють компаніям ділитися інформацією без ризику для 
приватності; 
– необхідність у високоякісних синтетичних даних, що точно відображають 
реальні статистичні закономірності, дозволяє покращити моделі машинного 
навчання; 
– зростаюча потреба у швидкому отриманні даних для тестування і створення 
презентацій змушує компанії шукати ефективні рішення, здатні згенерувати дані в 
короткі терміни за секунди. 
1.2 Проблеми створення синтетичних даних 
Генерація даних для однієї змінної зазвичай не становить великої складності, 
оскільки для цього достатньо базових алгоритмів. Однак, коли таблиця містить багато 
змінних (стовпців), прості методи вже не працюють, адже між численними 
випадковими величинами майже завжди існують умовні ймовірності. 
 16 
 
По-перше, реалістичні табличні дані можуть містити як дискретні, так і 
неперервні значення, і ці два типи не слід змішувати.   
По-друге, дані можуть слідувати різним ймовірнісним розподілам. Наприклад, 
певна категорія в дискретних даних може домінувати з імовірністю понад 95%. 
Генератор даних має вміти розпізнавати менш поширені категорії та створювати 
записи, де також присутні ці 5% рідкісних значень. 
Ці аспекти необхідно враховувати при розробці СГСД. 
1.3 Існуючі системи та методи синтезу даних 
На даний момент доступні кілька платформ та чимало алгоритмів для створення 
синтетичних даних, кожен з яких має свої сильні та слабкі сторони. Це породжує 
питання про можливість створення системи для генерації синтетичних даних, яка б 
забезпечувала оптимальний баланс між різними вимогами. 
1.3.1 Методи на базі байєсових мереж: CLBN, PrivBN 
Байєсова мережа є ймовірнісною графовою моделлю, яка належить до класу 
статистичних моделей і описує набір випадкових змінних разом з їхніми умовними 
залежностями через орієнтований ациклічний граф. Така мережа дозволяє 
моделювати ймовірнісні зв’язки між різними явищами, наприклад, між 
захворюваннями та їхніми симптомами. Використання байєсової мережі дає змогу 
обчислювати ймовірності наявності певних захворювань на основі спостережуваних 
симптомів [4]. 
У байєсовій мережі вершини відповідають випадковим змінним у байєсовому 
сенсі, серед яких можуть бути як спостережувані величини, так і латентні змінні, 
невідомі параметри чи гіпотези. Ребра у графі позначають умовні залежності, тоді як 
незв'язані вершини (між якими відсутній шлях) представляють змінні, що є умовно 
незалежними. Кожна вершина асоційована з функцією ймовірності, яка, отримуючи 
на вхід набір значень із пов’язаних вершин-батьків, обчислює ймовірність або 
розподіл ймовірностей для змінної, яку ця вершина моделює. Наприклад, якщо існує 
 17 
 
�� батьківських вершин, що відповідають булевим змінним, то відповідна функція 
ймовірності може бути подана у вигляді таблиці з 2! записів, по одному для кожної 
можливої комбінації істинності чи хибності цих змінних. Подібні концепції можуть 
застосовуватися й до неорієнтованих графів, зокрема марковських мереж, а також, 
потенційно, до циклічних графів. 
CLBN (Chow and Liu Beyesian Network) – у теорії ймовірностей і статистиці 
дерево Чоу-Лю є ефективним методом побудови апроксимації другого порядку 
спільного розподілу ймовірностей, вперше описаним у статті Чоу і Лю (1968) [5]. 
Метою такої декомпозиції, як і в інших випадках застосування байєсівських мереж, 
може бути як зменшення обсягу даних, так і отримання нової інформації. 
Метод Чоу-Лю характеризує спільний розподіл ймовірностей як добуток 
умовного та граничного розподілів другого порядку. Алгоритм Чоу-Лю встановлює, 
які умовні ймовірності слід використовувати для апроксимації цього добутку. 
Загалом, у разі відсутності взаємодій третього і вищих порядків, апроксимація Чоу-
Лю є лише наближенням і не здатна повністю відобразити структуру вихідного 
розподілу. 
PrivBN – це метод диференціальної конфіденційності, спрямований на 
публікацію даних з високою розмірністю [6]. Для набору даних �� спочатку будується 
байєсівська мережа ��, яка надає компактну модель взаємозв'язків між атрибутами в 
�� і дає змогу приблизно розподілити дані �� через набір низьковимірних полів ��. 
Потім у кожне поле �� наводиться шум, що забезпечує диференціальну 
конфіденційність, після чого використовуються зашумлені границі та байєсівська 
мережа для відновлення наближеного розподілу даних у ��. Здійснюючи відбір 
кортежів із цього наближеного розподілу, метод будує синтетичний набір даних та 
видає синтезовані дані. Це дозволяє PrivBN уникнути «прокляття розмірності», 
оскільки шум вводиться у низькорозмірні поля �� замість високорозмірного набору 
даних ��. Виявляючи складність створення конфіденційних байєсівських мереж, 
розробники презентували новий підхід, що використовує сурогатну функцію для 
 18 
 
взаємної інформації для точнішої моделі побудови. PrivBN перевершує попередні 
рішення стосовно точності [6]. 
Ці методи проявили кращі результати порівняно з попередніми, але 
використовують дискретизацію вхідних даних, що впливає на якість результатів. 
1.3.2 Нейромережі TVAE, CTGAN, OCTGAN 
Останні досягнення в області глибоких генеративних моделей відкрили широкі 
можливості. Сучасні моделі здатні вивчати розподіл ймовірностей для тексту та 
зображень, генеруючи високоякісні реалістичні результати. Це сприяло прискоренню 
розвитку генеративних змагальних мереж. 
Генеративні змагальні мережі (Generative adversarial networks, GANs) – це клас 
алгоритмів штучного інтелекту, що використовуються в навчанні без учителя, 
реалізовані системою двох штучних нейронних мереж, які змагаються одна з одною 
в рамках гри з нульовою сумою. Вони були запроваджені Яном Ґудфелоу в 2014 році. 
Ця методика дозволяє створювати фотографії та тексти, які для побіжного огляду 
людиною виглядають як справжні та мають багато реалістичних елементів [7]. 
CTGAN (Conditional Tabular Generative Adversarial Network) – це метод для 
моделювання розподілу табличних даних на основі GAN і регерування рядів з цього 
розподілу [1]. У CTGAN застосовано модально-специфічну нормалізацію для 
подолання негаусівського та мультимодального розподілу. CTGAN використовує 
умовний генератор значень для роботи з дискретними стовпчиками й залучає новітні 
методи для навчання високоякісних моделей. Початкові дані декомпозуються 
варіативними гаусівськими сумішами, розділяючи їх на режими та нормалізуючи для 
поліпшення обробки нейронними мережами. Умовний генератор створює вектори, 
що відображають залежності між даними, а дискримінатор оцінює прихильність до 
реальних даних. Переконливе зіставлення умовного вектора й даних покращує якість 
дискретних стовпців. 
 19 
 
TVAE (Tabular Variational Autoencoder) – ще одна генеративна нейромережева 
модель. Дана модель простіша та елегантніша за CTGAN, а також має конкурентну 
продуктивність. 
У машинному навчанні варіаційний автокодувальник – це архітектура штучної 
нейронної мережі, запроваджена Дідеріком Кінгмою та Максом Веллінгом, що 
належить до сімейств ймовірнісних графових моделей та варіаційних байєсових 
методів. Варіаційні автокодувальники призначено для стискання вхідної інформації 
до обмеженого багатовимірного латентного розподілу, щоби відбудовувати її якомога 
точніше (декодування) [8]. Хоча спочатку цей інструмент розробляли для 
самонавчання, його ефективність підтвердилася в ручному та автоматичному 
навчанні.розроблений для самонавчання, його ефективність була доведена і в інших 
галузях машинного навчання, таких як напівавтоматичне та кероване навчання. 
Такі моделі зазвичай навчаються метаалгоритмом очікування-максимізації, 
оптимізуючи нижню межу вірогідності даних. Варіаційні автокодери 
використовують нейронну мережу як амортизований підхід до спільної оптимізації, 
стискаючи простір даних у латентний простір – кодувальник. Декодер, друга 
мережева модель, трансформує латентний простір у вхідний простір, часто розподіл 
шуму.q-розподілів або варіаційних апостеріорів. Ці q-розподіли зазвичай 
параметризуються для кожної окремої точки даних в окремому процесі оптимізації. 
Однак варіаційні автокодери використовують нейронну мережу як амортизований 
підхід для спільної оптимізації між точками даних. Ця нейронна мережа приймає на 
вході самі точки даних, а на виході – параметри варіаційного розподілу. Оскільки 
вона стискає відомий вхідний простір у низьковимірний латентний простір, її 
називають кодувальником. Декодер – це друга нейронна мережа цієї моделі. Це 
функція, яка трансформує латентний простір у вхідний простір, наприклад, як засіб 
розподілу шуму. 
Нейронні моделі CTGAN та TVAE за продуктивністю значно перевищують 
байєсієвські мережі по типу CLBN та PrivBN. 
OCTGAN – схожий на CTGAN метод, що покращує попередні алгоритми 
шляхом створення генератору і дискримінатору на основі нейронних звичайних 
 20 
 
диференціальних рівнянь (НЗДР). Дискримінатор на основі НЗДР виконує 
класифікацію на основі траєкторії еволюції прихованого вектора, а не замість того, 
щоб класифікувати за допомогою прихованого вектора лише на останньому шарі 
мережі. Генератор також використовує шар звичайних диференціальних рівнянь на 
самому початку своєї архітектури для перетворення початкового вхідного вектора 
(тобто, конкатенації шумового вектору і вектору стану) в інший прихований 
векторний простір, придатний для процесу генерації [2]. 
Порівняння моделей на базі штучного інтелекту показано в таблиці 1.1. 
Таблиця 1.1 – Порівняння моделей генерування даних на базі НМ 
Параметр \ Мережа CTGAN TVAE OCTGAN 
Складність середня відносно низька висока 
Швидкість тренування задовільна задовільна Низька 
Якість генерації висока дуже висока Найвища 
 
1.3.3 Системи tonic.ai, mostly.ai, syntho.ai 
Tonic.ai – це онлайн-платформа, що надає зручний доступ і управління даними, 
дозволяючи створювати безпечні версії важливих наборів даних. Tonic інтегрує 
статистичне моделювання та перетворення даних, що допоможе всім – від безпекових 
фахівців до інженерів – створювати узгоджені портативні синтетичні набори [9]. 
Головна сторінка сайту Tonic.ai зображена на рис. 1.1. 
 
Рисунок 1.1 – Головна сторінка сайту Tonic.ai 
 21 
 
 Система забезпечує підключення до баз даних PostgreSQL та MySQL, а також 
генерування даних через API. 
Tonic пропонує різноманітні ліцензійні плани для організацій різного розміру, 
з врахуванням складності архітектури даних. Безкоштовних ліцензій не передбачено.  
Mostly.ai – платформа SaaS, аналогічна Tonic.ai, яка дозволяє безкоштовно 
синтезувати дані обсягом до 100 тисяч рядків на день. 
Компанія Mostly.ai досліджує новітні методи генерування синтетичних даних, 
створюючи унікальну комбінацію підходів для найкращих результатів. Їхні рішення 
значно випереджають інші, а команда експертів продовжує вдосконалювати 
платформу з акцентом на точність, конфіденційність та гнучкість [10]. 
Компанія експлуатує безпечне хмарне середовище Amazon Web Services (AWS) 
без збереження завантажених даних. По завершенню виконання завдання вихідний 
набір даних підлягає видаленню. Синтетичні дані постачаються разом із 
автоматизованим звітом, що містить інформацію про конфіденційність та якість 
контролю якості (QA). У разі успішного проходження перевірки на відповідність 
вимогам конфіденційності та точності, такі дані можуть бути безпечно використані 
без ризику для конфіденційності. Головна сторінка веб-сайту Mostly.ai ілюструється 
на рис. 1.2. 
 
Рисунок 1.2 – Головна сторінка сайту mostly.ai 
 22 
 
Syntho.ai – організація, що спеціалізується на технологіях обробки даних, 
володіє значним досвідом створення синтетичних даних зі штучним інтелектом. 
Заснована у 2020 році, вона прагне вирішити глобальну дилему конфіденційності, 
сприяючи економіці відкритих даних із захистом конфіденційності. Пропонує 
синтетичні дані, що гарантують конфіденційність та відсутність легальних перешкод 
[11]. 
Дана система легко інтегрується з популярними базами даних та інструментами 
автоматизації тестування. Вона автоматично визначає оптимальні параметри роботи 
з синтетичними даними, включаючи типи й зв’язки між даними. Можна також 
налаштовувати параметри під конкретні потреби. Після завершення процесу можна 
переглянути звіт про якість даних. Головна сторінка сайту Syntho.ai показана на рис. 
1.3. 
 
Рисунок 1.3 – Головна сторінка сайту syntho.ai 
На фоні цих конкурентів, стартап, розроблюваний у цій роботі, має малі шанси 
на життя через те, що конкуренти є досить великими компаніями, якими 
користуються великі компанії. Щоб даний стартап був успішним, потрібно вирішити 
це питання (див. підрозділ 1.4). 
 23 
 
1.4 Постановка задачі 
Для досягнення поставленої у роботі мети, потрібно вирішити такі задачі:  
− спланувати ключові етапи менеджменту стартапу; 
− створити технологію та відповідне дослідження, що будуть основою 
маркетингу стартапу та будуть розміщені на сайті стартапу для залучення інвесторів; 
− створити міні-веб-сайт з демонстрацією результатів створеної технології для 
інвесторів. 
Після створення стартапу очікуються такі ефекти: 
− отримання зацікавлених людей/інвесторів через різноманітні платформи 
фінансування; 
− отримання фінансів від інвесторів; 
− початок реалізації повноцінної СГСД за потребами інвесторів; 
− отримання коштів від клієнтів. 
На рис. 1.4 показана концептуальна модель онлайн-сервісу генерації 
синтетичних даних, що базується на 4-х компонентах. 
 Вхідні дані Вихідні дані 
 
- Реальні дані. - Синтетичні дані. 
 
- Параметри генерації - Порівняння статистичних 
 синтетичних даних. характеристик реальних та 
 - Параметри збереження синтезованих даних. 
синтезованих даних. 
 
Фу нкції та структури системи Основні моделі роботи СГСД 
 
 - Надмірна вибірка. - Модель розподілених обчислень. 
 - Прибирання артефактів. - Нейронна модель для синтезу 
- Анонімізація строкових даних. даних. 
 
Рисунок 1.4 – Концептуальна модель онлайн-СГСД 
 
 24 
 
Система має чітко визначену структуру, що складається з чотирьох основних 
блоків: вхідні дані, вихідні дані, функції та структури системи, основні моделі роботи 
СГСД. Процес роботи системи передбачає використання реальних даних як основи, 
застосування параметрів для генерації та збереження синтетичних даних, 
забезпечення конфіденційності через анонімізацію строкових даних, використання 
надмірної вибірки для покращення якості генерації. 
Система базується на двох ключових моделях: модель розподілених обчислень 
для ефективної обробки даних та нейронна модель для синтезу даних, що забезпечує 
якість генерації. Результатом роботи системи є синтетичні дані, що зберігають 
статистичні характеристики оригінальних даних, а також можливість порівняння 
статистичних характеристик реальних та синтезованих даних. 
Особлива увага в системі приділяється безпеці даних через механізми 
анонімізації, якості синтетичних даних через порівняння їх характеристик з 
реальними, ефективності обробки через використання розподілених обчислень. Така 
архітектура дозволяє створювати якісні синтетичні дані, зберігаючи конфіденційність 
вихідної інформації та забезпечуючи необхідну статистичну подібність до реальних 
даних. 
Висновки до розділу 1 
У першому розділі розглянуто сферу генерації синтетичних даних та аналіз 
відповідного ринку. Розвиток онлайн-сервісу генерації синтетичних даних на базі 
нейронних мереж є перспективною ініціативою, яка може значно сприяти різним 
галузям, від інформаційних технологій до медицини. Визначено, що потреба в 
синтетичних даних зростає, оскільки компанії намагаються захистити 
конфіденційність своїх даних і в той же час використовувати їх для аналізу та 
навчання моделей. Синтетичні дані, створені за допомогою сучасних алгоритмів, 
таких як генеративні змагальні мережі, можуть забезпечити високу якість і 
реалістичність, необхідну для різних застосувань. 
 25 
 
Незважаючи на виклики, пов'язані з генерацією синтетичних даних, такими як 
необхідність врахування умовних ймовірностей між змінними та відмінності у типах 
даних, існуючі рішення, включаючи байєсові мережі та новітні нейронні моделі, 
демонструють значний прогрес у цій сфері. Успіх стартапу в цій конкурентній області 
вимагатиме не лише технологічної інновації, але й ретельного планування 
управлінських та маркетингових стратегій. 
Задля забезпечення життєздатності стартапу необхідно буде зосередитися на 
унікальних особливостях пропонованих технологій, ефективному спілкуванні з 
потенційними інвесторами та побудові привабливої платформи для демонстрації 
результатів роботи. Врахування вимог ринку та потреб користувачів також стане 
ключовим фактором у залученні фінансування та формуванні успішної бізнес-моделі. 
У результаті, реалізація запропонованих стратегій може призвести до створення 
значущого гравця на ринку синтетичних даних, що забезпечить вигоду як для 
розробників, так і для кінцевих споживачів. 
  
 26 
 
2 КОНЦЕПЦІЯ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ СИНТЕТИЧНИХ ДАНИХ 
Ідея стартапу полягає в тому, щоб дати клієнтам швидкий, зручний та 
економічний спосіб синтезу табличних даних. Звичайний клієнт (схема B2C, 
дослідник) зможе створити дані коли йому треба, а компанії (B2B-схема) зможуть 
замовити рішення для своїх потреб. 
2.1 Зацікавлені сторони та їх вплив на стартап 
Зацікавлені сторони мають прямий інтерес у стартапі, впливаючи на його 
розвиток і кінцеву ефективність. На рис. 2.1 представлена мапа основних 
зацікавлених сторін. 
 
Рисунок 2.1 – Основні зацікавлені сторони стартапу 
Стартап має широкий спектр зацікавлених сторін, кожна з яких впливає на 
розвиток, функціонування та позиціонування продукту на ринку. Тепер детально 
розберемо кожного з них. Стейкхолдери включають як зовнішні, так і внутрішні 
групи, від яких залежить успіх компанії в умовах жорсткої конкуренції, високих 
вимог до якості та відповідності правовим стандартам. 
 27 
 
Кожна група зацікавлених сторін має важливу роль у формуванні продукту, 
стратегій та позиціонування стартапу на ринку. Взаємодія з кожною з цих груп 
дозволяє компанії реагувати на виклики, пристосовуватися до умов ринку і 
створювати продукт, який задовольняє потреби клієнтів, відповідає вимогам 
регуляторів і підтримується інвесторами. 
Зовнішні стейкхолдери формують обмеження і можливості для стартапу, а 
також сприяють його розвитку. Конкуренти, такі як tonic.ai, syntho.ai і mostly.ai, 
стимулюють стартап до постійного вдосконалення, впливаючи на необхідність 
відрізнятися та пропонувати унікальні можливості для клієнтів. В умовах жорсткої 
конкуренції компанія має не тільки відповідати, але й перевершувати існуючі 
рішення, щоб утримувати увагу клієнтів. 
Медіа та спільноти, як-от Product Hunt і Forbes Enterprise Tech, грають важливу 
роль у просуванні бренду та створенні його репутації. Публікації в цих медіа 
підвищують обізнаність про продукт серед цільової аудиторії, залучають нових 
користувачів і формують довіру до продукту та компанії загалом. 
Регулятори, зокрема GDPR, накладають суворі вимоги до захисту даних, що 
особливо важливо для синтетичних даних, які можуть містити чутливу інформацію. 
Ці вимоги створюють технічні та юридичні обмеження, яким стартап повинен 
відповідати, щоб залишатися в правовому полі та уникати потенційних штрафів. 
Постачальники інфраструктури, як-от AWS та Vercel, забезпечують необхідні 
технологічні можливості для роботи онлайн-сервісу, зокрема для обчислень і 
зберігання даних. Вони визначають технічні можливості стартапу, а також значною 
мірою впливають на витрати, пов'язані з операційною діяльністю. 
Клієнти є основною рушійною силою для розвитку продукту, надаючи цінний 
зворотній зв'язок і формуючи вимоги до функціоналу. Стартапи та корпоративні 
клієнти мають свої специфічні потреби, тому від їхнього інтересу і задоволення 
залежить успіх стартапу та його прибутковість. Дослідники також є важливими 
клієнтами, оскільки вони використовують синтетичні дані для аналізу, тестування та 
наукових досліджень. Вони можуть сприяти вдосконаленню продукту та його 
 28 
 
адаптації до потреб науки і технологій, розширюючи його можливості і сфери 
застосування. 
Внутрішні стейкхолдери мають ключове значення для прийняття рішень, які 
визначають стратегію розвитку та роботу стартапу. Засновники визначають 
довгострокову стратегію, приймають важливі управлінські рішення і керують 
процесом розробки продукту. Вони встановлюють напрямок розвитку стартапу і 
несуть відповідальність за реалізацію ключових бізнес-планів. 
Команда розробки, що складається з DevOps-інженерів, наукового керівника та 
фронтенд-розробників, безпосередньо відповідає за технічну реалізацію та якість 
продукту. Від їхньої роботи залежить стабільність, функціональність і своєчасний 
вихід нових можливостей, що особливо важливо в умовах швидкої зміни технологій 
та зростаючих вимог користувачів. Власник і менеджер відповідає за управління 
ресурсами та стратегічне планування, вирішуючи питання масштабування бізнесу, 
фінансування та розширення ринку. 
Інвестори надають фінансову підтримку, яка є критичною для росту стартапу, 
особливо на початкових етапах розвитку. Такі інвестори, як Ukrainian Startup Fund, 
Genesis Investments та бізнес-ангел Ковальчук С.А., не лише забезпечують 
фінансування, а й впливають на стратегію через свої вимоги до результатів і 
рекомендації. Їхня підтримка надає компанії можливість розвиватися, залучати нові 
технології та просувати свій продукт на ринку. 
Визначимо суб’єктивні рівні впливу на стартап із представлених впливових 
сторін (таблиця 2.1). 
Таблиця 2.1 показує, що менеджер і засновники, а також команда розробки 
стартапу мають найбільший вплив на всі аспекти компанії, від ресурсів до цілей і 
результатів. Це логічно, оскільки їхні рішення визначають пріоритети, цілі, бюджет, 
якість, командну роботу та прогрес стартапу. Їхній контроль над цими сферами є 
критичним для успіху проєкту. Також вони відповідають за формування ключових 
стратегій, вибір технологій і керування ресурсами, що впливає на майбутнє стартапу. 
Наприклад, рішення менеджера щодо розподілу бюджету або технологічного 
напрямку можуть кардинально змінити траєкторію розвитку компанії. 
 29 
 
Таблиця 2.1 – Матриця суб’єктивної міри зацікавленості сторін 
Вплив на стартап (1 – незначний, 4 – критичний) 
Ресурси Запити стартапу Процеси стартапу Оцінка виконання 
Зацікавлені сторони 
стартапу 
Внутрішні 
Мереджер/власник 4 4 3 2 4 4 4 4 4 4 4 4 4 3 4 3 4 4 4 4 4 4 3 4 90 
Засновники 4 4 3 2 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 93 
Інвестори 2 4 2 1 2 2 3 3 2 2 4 3 2 3 3 2 2 3 3 3 3 2 2 2 60 
Команда розробки 4 3 4 2 4 4 3 3 4 4 3 4 4 4 3 3 4 4 4 4 4 4 3 3 86 
Користувачі системи 3 1 1 1 3 2 2 3 3 2 1 4 2 3 2 1 3 3 3 3 2 2 1 1 52 
Партнери компанії 3 2 2 2 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 2 2 66 
Зовнішні 
Конкуренти 2 1 1 1 2 3 3 3 2 1 1 2 2 2 2 2 3 2 2 2 1 1 1 1 43 
Клієнти 3 1 1 1 4 2 3 4 3 3 1 4 3 3 2 1 3 3 4 4 3 1 1 1 59 
Регулюючі органи 2 1 1 1 2 2 3 3 4 2 2 4 1 2 3 3 1 2 2 2 2 1 1 1 48 
Медіа та спільнота 2 1 1 1 3 2 2 3 2 1 1 3 2 2 1 1 2 2 3 3 2 1 1 1 43 
Постачальники 3 2 3 4 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 2 2 2 63 
 
Інвестори також відіграють значну роль, особливо щодо фінансових аспектів і 
контролю прогресу стартапу. Їхній вплив зосереджується на бюджеті, цілях і 
пріоритетах, адже саме вони надають фінансування, яке допомагає реалізувати 
основні проєктні задачі. Їхні очікування часто впливають на визначення термінів та 
ключових показників ефективності. І хоча їхній вплив не настільки великий, як у 
засновників, інвестори мають силу впливати на пріоритети й можуть диктувати певні 
бізнес-рішення, орієнтовані на зростання вартості бізнесу. 
Команда розробки – ще одна важлива складова, зосереджена на технічному 
аспекті проєкту: обладнанні, технологіях, процесах і якості продукту. Їхній вплив на 
ці аспекти є високим, оскільки саме вони створюють продукт, що визначає успіх 
стартапу в довгостроковій перспективі. Команда розробки також впливає на 
вирішення проблем, адже технологічні рішення повинні бути втілені таким чином, 
щоб забезпечити масштабованість і стабільність. Премії та гарантія зайнятості для 
Люди 
Гроші 
Обладнання 
Матеріали 
Інформація 
Знання 
Пріоритети 
Цілі 
Специфікації 
Розклад роботи 
Бюджет 
Якість 
Командна робота 
Процеси стартапу 
Організаційні 
Інфраструктура 
Технологія 
Вирішення проблем 
Прогрес стартапу 
Успіх стартапу 
Робота команди 
Компетенції 
Премія персоналу 
Гарантія зайнятості 
Сума 
 30 
 
розробників сприяють стабільності й продуктивності команди, впливаючи на 
кінцевий результат. 
Клієнти, партнери та постачальники також відіграють свою роль, але їхній 
вплив більше відчувається в аспектах, пов'язаних з якістю, інформацією та 
взаємодією. Клієнти впливають на якість, специфікації та успіх стартапу, адже їхні 
відгуки та вимоги формують стандарти та очікування щодо продукту. Партнери й 
постачальники, своєю чергою, важливі для забезпечення доступу до ресурсів і 
матеріалів, що може вплинути на стабільність процесів і технологій. 
Вплив інших зацікавлених сторін, таких як регулюючі органи, галузеві 
експерти, медіа, спільнота та конкуренти, є помірним. Наприклад, регулятори можуть 
впливати на відповідність продукту законодавчим вимогам і, найважливіше, на 
конфіденційність обробки даних користувачів, а конкуренти – на стратегічні рішення 
та ринкові пріоритети. 
2.1.1 Визначення вимог до стартапу 
1. Менеджер/власник та засновники визначають стратегічні вимоги, 
встановлюють основні цілі продукту, технічні специфікації та стандарти якості. Вони 
задають напрямок розвитку, враховуючи цільовий ринок, конкурентів і ринкові 
тренди. 
2. Клієнти безпосередньо впливають на вимоги, формуючи очікування щодо 
функціональності, якості та зручності використання продукту. Зворотний зв’язок від 
клієнтів може коригувати вимоги, особливо на етапах тестування та оновлення. 
3. Інвестори визначають фінансові вимоги, часто встановлюючи очікування 
щодо окупності та результативності. Їхні вимоги можуть вплинути на обсяги 
функціональності, терміни запуску й стратегічні рішення. 
4. Регулюючі органи задають вимоги до відповідності продукту законодавству, 
особливо якщо робота з даними підлягає захисту конфіденційності чи специфічним 
стандартам безпеки. 
 31 
 
5. Галузеві експерти та партнери допомагають уточнювати технічні та ринкові 
вимоги, завдяки чому продукт залишається релевантним та конкурентоспроможним. 
Розглянемо потрібні стартапу реальні ресурси: 
– проєктний менеджер (CEO, CTO); 
– головний програміст (DevOps, frontend); 
– консультант з розробки; 
– маркетолог; 
– науковий консультант; 
– доступ до мережі Інтернет; 
– оренда серверів; 
– ПК для тестування. 
Опишемо зайнятість та застосування ресурсів. 
CEO, власник та головний дослідник відповідає за загальне керівництво 
компанією, стратегічний розвиток, а також за дослідження та впровадження нових 
методів генерації синтетичних даних. 
CTO займається технологічним розвитком проєкту, забезпечує реалізацію 
технічної стратегії, вибір архітектури системи, а також координує роботу команди 
розробників. 
DevOps інженер відповідає за налаштування інфраструктури, автоматизацію 
процесів розгортання та моніторинг систем. Його роль також включає підтримку 
безперебійної роботи всіх компонентів сервісу. 
Frontend розробник займається розробкою інтерфейсу користувача, створює 
зручний та інтуїтивний дизайн, щоб клієнти могли легко працювати з сервісом. 
Головний програміст разом з консультантом з розробки виконують головну 
роботу зі створення ПЗ. 
Науковий керівник відповідає за дослідницькі аспекти продукту, оцінює 
алгоритми для генерації даних та забезпечує наукову обґрунтованість рішень. 
Маркетолог займається просуванням та популяризацією стартапу. 
Інфраструктурні послуги (оренда) включають AWS для обчислень, серверів та 
зберігання даних. AWS надає потужності для машинного навчання, де обробляються 
 32 
 
синтетичні дані, а також забезпечує хмарне сховище для зберігання великих обсягів 
даних та інші необхідні сервіси. 
Окремий ПК потрібен для того, щоб перевіряти розроблені системи з 
користувацької сторони. 
2.1.2 Планування та контроль 
Засновники встановлюють терміни та ключові етапи проєкту, активно 
долучається до прийняття важливих рішень на всіх етапах роботи, від початкових 
ідей до фінальних рішень. Їх роль також включає визначення стандартів якості 
продукту і критеріїв прийняття. Після завершення робіт саме засновники дають 
фінальне підтвердження, що продукт відповідає всім заявленим вимогам. 
Менеджер стартапу створює детальний план реалізації, який враховує потреби 
клієнтів, і розподіляє задачі між членами команди. Він слідкує за тим, щоб  стартап 
рухався згідно з узгодженим графіком, а при виникненні проблем швидко реагує, 
вирішуючи їх. У процесі контролю якості менеджер координує тестування та інші 
процедури перевірки, щоб продукт відповідав затвердженим стандартам і вимогам. 
2.2 Цілі та місія стартапу 
Місія стартапу – створити інноваційний онлайн-сервіс для генерації 
синтетичних даних, який допоможе компаніям та дослідницьким установам 
отримувати безпечні для використання анонімізовані, високоякісні дані, необхідні 
для тестування, аналітики та розвитку продуктів. Сервіс забезпечить доступ до 
згенерованих даних, що відображають реальні статистичні закономірності, без ризику 
порушення конфіденційності. 
Цілі стартапу: 
1. Забезпечення захисту конфіденційної інформації. Створити синтетичні дані, 
що відповідають реальним закономірностям, але не пов'язані з конкретними людьми 
чи подіями. Це дозволить клієнтам отримувати необхідні дані для тестування, 
навчання моделей та аналізу без загроз конфіденційності. 
 33 
 
2. Підтримка точності та високої якості даних. Сервіс генеруватиме дані, які 
будуть максимально наближені до реальних і зможуть покращити якість та 
ефективність машинного навчання та аналітичних моделей. 
3. Швидка генерація даних. Платформа, що створюється, дозволить 
користувачам генерувати необхідні табличні дані за лічені секунди. Це забезпечить 
миттєвий доступ до даних для швидкого прототипування, тестування систем та 
побудови анонімізованих презентацій для клієнтів ІТ-компаній. Для цього можна 
застосувати технологію розпаралелювання обчислень для різних користувачів, згідно 
[12]. 
4. Розширення можливостей ринку для генерації синтетичних даних у різних 
сферах. Сервіс можна буде використовувати для генерації синтетичних даних не 
лише в IT, але й у страхуванні, медицині та інших сферах, де конфіденційність даних 
є критично важливою. 
5. Розроблена система дозволить отримувати прибуток від кожного клієнта у 
розмірі 10$ за використання 1 млн вхідних табличних записів. Через рік після початку 
продаж система повинна принести близько 300 тис. грн. 
Цілі клієнтів: 
– генерувати якісні синтетичні дані конфіденційно якомога дешевше і швидше. 
Цілі інвесторів: 
– самореклама; 
– збільшення рейтингу в списку ЗВО України. 
Цілі менеджера проєкту: 
– успіх проєкту; 
– підвищення досвіду управління проєктами; 
– підвищення авторитету; 
– отримання прибутку. 
Цілі команди: 
– отримання прибутку; 
– отримання досвіду в командній роботі. 
Постачальники: 
 34 
 
– отримання прибутку. 
Конкуренти: 
– бенчмаркінг; 
– зберегти свою базу клієнтів. 
Цільові критерії стартапу представлено у таблиці 2.2. 
Таблиця 2.2 – Критерії досягнення цілей проєкту 
Ціль Критерії 
Відповідність вимогам європейських законодавств (GDPR) щодо 
Забезпечення захисту захисту особистих даних. 
приватної інформації Створення даних, які імітують статистичні закономірності без 
прив'язки до реальних осіб. 
Проведення регулярних аудиторських перевірок щодо захисту даних. 
Забезпечення високої кореляції з реальними даними для 
релевантності моделей. 
Автоматична валідація генерованих даних щодо відсутності аномалій. 
Підтримка точності та Налаштування параметрів генерації для контролю якості даних. 
високої якості даних Використання сучасних методів оцінки якості синтетичних даних, 
наприклад, перевірка на оригінальність і корисність для ML. 
Регулярне тестування сервісу в реальних ML/аналітичних сценаріях 
для покращення якості. 
Оптимізація алгоритмів генерації для забезпечення швидкості у 
межах секунд. 
Можливість масштабування системи для обробки запитів у реальному 
Швидка генерація часі при високому навантаженні. 
даних Підтримка функцій для миттєвого збереження і експорту даних для 
клієнтів. 
Можливість генерації великих об'ємів табличних даних без зниження 
продуктивності. 
Розширення Створення гнучких моделей генерації, які легко адаптуються до 
можливостей у різних різних галузей (страхування, медицина тощо). 
сферах Забезпечення варіантів параметризації для специфічних потреб різних 
індустрій. 
Впровадження прозорої системи розрахунку вартості для 
користувачів з доступом до історії оплат. 
Налаштування системи для відстеження кількості згенерованих 
записів. 
Прибутковість Досягнення цільових показників продажу (щонайменше 300 тис. 
грн/рік). 
Підтримка клієнтської підтримки для стимулювання довгострокового 
використання сервісу. 
Прогнозовані оновлення та доповнення функціоналу для розширення 
клієнтської бази. 
 
Критерії успіху управління стартапу: 
1. Відсутність значних відхилень по часу (не більше 50%) за межами проєкту. 
 35 
 
2. Кількість задоволених членів команд проєкту більше 80% після проєкту. 
3. 80-100% команди проєкту залишились для інформаційної підтримки 
програмного засобу після проєкту. 
Основні вимоги стартапу: 
1. Час виконання 6±3 робочих місяці; 
2. Бюджет 120±12 тис. грн.; 
3. Отримання коштів через купівлю «кредитів» у сервісі. Ці кредити можна 
використовувати для генерації даних у будь-який час. 
2.3 Життєвий цикл стартапу 
Життєвий цикл стартапу розподілено на 4 етапи (рис. 2.2). 
 
Рисунок 2.2 – Схема життєвого циклу стартапу  
1. Ініціація: 
– формалізація ідей: визначення основних концепцій і цілей продукту; 
– аналіз ринку: дослідження ринку для оцінки потреб у синтетичних даних 
та конкурентів; 
– пошук фінансування: залучення інвестицій від венчурних капіталістів чи 
інших джерел; 
– побудова команди: підбір ключових фахівців для успішного розвитку 
проєкту. 
2. Планування: 
– планування якості: встановлення стандартів якості для сервісу; 
– планування змісту: визначення функціональних вимог до продукту; 
– планування трудових ресурсів, бюджету, часу: розподіл задач, фінансів та 
часу для всіх етапів; 
 36 
 
– планування ризиків, комунікацій, закупівель: ідентифікація потенційних 
ризиків, налаштування каналів комунікації та підготовка закупівель; 
– затвердження планів: затвердження усіх планів для подальшої реалізації. 
3. Реалізація: 
– закупівлі: придбання необхідних ресурсів для проєкту; 
– розробка технічного завдання та вибір технологій: визначення вимог і 
вибір технологій; 
– створення MVP генерації даних: розробка мінімально життєздатного 
продукту; 
– проєктування онлайн-системи та розробка дизайну: створення архітектури 
та інтерфейсу; 
– розробка ПЗ та тестування: написання коду та тестування функцій; 
– впровадження в Інтернет: запуск готової системи в онлайн-режим. 
4. Завершення: 
– розміщення реклами: маркетинг продукту для залучення користувачів; 
– розпуск команди, архівація проєкту: завершення контрактів і архівація 
документації; 
– аналіз проєкту та отримання патенту: оцінка успішності проєкту і захист 
інтелектуальної власності. 
Висновки до розділу 2 
У другому розділі проведено аналіз концепцій стартапу онлайн сервісу 
генерації синтетичних даних. Стартап зосереджено на створенні інноваційного 
сервісу для синтезу табличних даних, що дозволить користувачам швидко й безпечно 
отримувати необхідні дані для тестування та аналітики. Його бізнес-модель 
передбачає два основні напрями: B2C, що орієнтований на дослідників та 
індивідуальних користувачів, та B2B, де компанії можуть замовляти спеціалізовані 
рішення під свої потреби. Стартап прагне забезпечити високий рівень захисту даних, 
 37 
 
а також відповідність європейським стандартам конфіденційності, таким як GDPR, 
що є важливим для довіри клієнтів. 
Основними зацікавленими сторонами є засновники, менеджери, команда 
розробки, інвестори, клієнти, регулятори, постачальники інфраструктури та медіа. 
Кожна група стейкхолдерів відіграє важливу роль у розвитку продукту та 
позиціонуванні компанії на ринку. Засновники та керівники визначають стратегічний 
напрямок, команда розробників забезпечує технічну якість продукту, а інвестори 
надають необхідні фінансові ресурси та можуть впливати на цілі й пріоритети 
проєкту. Зворотний зв'язок від клієнтів допомагає адаптувати сервіс до реальних 
потреб, а конкуренція стимулює до постійного вдосконалення. 
Загалом, загальна місія стартапу – створити безпечний, швидкий і доступний 
інструмент для генерації синтетичних даних, що стане корисним для багатьох 
галузей, включаючи IT, медицину та страхування. Ключові цілі включають 
забезпечення конфіденційності даних, високу точність та відповідність реальним 
статистичним закономірностям, а також миттєву генерацію даних. Стартап повинен 
досягти конкурентних переваг через якість, швидкість та зручність, задовольняючи 
вимоги клієнтів і розширюючи свій ринок. 
  
 38 
 
3 ПЛАНУВАННЯ СТАРТАПУ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ 
СИНТЕТИЧНИХ ДАНИХ 
Планування стартапу є важливим етапом його реалізації, оскільки воно 
дозволяє структуровано підходити до реалізації ідей, прогнозувати можливі ризики 
та ефективно використовувати ресурси. Воно допомагає уникнути непередбачуваних 
труднощів і забезпечити досягнення поставлених цілей у встановлені терміни. 
3.1 Планування змісту стартапу 
У даній роботі для планування використовується програма Microsoft Project Pro. 
Планування в цій програмі дозволяє створювати детальні проєкти з використанням 
професійних інструментів для управління часом, ресурсами та завданнями. Цей софт 
призначений для команд, які хочуть чітко визначити етапи роботи, встановити 
терміни, розподілити обов'язки та контролювати хід виконання кожного завдання. 
Microsoft Project Pro має інтерфейс, який дозволяє структурувати проєкт у вигляді 
діаграми Ганта, що наочно відображає зв'язки між завданнями та їхню послідовність. 
Кожне завдання може бути докладно описане, з встановленими дедлайнами, 
ресурсами і виконавцями. 
Планування в Microsoft Project Pro дозволяє створювати детальні проєкти з 
використанням професійних інструментів для управління часом, ресурсами та 
завданнями. Цей софт призначений для команд, які хочуть чітко визначити етапи 
роботи, встановити терміни, розподілити обов'язки та контролювати хід виконання 
кожного завдання. Microsoft Project Pro має інтерфейс, який дозволяє структурувати 
проєкт у вигляді діаграми Ганта, що наочно відображає зв'язки між завданнями та 
їхню послідовність. Кожне завдання може бути докладно описане, з встановленими 
дедлайнами, ресурсами і виконавцями. 
Розроблені задачі у ПЗ Microsoft Project Pro показано на рис. 3.1. 
 39 
 
 
Рисунок 3.1 – Фази та задачі стартапу, записані у Microsoft Project Pro 
Як можна бачити, дане програмне забезпечення дозволяє створювати задачі, і 
що найголовніше, автоматично прораховувати початкову і фінальну дати задач. Ця 
можливість економить час проєктного менеджера, що дозволяє виконати інші задачі, 
наприклад, менеджмент ресурсів. 
Далі визначимо послідовність виконання задач (рис. 3.2) – це грає дуже велику 
роль, оскільки деякі задачі не можна виконувати через те, що вони потребують 
 40 
 
використання результатів інших задач. Для цього в Microsoft Project Pro є діаграма 
Ґанта. Діаграма Ґанта – це інструмент для управління проєктами, який дозволяє 
візуалізувати графік виконання завдань, їх тривалість і послідовність. Вона виглядає 
як горизонтальні смужки на часовій шкалі, де кожна смужка представляє окреме 
завдання. Якщо команда працює над розробкою нового програмного продукту, 
діаграма Ґанта допоможе чітко бачити, які завдання потрібно виконати на кожному 
етапі – від розробки концепції до тестування й випуску продукту. 
Основні елементи діаграми Ґанта: 
1. Часова шкала – по горизонталі позначений час, який може бути розбитий на 
дні, тижні або місяці. 
2. Список завдань – по вертикалі перелік завдань або етапів проєкту. 
3. Смужки тривалості завдань – кожне завдання відображається смужкою, яка 
починається на стартовій точці завдання та закінчується в момент завершення. 
4. Залежності між завданнями – стрілки або лінії між смужками, які вказують 
на те, що одне завдання має завершитися, перш ніж почнеться інше. 
 
Рисунок 3.2 – Задачі стартапу та діаграма Ґанта у Microsoft Project Pro 
Згідно автоматичних підрахунків, мінімальний час виконання стартапу – 58 
днів, що є ≈2.6 робочих місяці, що відповідає вимогам стартапу. 
 41 
 
Спостерігається закономірність у розподілі ресурсів. Ключові ролі (Головний 
програміст – 50%, Науковий консультант – 10%, Маркетолог – 30%) залучені на 
різних етапах проєкту з різною інтенсивністю. Це вказує на оптимізацію 
використання людських ресурсів та уникнення перевантаження команди. 
У фазі планування більшість завдань виконуються паралельно і мають однакову 
тривалість (1-2 дні). Це свідчить про ефективну організацію процесу планування та 
можливість швидкого збору всієї необхідної інформації для старту проєкту. 
Найдовша фаза – реалізація, що логічно, оскільки включає основні роботи з 
розробки. В ній простежується чітка послідовність технічних завдань: від закупівлі та 
проєктування до розробки та тестування. Це забезпечує якісне виконання кожного 
етапу розробки. Етап реалізації займає більшу частину часу проєкту (29 днів), що 
підкреслює важливість технічної частини. Серед головних підзадач є вибір 
технологій, розробку MVP (мінімально життєздатного продукту) та основної 
системи, а також тестування і впровадження в інтернет. 
Наявність наскрізного завдання «Нарада», яке триває протягом усього проєкту, 
надає постійний моніторинг та контроль виконання проєкту, що є важливим 
елементом проєктного управління. 
3.2 Планування ресурсів та бюджету стартапу 
Розподіл ресурсів у Microsoft Project Pro відіграє критичну роль у менеджменті 
стартапу, оскільки визначає, наскільки злагоджено і раціонально будуть використані 
людські та матеріальні ресурси. Це дозволяє грамотно розподілити завдання між 
командою, уникнути надмірного навантаження і підтримувати стабільний темп 
роботи. Пріоритизація задач сприяє концентрації на найважливіших етапах і зменшує 
зайві витрати часу. Планування ресурсів забезпечує контроль над бюджетом і 
термінами, впливаючи на обґрунтованість витрат і точність прогнозів. 
Аналіз доступності і завантаженості ресурсів на різних фазах проєкту 
допомагає зберігати рівновагу і запобігати можливим конфліктам у завантаженні. 
Врахування навичок і компетентностей кожного учасника команди дозволяє 
 42 
 
розкрити їхній потенціал максимально ефективно. Усі ці аспекти підкреслюють 
значення планування ресурсів для успішного досягнення цілей проєкту. 
На рис. 3.3 зображено список ресурсів стартапу. 
 
Рисунок 3.3 – Ресурси стартапу в Microsoft Project Pro 
Як видно, команда стартапу складається з 5 ключових спеціалістів, кожен з яких 
працює з частковою зайнятістю. Це дозволяє оптимізувати витрати на персонал та 
залучати висококваліфікованих фахівців, які можуть паралельно працювати над 
іншими проєктами. Характерно, що найвищі ставки мають технічні спеціалісти – 
головний програміст (1,600 грн/день) та консультант з розробки (500 $/день), що 
відображає високу цінність технічної експертизи в проєкті. 
Інфраструктурна складова проєкту включає базовий швидкісний інтернет та 
оренду спеціалізованих серверів з відеопроцесорами. Обидва ресурси 
використовуються на 100% потужності, що говорить про їх критичну важливість для 
процесу генерації синтетичних даних. 
Значною статтею витрат є обладнання для тестування – ПК вартістю 36000 грн. 
Така суттєва інвестиція в тестове обладнання підкреслює важливість якості та 
надійності кінцевого продукту. Це також може вказувати на необхідність потужного 
апаратного забезпечення для роботи з синтетичними даними. 
Проєкт також враховує маркетингову складову та правовий захист через статті 
витрат на рекламу та оформлення авторського права (250 грн). Це – комплексний 
 43 
 
підхід не лише до технічної розробки, але й до комерціалізації та захисту 
інтелектуальної власності. 
Варто відмітити, що всі ресурси працюють за стандартним календарем, що є 
класичним підходом до організації робочого процесу, незважаючи на інноваційність 
самого продукту. 
Автоматично прораховане використання ресурсів представлено на рис. 3.4. У 
цьому календарі видно, який ресурс, скільки часу та у який день використовується в 
стартапі. На рис. 3.5. видно загальний звіт про ресурси стартапу. 
 
Рисунок 3.4 – Календар використання ресурсів стартапу в Microsoft Project Pro 
 
Рисунок 3.5 – Звіт про ресурси у Microsoft Project Pro 
Згідно автоматичних підрахунків, бюджет стартапу – 96640 грн, що відповідає 
вимогам стартапу. 
 
 44 
 
3.3 Виявлення ризиків стартапу 
Спочатку проведемо PEST-аналіз. Це стратегічний інструмент, який 
використовується для оцінки макросередовища організації. Абревіатура PEST 
розшифровується як Political (політичні), Economic (економічні), Social (соціальні) та 
Technological (технологічні) фактори, які можуть впливати на діяльність компанії. 
Політичні фактори включають державну політику, законодавство, політичну 
стабільність, податкову систему та регуляторні норми. Ці елементи можуть суттєво 
впливати на умови ведення бізнесу та прийняття стратегічних рішень. Знайдено такі 
фактори стартапу: 
– воєнний стан, ризик знищення офісу компанії (вплив форс-мажорний 0.9, 
ймовірність наближується до 0); 
– витрата на ФОП складає 1500 грн + 5% від доходу; 
– ризик втрати працівника через мобілізацію 5% (в компанії) та 10% (на вулиці) 
= 14.5%. 
Економічні фактори охоплюють такі аспекти як рівень інфляції, курси валют, 
економічне зростання, рівень безробіття та купівельна спроможність населення. Ці 
показники визначають загальний стан економіки та потенційні можливості для 
розвитку бізнесу. Знайдено такі фактори стартапу: 
– $1500 помісячна заробітна плата одного розробника; 
– знижений закордонний інтерес у фінансуванні через воєнний стан. 
Соціальні фактори стосуються демографічних тенденцій, культурних 
особливостей, стилю життя, споживчих уподобань та соціальних цінностей 
суспільства. Розуміння цих факторів допомагає компаніям краще задовольняти 
потреби своїх цільових аудиторій. Знайдено такі фактори стартапу: 
– поведінка: ризик втрати працівника до кінця роботи 13%. 
Технологічні фактори включають розвиток нових технологій, інновації, 
автоматизацію, цифровізацією та науково-технічний прогрес. Ці елементи можуть 
створювати як нові можливості, так і загрози для бізнесу. Знайдено такі фактори 
стартапу: 
 45 
 
– зростає популярність використання штучного інтелекту. 
Проведемо SWOT-аналіз. Це стратегічний інструмент планування, який 
використовується для оцінки конкурентної позиції організації. Абревіатура SWOT 
розшифровується як Strengths (сильні сторони), Weaknesses (слабкі сторони), 
Opportunities (можливості) та Threats (загрози). 
Сильні сторони – це внутрішні характеристики організації, які дають їй 
перевагу над конкурентами. Це можуть бути унікальні ресурси, досвід, технології, 
бренд, патенти, кваліфікований персонал чи ефективні бізнес-процеси. Знайдено такі 
сильні сторони стартапу: 
– краща якість генерованих даних та більша швидкість системи; 
– open-source низькорівневий модуль для професіоналів; 
– конкурентні ціни. 
Слабкі сторони – це внутрішні характеристики, які ставлять організацію у 
невигідне становище порівняно з конкурентами. Наприклад, застаріле обладнання, 
обмежені фінансові ресурси, низька впізнаваність бренду або неефективні процеси. 
Виявлено такі слабкі стартапу: 
– потреба у реалізації генерації різних типів даних; 
– конкуренція з великими компаніями. 
Можливості – це зовнішні фактори середовища, які організація може 
використати для свого розвитку. Це можуть бути нові ринки, зміни у споживчих 
уподобаннях, технологічні інновації або зміни в регулюванні галузі. Знайдено такі 
можливості стартапу: 
– порекомендувати технологію іншим компаніям; 
– написати статтю про розроблену технологію для маркетингу, закріплення 
авторських прав; 
– звернутися до краудфандингових платформ. 
Загрози – це зовнішні фактори, які можуть негативно вплинути на діяльність 
організації. Наприклад, поява нових конкурентів, зміна законодавства, економічний 
спад або зміна споживчих трендів. Знайдено такі загрози стартапу: 
 46 
 
– втрата персоналу через війну, що призведе до витрат часу новим 
розробником для вивчення коду; 
– випадкове відключення серверів, потреба у реалізації відмовостійкості. 
Загалом, основні ризики стартапу представлено на рис. 3.6. 
 
Рисунок 3.6 – Критичні ризики стартапу (синім кольором позначено вплив, а 
помаранчевим – ймовірність настання події) 
Всі інші можливі ризики, такі, як технічні збої, хвороби, зростання інфляції, не 
грають великої ролі у стартапі створення онлайн-сервісу синтезу даних. У таблиці 3.1 
показано різні заходи запобігання ризиків стартапу. 
Таблиця 3.1 – Важливі заходи для запобігання ризиків стартапу 
Попередження ризику Усунення наслідків від ризику 
Найменування 
ризику Дії Відпові- Відпові-
дальний Дата Дії дальний 
Паралельно 
тренувати Перепризначення 
Мобілізація декілька На фазі розробника – 
розробника майбутніх Менеджер реалізації заміна на Менеджер 
робітників з  резервного. 
числа студентів. 
Ретельне Вивчення 
тестування причин і 
Технічні збої програмного попередження 
та помилки в забезпечення, Команда На фазі аналогічних 
ПЗ включаючи розробки реалізації  помилок у 
 автоматичне; майбутньому. 
забезпечення 
резервних копій. 
 47 
 
Чітке визначення 
цілей та завдань Проактивне 
Управлінський проєкту, вирішення 
ризик Виявлення та Менеджер На фазі конфліктів, Менеджер 
управління ініціалізації виявлення та 
вирішення 
конфліктами в 
команді; непорозумінь. 
 
3.4 Планування якості стартапу 
Організація якості проєкту є ключовою частиною управління, що орієнтована 
на досягнення високих стандартів у створенні продукту чи послуги. Це включає 
формулювання вимог, розробку плану, визначення показників якості, організацію 
контролю, управління змінами та координацію з зацікавленими сторонами. 
Спершу потрібно чітко визначити вимоги до якості, зважаючи на очікування 
користувачів та специфіку продукту чи послуги. Це стає основою для створення 
якісного плану, який враховує методи оцінки, процеси контролю та відповідальних за 
виконання командних учасників, а також плани тестування. Показники якості мають 
служити конкретними критеріями оцінки успішності. Контроль якості 
організовується через заплановані етапи на різних фазах проєкту. Залучення 
зацікавлених сторін та налаштування механізмів управління змінами допомагають 
підтримувати якість на всіх етапах. 
Правильне планування забезпечує відповідність проєкту заданим вимогам і 
досягнення якості, знижуючи ризики і підвищуючи задоволеність клієнтів. Для 
гнучкого реагування на зміни, ідеально підходить методологія Agile, зокрема метод 
Scrum, що дозволяє оперативно визначати пріоритети. Змінювані вимоги можна 
ефективно керувати за допомогою інструментів, як-от Jira для завдань та Trello для 
візуалізації. 
Scrum забезпечує систематичне покращення якості, враховуючи як технічні 
аспекти, так і вимоги користувачів. Кожен спринт завершується готовим 
функціональним елементом продукту, що дозволяє регулярно контролювати й 
оцінювати якість. Регулярні ретроспективи забезпечують аналіз роботи команди та 
 48 
 
дають змогу знайти способи покращення, у тому числі за якістю. Scrum-команди 
також використовують автоматизоване тестування та інтеграційні практики для 
підтримки високих стандартів. 
Реалізація плану за Scrum: 
- Спринти: двотижневі цикли для розробки та визначення пріоритетів; 
- Backlog: створення та підтримка Product і Sprint Backlog для планування; 
- Планування спринту: щотижневе планування завдань; 
- Мітинги: щотижневі онлайн-зустрічі для моніторингу та вирішення проблем. 
- Ретроспективи: для оцінки процесу й покращень; 
- Демонстрації: показ виконаних робіт користувачам та отримання зворотного 
зв'язку. 
Цей підхід дозволяє команді адаптуватися до змін, зберігаючи високий рівень 
якості продукту, що відповідає потребам користувачів. Наступним кроком стане 
визначення користувацьких історій для аналізу функціональності й вимог до системи 
управління залишками на зовнішніх платформах. 
Як дослідник, я хочу, щоб у співпраці з відповідними особами з конфіденційних 
питань, ми змогли б згенерувати синтетичні дані без порушення стандартів безпеки з 
CSV-файлу. 
Як розробник презентацій, я хочу швидко згенерувати дані на основі своєї бази 
даних. 
Як тестувальник, я хочу створити швидкий потік синтетичних даних, який 
може бути використаний в будь-який момент. 
Складемо список вимог до продукту, які потрібно досягти, щоб задовольнити 
користувачів. 
1. За замовчуванням, забезпечити видалення оригінальних даних після 
генерації синтетичних. Якщо потрібно, користувач може змінити це налаштування 
для подальшої генерації синтетичних даних з різними параметрами створення 
синтетичних моделей. Додати можливість генерувати дані на вхід та вихід у форматі 
CSV. 
 49 
 
2. Забезпечити підключення до бази даних через різноманітні способи 
автентифікації. 
3. Створити API для потокового отримання синтезованих даних без затримок. 
Розрахунок йде на генерацію 100 тис. рядків синтетичних даних у секунду. 
Основна функціональність сервісу представлена в таблиці 3.2. 
Таблиця 3.2 – Основна функціональність сервісу 
Секція Функція 
Завантаження датасету 
Конфіденційні Аналіз статистичних характеристик 
оригінальні 
датасети Автоматичне видалення через заданий інтервал часу 
Видалення датасету 
Тренування нейронної моделі на базі датасету 
Нейронні моделі 
синтезу даних Генерація даних з датасету 
Видалення моделі 
Аналіз статистичних характеристик 
Синтетичні набори Порівняння з оригінальними статистичними характеристиками 
даних (згенеровані 
дані) Вивантаження датасету 
Видалення датасету 
Реєстрація користувача 
Вхід користувача 
Користувачі 
Редагування користувача 
Видалення користувача за його запитом 
 
Висновки до розділу 3 
У третьому розділі проведено детальне планування стартапу онлайн сервісу 
генерації синтетичних даних. Використання інструментів, таких як Microsoft Project 
Pro, дозволяє детально розробити структуру проєкту, чітко визначити етапи, терміни 
та відповідальних осіб, що суттєво полегшує управління часом та ресурсами. 
Діаграма Ґанта є наочним інструментом для візуалізації послідовності завдань і 
 50 
 
залежностей між ними, що допомагає уникнути затримок і забезпечує логічну 
послідовність робіт. 
Планування ресурсів відіграє критичну роль в оптимізації команди, 
забезпечуючи рівномірний розподіл завдань і уникнення перевантажень. Розподіл 
функцій на основі компетенцій дозволяє ефективніше використовувати людський 
ресурс, а контроль за бюджетом сприяє економії та збереженню фінансової 
стабільності. Крім того, важливим аспектом є моніторинг доступності ресурсів і 
запобігання конфліктам у завантаженні, що підвищує продуктивність команди. 
Аналіз ризиків, проведений за допомогою PEST- і SWOT-методів, допомагає 
оцінити потенційні загрози та можливості для стартапу. Розгляд макро- та мікро-
факторів дозволяє виявити й мінімізувати ризики, пов’язані з політичними, 
економічними, соціальними й технологічними змінами, забезпечуючи надійний 
захист для компанії. Ці заходи підтримують стійкість стартапу в умовах 
нестабільного зовнішнього середовища. Завершальним елементом є впровадження 
принципів якості в управлінні проєктом за методологією Scrum, що сприяє 
оперативному контролю та покращенню якості продукту на кожному етапі. Регулярні 
спринти, ретроспективи й тісна співпраця з користувачами дозволяють стартапу 
гнучко реагувати на зміни і досягати високих стандартів. 
 
 
 
 
  
 51 
 
4 ПРАКТИЧНІ НАПРАЦЮВАННЯ СТАРТАПУ ОНЛАЙН-СЕРВІСУ 
ГЕНЕРАЦІЇ СИНТЕТИЧНИХ ДАНИХ 
Для отримання інвесторів, що є основою стартапу для його просування, 
потрібно нагально розробити мінімальний демонстраційний матеріал у вигляді 
статей, свідоцтв про авторське право, а також сайту, що представляє собою візитну 
карточку стартапу. 
4.1 Удосконалення алгоритму генерації синтетичних даних 
Щоб покращити шанси на фінансування, потрібно спочатку покращити 
попередні результати [12-15]. 
Нагадаємо, що представляє собою попередня версія моделі генерації 
синтетичних даних. Це – покращена версія моделі TVAE [1]. Запропонована раніше 
архітектура мережі TVAE базована, як зрозуміло з назви, на VAE, де VAE – це тип 
нейронної мережі. 
TVAE (табличний варіаційний автокодер, рис. 4.1) відрізняється від 
стандартного VAE (варіаційного автокодера) тим, що спеціально пристосований для 
роботи з табличними даними. Модель VAE будується з двох основних компонентів – 
кодера та декодера. Кодер перетворює вхідні дані в компактне латентне 
представлення, яке має зменшену кількість вимірів і містить найважливішу 
інформацію. Декодер, у свою чергу, бере це латентне представлення та намагається 
відтворити вихід, максимально схожий на початкові вхідні дані. 
Цільова функція VAE складається з двох частин: вона зменшує різницю між 
вхідними та відтвореними даними (помилка реконструкції) та налаштовує латентний 
розподіл на заданий (як правило, гаусівський). Для цього додається регуляризація 
через розбіжність Кульбака-Лейблера, яка змушує вивчений латентний простір бути 
близьким до заданого розподілу. 
 52 
 
 
Рисунок 4.1 – Архітектура мережі TVAE 
В архітектурі TVAE для нормалізації було запропоновано використовувати 
модально-специфічний підхід, при якому безперервні дані спершу розбиваються на 
гаусовські моди (кластери) – групи зі схожим розподілом значень. Далі кожну з цих 
мод нормалізують окремо, орієнтуючись на її середнє та стандартне відхилення. Під 
час навчання мережі подається пара: нормалізоване значення з обраної моди і її 
номер, що допомагає швидше освоювати складні ймовірнісні розподіли. 
Однак такий підхід потребує обчислення параметрів варіативних гаусовських 
сумішей (Gaussian Mixture Models), що є ресурсоємним. Щоб спростити архітектуру, 
у моделі TVAE модально-специфічну нормалізацію замінили простішою технікою 
min-max нормалізації, яка масштабує значення до певного діапазону на основі їхніх 
мінімальних і максимальних значень у вибірці. 
Тож, попередня архітектура декодера є такою: 
 
⎧ℎ1 = ReLU 1FC"#$→"#$4��&67 ,
⎪⎪ℎ2 = ReLU4FC"#$→"#$(ℎ")6,
��<'&	~	tanh4FC"#$→"(ℎ#)6,   (4.1) 
⎨
⎪��D'&	~	softmax 1FC⎪ "#$→|)!|(ℎ#)7 ,
⎩p4��&L��
*" *#
&6 = ∏'+"Ρ4��<'& = ��'&6∏'+"Ρ4��D'& = ��'&6 ,
де ℎ1, ℎ2 – виходи першого та другого шарів відповідно, 
 53 
 
FC,→- – лінійний шар нейронної мережі, який приймає дані з X входів та 
виводить дані в Y виходів (нейронів); 
ReLU, tanh та softmax – активаційні функції нейронів; 
�� – латентний простір розміром ��; 
|��'| – кількість категорій в дискретних даних; 
��& – представлення одного табличного рядку (запису); 
p4��&L��&6 – змішаний розподіл вхідних даних ��<'& , ��D'&, які отримано з оригінальних 
вхідних даних ��&, якщо дано латентні дані ��&, �� = 1QQQ,Q��QQ; 
��. , ��/ – кількість неперервних та дискретних змінних (стовпців) у датасеті, 
відповідно. 
При подачі даних у нейронну мережу важливо коректно обробити дискретні та 
неперервні величини, оскільки це полегшує процес навчання та підвищує 
ефективність моделі. Неперервні (дійсні) дані зазвичай нормалізують до діапазону 
[0; 1] або до нульового середнього й одиничної дисперсії. Це зменшує ризик числової 
нестабільності, де значення ваг стають надто великими чи малими, що уповільнює 
або навіть ускладнює збіжність моделі. Нормалізація також знижує вплив аномальних 
значень і допомагає уникнути домінування окремих ознак із великими значеннями. 
Дискретні дані або категоріальні змінні потрібно перетворити у формат, який 
мережа сприйматиме коректно. Часто використовується one-hot кодування: кожній 
категорії відповідає окремий двійковий вектор, де лише одна позиція встановлена на 
1, а решта – на 0. Наприклад, якщо змінна має три можливі значення, то для її подання 
потрібен вектор із трьох елементів: [1, 0, 0], [0, 1, 0], [0, 0, 1]. 
Також, для символьних значень, наприклад «male» та «female», спочатку їх 
можна закодувати числовими значеннями (наприклад, 1 та 2), а потім перетворити на 
відповідні one-hot вектори. Це дозволяє зберегти унікальність категорій без 
порушення послідовності вхідних даних. 
Проаналізуємо шляхи удосконалення цієї моделі. Нещодавні досягнення в 
галузі глибоких генеративних моделей відкрили широкий спектр можливостей. 
Зокрема, з'явилися потужні методи на основі нейронних мереж, зокрема CTGAN і 
 54 
 
TVAE [1], які можуть краще вивчати розподіли, ніж байєсівські мережі, такі як 
запропоновані у [5,6], а у [2] автори запропонували OCT-GAN, генеративну модель 
на основі нейронних звичайних диференціальних рівнянь, яка в деяких випадках 
перевершує TVAE. Якість синтезу інвертованих табличних GAN [16] порівнянна з 
TVAE. Автори у [26] представляють MargCTGAN, покращену версію CTGAN для 
генерації синтетичних табличних даних, особливо в режимах з низькою вибіркою. 
CTAB-GAN+ [18] використовує втрати Вассерштейна з градієнтним штрафом для 
кращої збіжності навчання, а також додає втрати за течією до умовних GAN для 
отримання більш корисних синтетичних даних. 
Розглянемо модель PSVAE (Post-Selected Variational Auto-Encoder), що є 
результатом даної кваліфікаційної роботи магістра. Модель PSVAE базується на VAE 
і схожа на TVAE, але спрощена так, що навіть не містить min-max нормалізації. Для 
генерування неперервних синтетичних змінних реальні дані просто дискретизуються 
на відра і в нейромережу просто передаються індекси відер, закодовані у one-hot 
представлення. Кількість відер для кожного параметру (стовпця з датасету) дорівнює 
������4√��, 1006, де N – кількість записів у наборі даних. 
Для покращення узагальнення між прихованими шарами використовується 
сучасна гладка, неперервна, саморегульована, немонотонна активаційна функція 
mish, яка забезпечує кращі емпіричні результати, ніж Swish, ReLU та Leaky ReLU [19]. 
Її включено до більшості фреймворків ML, включаючи Pytorch [15]. У PSVAE вона 
використовується замість ReLU, на відміну від TVAE. Функція Mish визначається 
наступним чином. 
 ��(��) = �� tanh(ln(1 + ��0)). (4.2) 
Як і при звичайній реалізації VAE, цінова функція реконструкції (cross-entropy) 
та KL-дивергенція [21] гаусівських розподілів за µ і σ використовуються в лінійній 
комбінації. Однак у випадку TVAE до цінової функції реконструкції застосовується 
коефіцієнт 2, який погіршує продуктивність моделі на певних наборах даних. Для 
того, щоб досягти балансу між цими двома втратами, було розроблено простий 
алгоритм. Це балансування запозичене з β-VAE [22], де наступний підхід форми (4.3) 
 55 
 
не просто налаштовує гіперпараметр β, а оптимізує його автоматично під час кожного 
тренування (рис. 4.2).  
 
Рисунок 4.2 – Алгоритм оптимізації нульового порядку гіперпараметру β 
Це також покращує продуктивність механізму пост-селекції:  
 ��������(��, θ) = ��12(��, ��) + β��34(��, ��), (4.3) 
де ��������(��, θ) – цінова функція нейромережі, 
��12(��, ��) – цінова функція реконструкції датасету з латентного простору, 
��34(��, ��) – цінова функція регуляризації латентного простору, 
�� – вхідний пакет оригінальних даних, 
θ – загальна множина всіх параметрів нейромережі. 
Для вирішення проблеми незбалансованих наборів даних, таких як «credit» [23], 
cross-entropy зважується на зворотну частоту зустрічальності категорії (��&): 
 5
��0$
��(��, ��) = −h��& log ∗ �� , 
∑5 0 & (4.4) 
&+" '+" �� !
де �� ∈ ��5 – вхідний вектор логітів, де C – кількість можливих категорій, 
y – вектор правильного вихідного розподілу категорій (∑5&+"��& = 1), ��& = 1, 
якщо категорія під індексом �� – правильна, ��& = 0 – якщо ні, 
��& ∈ [0; 1] – вага категорії, �� = Q1QQ,Q��Q, 
C – кількість категорій у вихідному дискретному розподілі.  
 56 
 
Експериментальні результати покажуть, що цей підхід дає кращі результати з 
точки зору синтетичної якості даних порівняно з архітектурою TVAE. 
Однією з найважливіших частин PSVAE є «пост-селекція» (рис. 4.3). Цей 
механізм відіграє роль у збільшенні виходу VAE. Для цього з декодера відбирається 
початкова партія синтетичних даних і уточнюється шляхом заміни зразків даних 
новими з наступних згенерованих партій, за умови, що нові зразки позитивно 
впливають на розподіл згенерованих зразків даних (рис. 4.4). 
 
Рисунок 4.3 – Ілюстрація робочого процесу PSVAE 
 
Рисунок 4.4 – Алгоритм пост-селекції PSVAE 
TVAE, OCT-GAN та CTAB-GAN+ були відібрані для оцінки їх ефективності 
порівняно з PSVAE. Цікаво, що, незважаючи на те, що на етапі після пост-селекції 
використовується лише одновимірна подібність для перевірки згідності з 
оригінальними даними, модель PSVAE здатна успішно відтворювати статистичні 
хитросплетіння вихідних даних, тим самим підтверджуючи, що якість вивчених 
багатовимірних залежностей залишається недоторканою. 
 57 
 
В ході експериментів були використані L1-відстань [24], класифікаційна оцінка 
F1 та коефіцієнти кореляції Пірсона [5]. Для аналізу було обрано три набори даних 
(див. табл. 4.1). 
1. Інсульт мозку (Brain Stroke Dataset) [26]. 
2. Показники здоров'я при діабеті (Diabetes Health Indicators Dataset) [27]. 
3. Виявлення шахрайства з кредитними картками (Credit Card Fraud Detection) 
[23]. Має 31 стовпчик, де останній (Class) приймає значення 1 у випадку шахрайства 
і 0 в іншому випадку. Є лише 0,1% одиниць з 284 тис. нулів. Таким чином, це 
складний набір даних для статистичного відтворення. 
Таблиця 4.1 – Інформація про використані в експериментах набори даних 
Назва Кількість записів Кількість стовпців Стандартне F1 
Brain Stroke 4981 11 0.57 
Diabetes 253680 22 0.6 
Credit 284807 31 0.9 
 
«Стандартне F1» у таблиці 4.1 представляє собою значення F1, що змогла 
досягти натренована на 20% оригінального датасету звичайна двошарова 
нейромережа-класифікатор з функцією активації Mish для прогнозування 
відповідного значення датасету (для Brain Stroke це присутність інсульту, для 
Diabetes – присутність діаберу, для Credit – присутність шахрайства). Це допоможе 
порівняти наскільки моделі генерації синтетичних даних підходять для дослідників 
для тренування моделей на цих самих синтезованих даних. 
У таблиці 4.2 наведено результати тестування моделей, які було відібрано для 
аналізу, на всіх наборах даних. ��6 – час тренувального прогону епохи в секундах. 
Мережа класифікатору навчається на синтетичних даних, а потім тестується на 
реальних даних з вибраних наборів даних для обчислення середньої оцінки F1. 
Категоріальні значення у вигляді буквено-цифрових міток перетворюються в 
беззнакові послідовні цілі числа. 
L1-відстань використовується для вирахування різниці між двома дискретними 
розподілами випадкових величин, де кожне число у векторах ��, �� – кількість 
 58 
 
потраплянь у певний інтервал у дискретному розподілі. Чим L1-відстань ближче до 
0, тим ближче один до одного дискретні розподіли. 
Нормалізована L1-відстань між двома дискретними розподілами таблицями 
обчислюється наступним чином: 
 1
1
��7 = h|�� − �� | , 
�� ' ' (4.5) 
8+"
де ��, �� – вхідні вектори дискретних розподілів з ��-го (�� = 1QQQ,Q��QQ) стовпця першої 
та другої таблиць відповідно, 
�� – кількість рядків (записів) у таблиці, 
�� – кількість стовпців у таблиці, 
�� – розмірність дискретного розподілу (кількість «відер»). 
Тоді L1-відстань між розподілами двох таблиць обчислюється так: 
 !
1
��1 = h��7 . (4.6) 
��
'+"
Кореляційна відстань ρ визначена так: 
 9 9
1
ρ = #hhL��1'& − ��2 L, 
2�� '& (4.7) 
'+" &+"
 ∑!'+"(��' − ?̅?)(�� − ��Q)
��0: =
'
! ! 	, 
x∑ (�� − ?̅?)# ∑ (�� − ��Q)# (4.8) 
'+" ' '+" '
де �� – розмір квадратної матриці, 
��1'& – коефіцієнт кореляції Пірсона між стовпцями ��, �� першої таблиці, 
��2'& – коефіцієнт кореляції Пірсона між стовпцями ��, �� другої таблиці, 
��, �� – вибірки, 
?̅?, ��Q – вибіркові середні, 
�� – довжина векторів вибірок. 
Значення F1 визначається наступним чином [28]: 
 2����
��1 = , 
�� + �� (4.9) 
 59 
 
 ���� ����
�� = ; 	�� = ,  
���� + ���� ���� + ���� (4.10) 
де TP (true positives) – кількість правдивих позитивних прогнозів, 
FP (false positives) – кількість неправдивих позитивних прогнозів, 
FN (false negatives) – кількість неправдивих негативних прогнозів. 
PSVAE було натреновано на 100 епохах для кожного набору даних, з 10 
циклами пост-селекції для кожного синтетичного пакету даних. Використовується 
оптимізатор Adam зі швидкістю навчання 10;<. Один пакет складається з 500 
випадково вибраних записів. Під час експерименту продуктивність OCT-GAN та 
CTAB-GAN після навчання протягом 50 та 100 епох, відповідно, суттєво не зросла. 
Для навчання всіх моделей використовувався графічний процесор NVIDIA RTX 
4060. OCT-GAN і CTAB-GAN+ потребували значного часу для досягнення 
продуктивності, порівнянної з PSVAE. При навчанні на наборі даних Diabetes одна 
епоха для PSVAE займала 2 секунди, тоді як CTAB-GAN+ витрачала 5 секунд на 
епоху, а модель OCT-GAN виконувала одну епоху за 30 секунд. Таке уповільнення 
може бути пов'язане з високою складністю нейронних архітектур, що лежать в основі 
цих моделей. 
Таблиця 4.2 – Оцінка різних моделей генерації синтетичних даних 
Brain stroke Diabetes Credit 
Model ��! L1 F1 �� L1 F1 �� L1 F1 �� 
OCT-GAN 30 0.19 0.5 5.12 0.14 0.38 10.6 0.08 0.84 25.1 
CTAB-GAN+ 5 0.08 0.51 3.46 0.18 0.41 6.07 0.07 0.82 23.5 
TVAE 1 0.14 0.49 5.54 0.11 0.6 67.6 0.08 0.51 32.4 
PSVAE 2 0.01 0.55 1.76 0.01 0.45 12.1 0.01 0.83 15.8 
 
Як показано на рис. 4.5, PSVAE здатна врахувати всі складні деталі вихідних 
наборів даних. Попередні моделі не в змозі визначити більшість кореляцій, 
представлених в останньому стовпчику кредитного набору даних (чи є шахрайство), 
ймовірно, через незбалансований розподіл даних. Цікаво, що TVAE має кращі 
показники F1, що, ймовірно, пов'язано з дистиляцією даних шляхом апроксимації 
неперервних змінних гауссівськими сумішами. 
 60 
 
 
Рисунок 4.5 – Кореляції між змінними (а) набору даних про мозкові інсульти, (b) 
набору даних про діабет, (c) набору даних про кредити (у рядку (c) можна замітити, 
що TVAE не має належних кореляцій в останньому стовпчику) 
Результати дослідження абляції моделі PSVAE наступні: 
1. Заміна активації Mish на ReLU призводить до більших втрат і, відповідно, 
повільнішого навчання; 
2. Видалення категоріального зважування (4.4) або алгоритму коригування 
(рис. 4.2) заважає моделі вивчити складні кореляціїї (ρ) в датасеті, такі як ті, що 
спостерігаються в наборі кредитних даних; 
3. Видалення пост-селекції погіршує точність L1 до рівня TVAE, що вимагає 
більшої мережі і тривалішого часу навчання для усунення недостатньої 
пристосованості. 
Зрештою, PSVAE демонструє кращу продуктивність за L1-відстанню, 
порівнянні F1-оцінки, і в деяких випадках краще відтворення кореляцій для наборів 
даних різної складності, порівняно з попередніми рішеннями. TVAE має тенденцію 
погано відтворювати складні кореляції даних, хоча OCT-GAN вдається досягти 
хорошої ρ-відстані на наборі даних діабету. Тим не менш, попередні методи, що 
 61 
 
дають конкурентоспроможні результати, мають гірший час тренування порівняно з 
PSVAE. 
Дану модель було обернуто в бібліотеку на мові Rust та оформлено свідоцтво 
про авторське право на код бібліотеки (додаток В). 
Rust – це сучасна системна мова програмування, створена компанією Mozilla 
Research. Вона поєднує в собі високу продуктивність, подібну до C та C++, з 
надійністю та безпекою сучасних мов програмування [29]. 
Однією з головних особливостей Rust є її унікальна система керування 
пам'яттю. Замість використання збирача сміття, Rust застосовує концепції володіння 
(ownership) та запозичення (borrowing), які дозволяють компілятору перевіряти 
правильність роботи з пам'яттю ще на етапі компіляції. Це запобігає багатьом 
поширеним помилкам, таким як використання вже звільненої пам'яті чи гонки даних 
у багатопотокових програмах. 
Rust надає потужні інструменти для конкурентного програмування. Мова 
дозволяє безпечно працювати з потоками, підтримує асинхронне програмування та 
пропонує ефективні примітиви синхронізації. При цьому система типів Rust гарантує 
відсутність змагань за дані (data races) під час компіляції. 
4.2 Створення веб-сайту стартапу 
Важливою частиною стартапу є створення веб-сайту для демонстрації 
досягнутих результатів, щоб інвестори змогли збагнути великий потенціал самого 
стартапу. Для створення веб-сайту було використано фреймворк Angular. 
Angular – це потужний фреймворк з відкритим кодом для розробки веб-
додатків, створений і підтримуваний компанією Google. Він використовує TypeScript 
як основну мову програмування, що додає строгу типізацію та інші корисні функції 
до стандартного JavaScript, роблячи розробку більш надійною та передбачуваною. В 
основі Angular лежить компонентний підхід до розробки, де кожен елемент 
інтерфейсу є окремим компонентом з власною логікою, шаблоном і стилями. Це 
дозволяє створювати модульні та перевикористовувані частини додатку, значно 
 62 
 
спрощуючи процес розробки та подальшої підтримки. Фреймворк також надає 
потужну систему залежностей, яка допомагає ефективно організовувати код та 
керувати взаємодією між різними частинами програми [30]. 
Angular включає вбудовані інструменти для роботи з формами, 
маршрутизацією, HTTP-запитами та керуванням станом додатку. Він використовує 
концепцію двостороннього зв'язування даних, що автоматично синхронізує модель 
даних з представленням, роблячи розробку інтерактивних інтерфейсів більш простою 
та ефективною. Фреймворк також надає вбудовані механізми для оптимізації 
продуктивності, включаючи ефективне оновлення DOM та ліниве завантаження 
модулів. 
Особливістю Angular є його комплексний підхід до розробки, який включає все 
необхідне для створення масштабованих веб-додатків прямо з коробки. Фреймворк 
має активну спільноту розробників, регулярно оновлюється та має велику екосистему 
додаткових бібліотек і інструментів. Це робить його особливо привабливим для 
розробки великих корпоративних додатків, де важливі надійність, масштабованість 
та довгострокова підтримка. 
Для впровадження веб-сайту в Інтернет було застосовано платформу Cloudflare 
(рис. 4.6) для покупки доменного імені «synzetic.com». 
 
Рисунок 4.6 – Головна сторінка сайту cloudflare.com 
 63 
 
Cloudflare – це глобальна мережева платформа, яка забезпечує широкий спектр 
сервісів для покращення безпеки, продуктивності та надійності веб-сайтів та 
інтернет-додатків. Компанія управляє однією з найбільших у світі мереж доставки 
контенту (CDN), розташованою в сотнях дата-центрів по всьому світу, що дозволяє 
максимально наблизити контент до кінцевих користувачів. Основною функцією 
Cloudflare є захист веб-ресурсів від різноманітних кіберзагроз, включаючи DDoS-
атаки, спроби злому та шкідливий трафік. Платформа автоматично виявляє та блокує 
підозрілу активність, використовуючи складні алгоритми машинного навчання та 
постійно оновлювану базу даних загроз. При цьому легітимний трафік проходить 
через систему практично без затримок [31]. 
У сфері оптимізації продуктивності Cloudflare пропонує автоматичне 
кешування статичного контенту, оптимізацію зображень, мініфікацію коду та інші 
технології, які значно прискорюють завантаження веб-сторінок. Платформа також 
надає інструменти для балансування навантаження та маршрутизації трафіку, що 
забезпечує стабільну роботу сайтів навіть при високому навантаженні. 
В останні роки Cloudflare розширив свої послуги, додавши інноваційні рішення 
для розробників, такі як Workers (serverless платформа), R2 (об'єктне сховище) та 
Pages (платформа для хостингу статичних сайтів та JAMstack додатків). Ці сервіси 
дозволяють створювати та розгортати додатки безпосередньо на edge-мережі 
Cloudflare, забезпечуючи мінімальну латентність та високу масштабованість. 
Важливою перевагою Cloudflare є його простота використання – базовий захист 
можна налаштувати за кілька хвилин, просто змінивши DNS-записи домену. При 
цьому платформа пропонує як безкоштовний план для невеликих проєктів, так і 
розширені корпоративні рішення з додатковими можливостями та підтримкою. Це 
робить Cloudflare доступним як для особистих блогів, так і для великих 
корпоративних веб-проєктів. 
Для впровадження веб-сайту було застосовано платформу Vercel (рис. 4.7). 
 64 
 
 
Рисунок 4.7 – Головна сторінка сайту vercel.com 
 
Vercel – це сучасна платформа хмарного розгортання, яка спеціалізується на 
розміщенні веб-додатків та статичних сайтів з особливим фокусом на фронтенд 
розробку. Спочатку відома як ZEIT, компанія була перейменована на Vercel і стала 
стандартом для розгортання React додатків, особливо тих, що створені за допомогою 
Next.js, фреймворку, який сама компанія і розробляє. Ключовою особливістю Vercel 
є її надзвичайно простий процес розгортання. Платформа автоматично визначає тип 
проєкту та налаштовує оптимальне середовище для його роботи. Кожне розгортання 
створює унікальну URL-адресу для попереднього перегляду, що дозволяє легко 
тестувати зміни перед їх відправкою у продакшн. Інтеграція з системами контролю 
версій, такими як GitHub, GitLab чи Bitbucket, забезпечує автоматичне розгортання 
при кожному пуші в репозиторій [32]. 
Vercel надає потужну глобальну мережу серверів, що забезпечує швидку 
доставку контенту користувачам по всьому світу. Платформа використовує розумне 
кешування та оптимізацію на рівні edge-мережі, що значно покращує швидкість 
завантаження сторінок. Крім того, Vercel пропонує вбудовані аналітичні інструменти 
 65 
 
та моніторинг продуктивності, що допомагає розробникам відстежувати та 
оптимізувати роботу їхніх додатків. 
Важливою перевагою Vercel є її безкоштовний тарифний план, який надає 
достатньо ресурсів для особистих проєктів та невеликих команд. Платформа також 
пропонує розширені можливості для командної розробки, включаючи спільну роботу 
над проєктами, керування доступом та інтеграцію з популярними інструментами 
розробки. Це робить Vercel привабливим вибором як для індивідуальних розробників, 
так і для великих команд, що працюють над складними проєктами. 
Для налаштування сторінки контактів було використано сервіс Resend 
(рис. 4.8). 
Resend – це сучасна платформа для відправлення електронних листів, 
розроблена спеціально для розробників. Вона надає простий та надійний API для 
інтеграції email-функціоналу в додатки, роблячи процес відправки транзакційних та 
маркетингових листів максимально зручним та ефективним. Головною особливістю 
Resend є його орієнтованість на розробників, що проявляється у наявності чіткої 
документації, зручних SDK для різних мов програмування та фреймворків, 
включаючи Node.js, Python, PHP, Ruby та інші. Платформа підтримує React Email – 
інструмент для створення responsive email-шаблонів з використанням React 
компонентів, що значно спрощує процес розробки та підтримки email-дизайнів [33]. 
 66 
 
 
Рисунок 4.8 – Головна сторінка сайту resend.com 
Платформа забезпечує високу доставляємість листів завдяки автоматичній 
обробці bounce-повідомлень, спам-фільтрації та підтримці DKIM, SPF та DMARC. 
Resend також надає детальну аналітику відправлених листів, включаючи статистику 
відкриттів, кліків та відмов, що допомагає оптимізувати email-кампанії та 
покращувати взаємодію з користувачами. 
Resend пропонує гнучку систему тарифікації, яка включає безкоштовний план 
для розробників та масштабовані тарифи для бізнесу. Платформа також надає 
зручний веб-інтерфейс для управління шаблонами, моніторингу відправлень та 
налаштування домену, що робить її повноцінним рішенням для будь-яких потреб, 
пов'язаних з email-комунікацією. 
Розроблений веб-сайт виглядає наступним чином (рис. 4.9). 
 67 
 
 
Рисунок 4.9 – Верхня частина сторінки сайту synzetic.com 
Прокрутивши нижче, можна побачити різноманітні переваги (реклама) 
синтетичних даних (рис. 4.10). 
 
Рисунок 4.10 – Переваги синтетичних даних на synzetic.com 
Прокрутивши ще нижче, перед користувачем представляється картка з 
наочними результатами експериментів нової технології синтезу даних (рис. 4.11). 
 68 
 
 
Рисунок 4.11 – Показ проривної технології на synzetic.com 
Натиснувши в меню сайту на кнопку «Get in Touch», користувач попадає на 
сторінку контактування (рис. 4.12). 
 
Рисунок 4.12 – Сторінка контакту на synzetic.com 
Якщо користувач натисне посилання «Technology» у меню сайту, він попаде на 
сторінку з інформацію про технологію. Це надає користувачу-інвестору переконання, 
що розробники справді знаються в своїй справі. 
 69 
 
 
Рисунок 4.13 – Сторінка опублікованої статті на платформі arXiv про технологію 
генерації синтетичних даних [34] 
Код розмітки сайту представлено в додатку Б. 
Висновки до розділу 4 
У четвертому розділі розглянуто практичні аспекти, необхідні для розвитку 
стартапу, зокрема зосереджено увагу на удосконаленні моделі генерації синтетичних 
даних і створенні базових матеріалів для презентації стартапу інвесторам. Визначено, 
що для привернення уваги до проєкту важливо мати мінімальний набір 
демонстраційних матеріалів, таких як наукові статті, авторські свідоцтва на інновації, 
а також розроблений сайт-візитка, який допоможе представляти продукт на ринку та 
підвищити його привабливість для потенційних вкладників. Особливу увагу 
приділено розвитку алгоритму на основі VAE (варіаційного автокодера), що 
використовується для генерації табличних даних, які мають значення для багатьох 
комерційних завдань. 
Однією з ключових частин стало вдосконалення архітектури TVAE для 
поліпшення здатності синтезувати табличні дані, особливо в умовах складних та 
незбалансованих вибірок. Модель PSVAE, розроблена на базі TVAE, покращує 
 70 
 
попередні результати, зокрема завдяки використанню активаційної функції Mish. 
Крім того, було застосовано механізм автоматичного налаштування гіперпараметру β 
для забезпечення оптимальної збалансованості між реконструкцією та 
регуляризацією латентного простору. Експериментальні дані підтвердили, що підхід 
у PSVAE дозволяє точніше відтворювати багатовимірні кореляції, особливо при 
генерації синтетичних даних для навчання моделей, де потрібне збереження складних 
залежностей між параметрами. Додатковим важливим елементом є механізм «пост-
селекції», який сприяє поліпшенню якості синтетичних даних за рахунок уточнення 
згенерованих зразків. Це дає змогу моделі постійно коригувати вихідні дані, 
вибираючи найбільш якісні варіанти для подальшого використання. 
В ході експериментів модель PSVAE показала високу продуктивність та 
здатність створювати якісні синтетичні дані з низькою похибкою (L1-відстань) та 
високим значенням F1, що підкреслює її потенціал для подальшого використання у 
проєктах, які вимагають великих обсягів даних. PSVAE здатна відтворювати навіть 
тонкі статистичні залежності, що робить її привабливою для задач з виявлення 
аномалій, таких як виявлення шахрайства з кредитними картками.  
Розроблений сайт стартапу є важливим інструментом залучення інвесторів та 
клієнтів, а також демонстраційною платформою для інноваційного продукту. Сайт 
побудовано за принципом «візитної картки», де чітко представлено основні аспекти 
проєкту: ключові переваги синтетичних даних, посилання на технологія. Важливим 
елементом є наявність інформації про результати експериментів, що підтверджують 
якість даних, створених моделлю PSVAE. 
Завдяки вдосконаленню моделі синтетичних даних, стартап може претендувати 
на фінансування та підтримку інвесторів, орієнтованих на ринок великих даних та 
аналітичних інструментів. 
  
 71 
 
ВИСНОВКИ 
Стартап з розробки онлайн-сервісу генерації синтетичних даних має значні 
перспективи, оскільки сучасний ринок дедалі більше потребує безпечних та 
конфіденційних рішень для тестування, навчання моделей і проведення досліджень.  
Запропонована бізнес-модель включає B2C- і B2B-напрямки, орієнтовані на 
індивідуальних користувачів і компанії, що дозволяє максимально відповідати 
потребам різних сегментів ринку. Ретельне управління проєктом з використанням 
діаграми Ґанта та методології Scrum забезпечує ефективний розподіл завдань і 
гнучкість у покращенні якості продукту на кожному етапі. Підтримка прозорості та 
демонстрація результатів через сайт-візитку сприяють залученню інвесторів і 
клієнтів, підвищуючи їхню довіру до проєкту. 
Розроблена інноваційна модель PSVAE демонструє високий потенціал у 
генерації синтетичних даних, зокрема для складних задач, де важливо зберігати 
багатовимірні кореляції між параметрами. Завдяки вдосконаленій архітектурі на 
основі TVAE, використанню активаційної функції Mish, автоматичному 
налаштуванню гіперпараметру β, а також пост-селекції вихідних даних, PSVAE 
забезпечує точне відтворення статистичних залежностей у даних, знижуючи похибки 
та покращуючи якість результатів. 
У результаті роботи було розроблено концепцію та план для стартапу, який 
займається створенням онлайн-сервісу для генерації синтетичних даних з 
використанням сучасних нейронних мереж. Було проведено аналіз ринку, визначено 
ключові потреби клієнтів та вимоги до безпеки даних, а також розроблено детальний 
план проєкту з урахуванням ресурсів, ризиків та управління. Окрему увагу приділено 
технологічним аспектам, зокрема вдосконаленню алгоритмів генерації даних і 
забезпеченню високої якості синтетичних даних, що дозволяє застосовувати їх для 
навчання моделей, тестування та аналітики. Також розроблено стратегію просування 
та залучення інвесторів через створення демонстраційних матеріалів і веб-платформи 
для презентації продукту. 
 
 72 
 
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 
1. Lei Xu, Maria Skoularidou, Alfredo Cuesta-Infante, Kalyan Veeramachaneni. 
Modeling Tabular data using Conditional GAN. URL: https://arxiv.org/abs/1907.00503 
(дата звернення: 03.11.2024). 
2. Jayoung Kim, Jinsung Jeon, Jaehoon Lee, Jihyeon Hyeong, Noseong Park. OCT-
GAN: Neural ODE-based Conditional Tabular GANs. URL: 
https://arxiv.org/abs/2105.14969 (дата звернення: 03.11.2024). 
3. Synthetic data. URL: https://en.wikipedia.org/wiki/Synthetic_data (дата 
звернення: 03.11.2024). 
4. Байєсова мережа. URL: https://uk.wikipedia.org/wiki/Байєсова_мережа (дата 
звернення: 03.11.2024). 
5. C Chow and Cong Liu. Approximating discrete probability distributions with 
dependence trees. URL: https://cs.nyu.edu/~roweis/csc2515-2006/readings/chowliu.pdf 
(дата звернення: 03.11.2024). 
6. Jun Zhang, Graham Cormode, Cecilia M Procopiuc, Divesh Srivastava, and 
Xiaokui Xiao. Privbayes: Private data release via bayesian networks. URL: 
https://dl.acm.org/doi/pdf/10.1145/3134428 (дата звернення: 03.11.2024) 
7. Генеративна змагальна мережа. URL: https://uk.wikipedia.org/wiki/ 
Генеративна_змагальна_мережа (дата звернення: 03.11.2024). 
8. Варіаційний автокодувальник. URL: https://uk.wikipedia.org/wiki/ 
Варіаційний_автокодувальник (дата звернення: 03.11.2024). 
9. About Tonic. URL: https://docs.tonic.ai/app (дата звернення: 03.11.2024). 
10. About us – Mostly.ai. URL: https://mostly.ai/about-us (дата звернення: 
03.11.2024). 
11. Introduction – Syntho.ai. URL: https://www.syntho.ai/about-syntho (дата 
звернення: 03.11.2024). 
12. Шулаков В., Сіньковський А., Триус Ю. Розподілена система генерування 
синтетичних медичних даних // Актуальні завдання медичної, біологічної фізики та 
інформатики. Матеріали доповідей та виступів ІІІ всеукраїнської науково-практичної 
 73 
 
конференції з міжнародною участю 5-6 квітня 2024 року Вінниця. Вінниця: 
Едельвейс. С. 29-33. 
13. Шулаков В., Сіньковський А., Триус Ю. Інформаційна технологія 
генерування синтетичних медичних даних на основі нейронних мереж // Актуальні 
завдання медичної, біологічної фізики та інформатики. Матеріали доповідей та 
виступів ІІ всеукраїнської науково-практичної конференції з міжнародною участю 7 
квітня 2023 року Вінниця. Вінниця: Едельвейс. С. 76-82. 
14. Шулаков В.В., Бойко В.В., Сіньковський А.П. Інформаційна технологія 
генерування синтетичних медичних даних на основі нейронних мереж //  Збірник тез 
доповідей студентської науково-практичної конференції ЧДТУ: 18–20 квіт. 2023 р. 
[Електронний ресурс] / [упоряд. : Єгорова О. В., Захарова О. В., Кисельов В. Б. та ін.]; 
М-во освіти і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2023. С. 31. 
15. Шулаков В.В., Триус Ю.В. Генерація синтетичних даних на основі 
нейронних мереж в режимі розподіленої системи //  Збірник тез доповідей 
студентської науково-практичної конференції ЧДТУ: 23–24 квітня 2024 р. 
[Електронний ресурс] / [упоряд. : Єгорова О. В., Захарова О. В., Тичков В. В. та ін.]; 
М-во освіти і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2024. С. 29; 
16. Lee, Jaehoon. Invertible Tabular GANs: Killing Two Birds with OneStone for 
Tabular Data Synthesis. Neural Information Processing Systems. 2022. 
17. Afonja T., Chen D., Fritz M. MargCTGAN: A “Marginally” Better CTGAN for 
the Low Sample Regime. Lecture Notes in Computer Science. Cham, 2024. С. 524–537. 
18. Z. Zhao et al. CTAB-GAN+: enhancing tabular data synthesis. Frontiers in Big 
Data. 2024. Т. 6. 
19. Misra D. Mish: A self regularized non-monotonic activation function. arXiv.org. 
URL:  https://doi.org/10.48550/arXiv.1908.08681 (дата звернення: 06.11.2024). 
20. PyTorch. URL: https://pytorch.org (дата звернення: 03.11.2024). 
21. Розходження Кульбака-Лейблера. URL: https://uk.wikipedia.org/wiki/ 
Розходження_Кульбака_—_Лейблера (дата звернення: 03.11.2024). 
22. Higgins, I., Matthey, L., Pal, A., Burgess, C., Glorot, X., Botvinick, M., 
Mohamed, S., and Lerchner, A. beta-VAE: Learning basic visual concepts with a 
 74 
 
constrained variational framework. In International Conference on Learning 
Representations. 2017. 
23. Credit Card Fraud Detection. URL: https://www.kaggle.com/datasets/mlg-
ulb/creditcardfraud (дата звернення: 03.11.2024). 
24. Мангеттенська метрика. URL: https://uk.wikipedia.org/wiki/Мангеттенська 
_метрика (дата звернення: 03.11.2024). 
25. Коефіцієнт кореляції Пірсона. URL: https://uk.wikipedia.org/wiki/ 
Коефіцієнт_кореляції_Пірсона (дата звернення: 03.11.2024). 
26. Brain Stroke Dataset. URL: https://www.kaggle.com/datasets/ 
jillanisofttech/brain-stroke-dataset (дата звернення: 03.11.2024). 
27. Diabetes Health Indicators Dataset. URL: https://www.kaggle.com/datasets/ 
alexteboul/diabetes-health-indicators-dataset (дата звернення: 03.11.2024). 
28. Sasaki Y. The truth of the F-measure. Teach Tutor Mater. 2007. Vol. 1. 
29. Rust Programming Language. URL: https://www.rust-lang.org (дата звернення: 
03.11.2024). 
30. Angular. URL: https://angular.dev (дата звернення: 08.11.2024). 
31. Cloudflare. URL: https://www.cloudflare.com (дата звернення: 08.11.2024). 
32. Vercel. URL: https://vercel.com (дата звернення: 08.11.2024). 
33. Resend. URL: https://resend.com (дата звернення: 08.11.2024). 
34. Shulakov Volodymyr. High-Quality Tabular Data Generation using Post-Selected 
VAE. arXiv.org. URL: https://doi.org/10.48550/arXiv.2407.13016 (дата звернення: 
06.11.2024) 
  
 75 
 
ДОДАТОК А 
 
 
 
        Затверджую               
Зав. кафедри КНСА, 
______________ Юрій ТРИУС 
«____»____________2024 р. 
 
 
 
 
УПРАВЛІННЯ СТАРТАПОМ СТВОРЕННЯ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ 
СИНТЕТИЧНИХ ДАНИХ НА БАЗІ НЕЙРОННИХ МЕРЕЖ 
 
 
Специфікація  
482.ЧДТУ.42308-01 01 01 
 
Листів 1 
 
 
 
 
 
 
 
Розробник                           ____________________ Шулаков В.В. 
Керівник                              ____________________ Триус Ю.В. 
 
 
 
 
 
 
 
 
 
 
Черкаси – 2024  
 76 
 
482.ЧДТУ.42308-01 
Позначення Найменування Примітка 
   
 Документація  
   
482.ЧДТУ.42308-01 12 01 Програмний код сайту  
стартапу 
   
482.ЧДТУ.42308-01 90 01 Публікація результатів  
дослідження 
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
 
 77 
 
ДОДАТОК Б 
 
 
        
 
 
УПРАВЛІННЯ СТАРТАПОМ СТВОРЕННЯ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ 
СИНТЕТИЧНИХ ДАНИХ НА БАЗІ НЕЙРОННИХ МЕРЕЖ 
 
 
Програмний код сайту стартапу 
482.ЧДТУ.42308-01 12 01 
 
Листів 4 
 
 
 
 
 
Розробник ____________________ Шулаков В.В. 
 
 
 
 
 
 
 
Черкаси – 2024  
 78 
 
home.component.html 
 
<div class="container"> 
  <div class="main-section"> 
    <img ngSrc="assets/images/laptop.jpg" loading="eager" width="800" height="500" 
         class="laptop-img-lessThan1150px"> 
 
    <div class="main-section__left"> 
      <div class="main-section__title"> 
        Unleash the Synthetic Power 
      </div> 
 
      <div class="main-section__description"> 
        <div class="main-section__description__inner"> 
          Our state-of-the-art technology creates high-quality, 
          realistic data that preserves privacy and enables limitless possibilities for training, 
testing, and 
          innovation. 
        </div> 
      </div> 
 
      <div class="start-button" routerLink="/contact">Let's discuss Your needs</div> 
    </div> 
 
    <img ngSrc="assets/images/laptop.jpg" loading="eager" width="800" height="500" class="laptop-img"> 
  </div> 
 
  <div class="section-spacer"></div> 
 
  <div class="section2"> 
    <div class="section2__card"> 
      <div><i class="pi pi-chart-bar"></i> Realistic Data Modeling</div> 
      <div>Our proprietary algorithms ensure synthetic data is statistically indistinguishable from 
real-world data, 
        capturing complex patterns and distributions. 
      </div> 
    </div> 
    <div class="section2__card"> 
      <div><i class="pi pi-sliders-v"></i> Customizable Data Types</div> 
      <div>Generate synthetic data for a wide range of data types, taking advantage of universal 
discrete and continuous 
        data, tailored to your specific needs. 
      </div> 
    </div> 
    <div class="section2__card"> 
      <div><i class="pi pi-server"></i> Scalable Generation</div> 
      <div>Effortlessly scale up or down data generation to meet your project's requirements, from 
small datasets to 
        massive volumes. 
      </div> 
    </div> 
    <div class="section2__card"> 
      <div><i class="pi pi-users"></i> Differential Privacy</div> 
      <div>Maintain data privacy and regulatory compliance by generating synthetic data that is 
disconnected from real 
        individuals. 
      </div> 
    </div> 
    <div class="section2__card"> 
      <div><i class="pi pi-link"></i> Seamless Integration</div> 
      <div>Easily integrate synthetic data into your existing data platforms, pipelines, and workflows. 
      </div> 
    </div> 
  </div> 
 
  <div class="section-spacer"></div> 
 79 
 
 
  <div class="section3__title">Synthetic data is everywhere</div> 
 
  <div class="section3"> 
    <div class="section3__card"> 
      <div class="section3__card__title">Healthcare</div> 
      <img ngSrc="assets/images/health.jpg" width="300" height="40" class="section3__img"> 
      <div class="section3__description">Accelerate medical research and train AI models with privacy-
compliant 
        synthetic 
        patient data, without risking 
        real patient information. 
      </div> 
    </div> 
 
    <div class="section3__card"> 
      <div class="section3__card__title">Finance</div> 
      <img ngSrc="assets/images/finance.jpg" width="300" height="40" class="section3__img"> 
      <div class="section3__description">Conduct stress testing, risk modeling, and fraud detection on 
synthetic 
        financial 
        data, ensuring data security 
        and confidentiality. 
      </div> 
    </div> 
 
    <div class="section3__card"> 
      <div class="section3__card__title">Automotive</div> 
      <img ngSrc="assets/images/automotive.jpg" width="300" height="40" class="section3__img"> 
      <div class="section3__description">Test and validate autonomous vehicle systems using synthetic 
sensor data, 
        replicating real-world scenarios in a controlled environment. 
      </div> 
    </div> 
 
    <div class="section3__card"> 
      <div class="section3__card__title">Retail</div> 
      <img ngSrc="assets/images/retail.jpg" width="300" height="40" class="section3__img"> 
      <div class="section3__description">Analyze customer behavior and optimize marketing strategies 
using synthetic 
        customer data, without compromising personal information. 
      </div> 
    </div> 
  </div> 
 
  <div class="section-spacer"></div> 
 
  <div class="section4"> 
    <div class="section4__ours"> 
      <div class="section4__info"> 
        <div class="section4__title">Groundbreaking Technology</div> 
        <div class="section4__description"> 
          We leverage cutting-edge neural networks and algorithms to create synthetic data that 
captures 
          the complex relationships and patterns found in real-world data. 
          To show why our tech is better, here we present bivariate data generation results using 
different 
          systems. 
        </div> 
      </div> 
 
      <div class="section4__sample-ours"> 
        <div style="font-weight: 500">Our result</div> 
        <img ngSrc="assets/images/comparison/out_ours.jpg" width="300" height="300"> 
      </div> 
      <div class="section4__sample"> 
        <div>Original dataset</div> 
        <img ngSrc="assets/images/comparison/data_original.jpg" width="300" height="300"> 
 80 
 
      </div> 
 
      <div class="section4__sample"> 
        <div>Tonic.ai result</div> 
        <img ngSrc="assets/images/comparison/out_tonic.jpg" width="300" height="300"> 
      </div> 
      <div class="section4__sample"> 
        <div>Mostly.ai result</div> 
        <img ngSrc="assets/images/comparison/out_mostly.jpg" width="300" height="300"> 
      </div> 
      <div class="section4__sample"> 
        <div>OSS solution result</div> 
        <img ngSrc="assets/images/comparison/out_oss.jpg" width="300" height="300"> 
      </div> 
    </div> 
  </div> 
 
  <div class="section-spacer"></div> 
 
  <div class="section5"> 
    <div class="section5__center"> 
      <div> 
        The synthetic financial data generated by Synzetic has been instrumental in our risk modeling 
        and stress testing processes, providing us with a secure and compliant solution. 
      </div> 
      <div class="section5__author"> 
        <img ngSrc="assets/images/sink.jpg" width="60" height="60" class="section5__icon"> 
        Artem Sinkovskyi, Chief Risk Officer, BR Protection 
      </div> 
    </div> 
  </div> 
</div> 
 
contact.component.html 
<div class="section1"> 
  <div class="window"> 
    <div class="title">Let's talk</div> 
    <div class="spacer-20px"></div> 
 
    <div class="section1__illustration__wrapLess1000px"> 
      <img ngSrc="assets/images/contacting.jpg" loading="eager" alt="" width="937" height="806" 
           class="section1__illustration"> 
 
      <div class="spacer-30px"></div> 
    </div> 
 
    <div class="sub_title">Enter your information below or email us at contact&#64;synzetic.com</div> 
    <div class="spacer-20px"></div> 
 
    <div class="form_column"> 
      <app-form-input type="text" class="spacer" [formControl]="form.controls.firstName"> 
        <div *appCustomLabel>First name *</div> 
      </app-form-input> 
      <app-form-input type="text" class="spacer" [formControl]="form.controls.lastName"> 
        <div *appCustomLabel>Last name *</div> 
      </app-form-input> 
    </div> 
    <div class="spacer-20px"></div> 
 
    <app-form-input type="email" class="spacer" [formControl]="form.controls.email"> 
      <div *appCustomLabel>Email *</div> 
    </app-form-input> 
    <div class="spacer-20px"></div> 
 
    <app-form-input type="text" class="spacer" [formControl]="form.controls.company"> 
 81 
 
      <div *appCustomLabel>Company *</div> 
    </app-form-input> 
    <div class="spacer-20px"></div> 
 
    <app-form-input type="multiline" class="spacer" [formControl]="form.controls.message"> 
      <div *appCustomLabel>Message *</div> 
    </app-form-input> 
    <div class="spacer-30px"></div> 
 
    <button type="submit" class="submit_but" (click)="onSubmit()" 
            [disabled]="isSending || isSent">{{ isSending ? "..." : isSent ? "Your message has been 
sent. Thanks!" : "Submit" }} 
    </button> 
 
    <div class="error">{{ err }}</div> 
  </div> 
 
  <div class="section1__illustration__wrap"> 
    <img ngSrc="assets/images/contacting.jpg" loading="eager" alt="" width="937" height="806" 
         class="section1__illustration"> 
  </div> 
</div> 
 
external-link.component.html 
<a class="container" [href]="href" target="_blank" rel="noopener noreferrer"> 
  <ng-content></ng-content> 
  <div style="width: 8px"></div> 
  <i class="pi pi-arrow-up-right" style="font-size: 10px"></i> 
</a> 
  
 82 
 
ДОДАТОК В 
 
 
 
 
 
УПРАВЛІННЯ СТАРТАПОМ СТВОРЕННЯ ОНЛАЙН-СЕРВІСУ ГЕНЕРАЦІЇ 
СИНТЕТИЧНИХ ДАНИХ НА БАЗІ НЕЙРОННИХ МЕРЕЖ 
 
 
Публікація результатів дослідження  
482.ЧДТУ.42308-01 90 01 
 
Листів 5 
 
 
 
 
 
Розробник ____________________ Шулаков В.В. 
 
 
 
 
 
 
 
 
Черкаси – 2024  
 83 
 
В.1. Публікації з теми кваліфікаційної роботи 
URL: https://dspace.vnmu.edu.ua/handle/123456789/6161 
 
 
 
 84 
 
URL: 
https://er.chdtu.edu.ua/bitstream/ChSTU/4894/5/Збірник%20тез%20доповідей%20ДСН
_2024_МАКЕТ.pdf 
 
 85 
 
 
  
 86 
 
URL: https://doi.org/10.48550/arXiv.2407.13016 
 
 
 87 
 
В.2. Свідоцтво про реєстрацію авторського права 
URL: https://iprop-ua.com/cr/2z9qwvgr
ChSTU repository

ChSTU repository preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets