Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/9021| Title: | A comparative analysis of CodeBERT and CodeLlama models: Architecture, functionality and application in software coding tasks |
| Other Titles: | Порівняльний аналіз моделей CodeBERT та CodeLlama: архітектура, функціональність та застосування в задачах програмного кодування |
| Authors: | Deineha, Oleksandr Arshava, Olena Zhovtonizhko, Irіna Дейнега, Олександр Аршава, Олена Жовтоніжко, Ірина |
| Keywords: | large language models;encoder transformer architecture;decoder architecture;systemic and functional analysis;optimisation model;statistical analysis;natural language processing;великі мовні моделі;ентрансформерна архітектура;декодерна архітектура;системний та функціональний аналіз;оптимізаційна модель;статистичний аналіз;обробка природної мови |
| Issue Date: | 2025 |
| Publisher: | Вісник Черкаського державного технологічного університету |
| Abstract: | The relevance of the research was conditioned by the need to compare the large language models
CodeBERT and CodeLlama, which were actively used for automating code generation and analysis with the aim
of improving the efficiency and quality of software. The aim of the study was a comprehensive juxtaposition
of the architectural and functional characteristics of the selected language models CodeBERT and CodeLlama.
Interpretative, comparative, systemic and structural-categorical analyses were used to study the architectures,
tasks, and relevance of the models. A comprehensive comparative analysis of the CodeBERT and CodeLlama
models was carried out according to key parameters: model architecture (the RoBERTa encoder architecture in
CodeBERT versus the Llama 2 decoder architecture in CodeLlama), the scale and sources of training data, the range
of supported tasks, performance on benchmark datasets, advantages and limitations, typical areas of application,
and conditions of accessibility and licensing. The results showed that the difference in architecture and training
data significantly affected the effectiveness of the models in different types of tasks, and also determined the
practical capabilities and limitations. Particular attention was paid to the issues of implementing the models
in practical scenarios, taking into account hardware resources and licensing policy. The results showed that
CodeLlama required significantly greater computational resources for effective operation, whereas CodeBERT was
easier to implement on standard equipment. It was also established that the licensing conditions of CodeLlama
were more restrictive, which could complicate its use in commercial projects, in contrast to CodeBERT with an
open licence. It was concluded that these models performed predominantly complementary functions: CodeBERT
was an effective tool for code-understanding tasks, whereas CodeLlama demonstrated high results in generation
tasks. The conclusions outlined the challenges and prospects for the development of next-generation models with
multitasking and multimodality. Practical value – assistance to developers and researchers in choosing the optimal
tool, taking into account technical and licensing aspects. Актуальність дослідження зумовлена потребою порівняти великі мовні моделі CodeBERT і CodeLlama, які активно використовують для автоматизації генерації та аналізу коду з метою підвищення ефективності й якості програмного забезпечення. Метою дослідження було всебічне зіставлення архітектурних, функціональних характеристик обраних мовних моделей CodeBERT і CodeLlama. Використано інтерпретативний, порівняльний, системний та структурно-категоріальний аналізи для вивчення архітектур, завдань та релевантності моделей. Здійснено всебічний порівняльний аналіз моделей CodeBERT і CodeLlama за ключовими параметрами: архітектура моделей (архітектура енкодер RoBERTa у CodeBERT проти декодерної архітектури Llama 2 у CodeLlama), масштаб і джерела навчальних даних, спектр підтримуваних завдань, продуктивність на еталонних бенчмарках, переваги та обмеження, типові сфери застосування та умови доступності й ліцензування. Результати показали, що різниця в архітектурі та навчальних даних суттєво впливає на ефективність моделей у різних типах завдань, а також визначає їх практичні можливості й обмеження. Особливу увагу приділено питанням впровадження моделей у практичні сценарії, з урахуванням апаратних ресурсів і ліцензійної політики. Результати показали, що CodeLlama потребує значно більших обчислювальних ресурсів для ефективної роботи, тоді як CodeBERT є більш легким у впровадженні на стандартному обладнанні. Також було встановлено, що ліцензійні умови CodeLlama є більш обмежувальними, що може ускладнити його використання у комерційних проєктах, на відміну від CodeBERT із відкритою ліцензією. Зроблено висновок, що ці моделі виконують переважно взаємодоповнювальні функції: CodeBERT є ефективним інструментом для задач розуміння коду, тоді як CodeLlama демонструє високі результати в задачах генерації. У висновках окреслено виклики й перспективи розвитку моделей нового покоління з мультизадачністю та мультимодальністю. Практична цінність – допомога розробникам і дослідникам у виборі оптимального інструменту з урахуванням технічних і ліцензійних аспектів |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/9021 |
| ISSN: | 2306-4412 (print) 2708-6070 (online) |
| DOI: | https://doi.org/10.62660/bcstu/4.2025.128 |
| Volume: | 30 |
| Issue: | 4 |
| First Page: | 128 |
| End Page: | 142 |
| Appears in Collections: | том 30, №4/2025 |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| 12.pdf | 471.39 kB | Adobe PDF | ![]() View/Open | |
| зміст.pdf | 143.09 kB | Adobe PDF | ![]() View/Open | |
| титул.pdf | 202.08 kB | Adobe PDF | ![]() View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.


