Дублювання коду — термін відомий із програмування, під яким розуміється, що деякі ділянки початкового коду можуть зустрічатися більш, ніж один раз, як всередині однієї, так і в всередині декількох програм. Дублювання є ознакою так званого «поганого коду» або «коду з запахом» (англ.Code smell),[1] тому що саме через дублювання збільшується довжина коду. Послідовності дублікатів іноді називають клонами.
Причини за яких дві частини коду можуть вважатися дублікатами
Посимвольний збіг;
Посимвольний збіг, з ігноруванням пробільних символів і коментарів;
Збіг за лексемами;
Частковий збіг за лексемами;
Функціональний збіг;
Звідки з'являються дублікати коду
Причини виникнення дублікатів коду:
Програмування копіюванням-вставленням, при якому ділянки коду копіюються через те, що «це працює». У більшості випадків така операція вимагає невеликих змін перенесеного коду, наприклад перейменування змінних або додавання/видалення окремих ділянок.
Бажана функціональність дуже схожа на вже наявну в іншій частині програми, і програміст створює код дуже близький до того, який вже існує.[2]
Плагіат, коли код просто копіюється без дотримання прав або будь-яких умов.
Проблеми до яких призводять дублікати коду
Дублювання коду є ознакою низького стилю програмування. Гарний стиль програмування звичайно заснований на повторному використанні коду. Може здаватися, що використання дублікатів дозволить дещо прискорити процес створення програми, так як програмісту не потрібно буде думати над тим, як код використовується і як він може використовуватися надалі. Однак проблема полягає в тому, що написання коду це лише невелика частина життєвого циклу продукту, і подальший супровід коду з дублікатами буде занадто ускладненим.[3] Ось кілька проблем до яких призводить дублювання коду:
Велика кількість коду ускладнює його розуміння: дублювання коду часто призводить до створення довгих, повторюваних послідовностей коду які відрізняються лише кількома рядками або символами.
Приховане значення: важко вловити різницю в повторюваних ділянках коду, і тому стає важче розуміти для чого саме призначена та чи інша частина коду. Найчастіше, єдина різниця полягає в параметрах. У цій ситуації найкраще використовувати процедури і функції.
Аномалії оновлення: дублювання коду суперечить основному принципу теорії баз даних: «Уникайте надмірності». Невиконання цього принципу призводить до аномалій оновлення, які сильно збільшують витрати на обслуговування коду. У цьому випадку одну і ту ж зміну потрібно ввести в усі дублікати. І в кращому випадку, час витрачений на внесення змін і тестування коду збільшується пропорційно кількості дублікатів. А в гіршому — деякі місця в коді можуть бути пропущені, і виправлення всіх помилок може зайняти місяці або навіть роки. Намагайтеся використовувати бібліотеки коду у такій ситуації.
Розмір файлу: без застосування будь-якого стиснення, файл початкового коду займатиме більше місця на твердому диску.
Пошук дублікату коду
Існує певна кількість алгоритмів які дозволяють відшукати дублікати коду. Наприклад:
ConQAT [Архівовано 30 вересня 2013 у Wayback Machine.][14][15] (Open Source, підтримує: ABAP, ADA, Cobol, C / C++, C#, Java, PL / I, PL / SQL, Python, Text, Transact SQL, Visual Basic, XML)
JCCD [Архівовано 21 березня 2018 у Wayback Machine.] — Гнучке API для знаходження дублікатів коду для Java (Open Source: підтримує Java, але може бути адаптований для інших мов за допомогою ANTLR)
JPlag (Java, C#, C, C++, структурний і звичайний текст)
↑Kapser, C.; Godfrey, M.W. (October 2006). «Cloning Considered Harmful» Considered Harmful(PDF). 13th Working Conference on Reverse Engineering (WCRE)(англ.). с. 19—28. Архів оригіналу(PDF) за 4 березня 2016. Процитовано 2 грудня 2014.
↑Brenda S. Baker. A Program for Identifying Duplicated Code. Computing Science and Statistics, 24:49-57, 1992.