Виявлення плагіату

Виявлення плагіату або визначення схожості вмісту — це процес знаходження місць плагіату чи порушення авторських прав у творі чи документі. Широке використання комп'ютерів і поява Інтернету сприяли поширенню плагіату[1][2].

Виявити плагіат можна різними способами. Вияв плагіату людиною є найбільш традиційною формою його виявлення. Це може бути тривалим і трудомістким завданням для читача[2], а також може призвести до неузгодженості в тому, як ідентифікується плагіат в організації[3]. Програмне забезпечення для зіставлення тексту (TMS), яке також називають «програмним забезпеченням для виявлення плагіату» або «програмним забезпеченням для боротьби з плагіатом», стало широко доступним у формі як комерційно доступних продуктів, так і програмного забезпечення з відкритим кодом. TMS фактично не відображає плагіат, але натомість містить певні фрагменти тексту в одному документі, які відповідають тексту в іншому документі.

Виявлення плагіату за допомогою програмного забезпечення

Комп'ютерне виявлення плагіату (CaPD) — це інформаційно-пошукове (IR) завдання, що підтримується спеціалізованими інформаційно-пошуковими системами, які називаються системами виявлення плагіату (СПД) або системами виявлення схожості документів. Систематичний огляд літератури за 2019 рік[4] представляє огляд найсучасніших методів виявлення плагіату.

У текстових документах

Систематичний огляд літератури за 2019 рік представляє огляд найсучасніших методів виявлення плагіату[5]. Зовнішні системи виявлення порівнюють підозрілий документ з еталонною колекцією — набором документів, які вважаються справжніми[6] На основі обраної моделі документа та заздалегідь визначених критеріїв схожості, завданням виявлення є пошук всіх документів, які містять текст, схожий за ступенем вище обраного порогу з текстом у підозрілому документі[7]. Внутрішні ПДС аналізують виключно текст, що підлягає оцінці, не проводячи порівняння із зовнішніми документами. Такий підхід спрямований на розпізнавання змін в унікальному стилі письма автора як індикатора потенційного плагіату[8][9]. Системи PDS не здатні надійно ідентифікувати плагіат без людського фактору. Схожість та особливості стилю написання обчислюються за допомогою заздалегідь визначених моделей документів і можуть давати помилкові спрацьовування[10][11].

Ефективність цих інструментів у вищих навчальних закладах

Було проведено дослідження з метою перевірки ефективності програмного забезпечення для виявлення схожості у вищих навчальних закладах. В одній частині дослідження одній групі студентів було доручено написати роботу. Цим студентам спочатку розповіли про плагіат і повідомили, що їхні роботи будуть перевірені системою виявлення схожості контенту. Другій групі студентів було доручено написати роботу без будь-якої інформації про плагіат. Дослідники очікували, що в першій групі рівень плагіату буде нижчим, але виявили приблизно однаковий рівень плагіату в обох групах[5].

Підходи

На рисунку нижче представлено класифікацію всіх підходів до виявлення, які наразі використовуються для комп'ютерного виявлення схожості контенту. Підходи характеризуються типом оцінки схожості, яку вони проводять: глобальною або локальною. Глобальні підходи до оцінки схожості використовують характеристики, взяті з більших частин тексту або документа в цілому, для обчислення схожості, тоді як локальні методи досліджують лише попередньо вибрані сегменти тексту як вхідні дані.

Класифікація методів комп'ютерного виявлення плагіату
Зняття відбитків пальців

Наразі найбільш поширеним підходом до виявлення схожості змісту є дактилоскопічний метод. Цей метод формує репрезентативні дайджести документів шляхом виділення з них набору множинних підрядків (n-грам). Набори представляють собою відбитки пальців, а їх елементи називаються мініатюрами (minutiae). Підозрілий документ перевіряється на плагіат шляхом обчислення його «відбитка» та запиту мініатюр за попередньо розрахованим індексом «відбитків» для всіх документів репрезентативної колекції. Збіг реквізитів з реквізитами інших документів вказує на спільні сегменти тексту і свідчить про потенційний плагіат, якщо вони перевищують обраний поріг схожості. Обчислювальні ресурси та час є обмежуючими факторами для дактилоскопії, тому цей метод, як правило, порівнює лише підмножину мініатюр, щоб прискорити обчислення та забезпечити перевірку у дуже великих колекціях, таких як Інтернет.

Зіставлення рядків

Порівняння рядків є поширеним підходом, що використовується в комп'ютерних науках. У застосуванні до проблеми виявлення плагіату документи порівнюються на наявність дослівних текстових збігів. Для вирішення цього завдання було запропоновано численні методи, деякі з яких були адаптовані для зовнішнього виявлення плагіату. Перевірка підозрілого документа в таких умовах вимагає обчислення та зберігання ефективно порівнянних представлень для всіх документів у довідковій колекції для їх попарного порівняння. Як правило, для цього використовуються суфіксальні моделі документів, такі як суфіксальні дерева або суфіксальні вектори. Тим не менш, зіставлення підрядків залишається обчислювально дорогим, що робить його нежиттєздатним рішенням для перевірки великих колекцій документів.

Мішок слів

Аналіз пакетів слів являє собою застосування векторного пошуку, традиційної концепції ІР, до області виявлення схожості контенту. Документи представляються у вигляді одного або декількох векторів, наприклад, для різних частин документа, які використовуються для попарних обчислень подібності. Обчислення подібності може базуватися на традиційній косинусоїдальній мірі подібності або на більш складних мірах подібності.

Аналіз цитування

Виявлення плагіату на основі цитування (CbPD) ґрунтується на аналізі цитування і є єдиним підходом до виявлення плагіату, який не спирається на текстову схожість. CbPD досліджує інформацію про цитування та посилання в текстах для виявлення подібних закономірностей у послідовності цитування. Як такий, цей підхід підходить для наукових текстів або інших академічних документів, які містять цитати. Аналіз цитування для виявлення плагіату є відносно молодою концепцією. Вона не була прийнята комерційним програмним забезпеченням, але існує перший прототип системи виявлення плагіату на основі цитування. Подібний порядок і близькість цитувань у досліджуваних документах є основними критеріями, що використовуються для обчислення схожості шаблонів цитування. Шаблони цитування являють собою послідовності, що не містять виключних цитат, які є спільними для порівнюваних документів. Для кількісної оцінки ступеня схожості патернів також враховуються такі фактори, як абсолютна кількість або відносна частка спільних цитувань у патерні, а також імовірність того, що цитати зустрічаються в одному документі.

Стилометрія

Стилометрія — це статистичні методи кількісної оцінки унікального стилю письма автора, які переважно використовуються для встановлення авторства або виявлення внутрішнього плагіату. Виявлення плагіату шляхом атрибуції авторства передбачає перевірку відповідності стилю написання підозрілого документа, який нібито написаний певним автором, стилю написання корпусу документів, написаних тим самим автором. Внутрішнє виявлення плагіату, з іншого боку, виявляє плагіат на основі внутрішніх ознак у підозрілому документі без порівняння його з іншими документами. Це здійснюється шляхом побудови та порівняння стилістичних моделей для різних текстових сегментів підозрілого документа, і уривки, які стилістично відрізняються від інших, позначаються як потенційно плагіат/порушення. Незважаючи на простоту отримання, символьні n-грами виявилися одними з найкращих стилометричних ознак для виявлення плагіату за його суттю.

Нейронні мережі

Більш сучасні підходи до оцінки схожості контенту з використанням нейронних мереж досягли значно більшої точності, але потребують великих обчислювальних витрат. Традиційні нейромережеві підходи вбудовують обидві частини контенту в семантичні векторні вставки для обчислення їхньої схожості, яка часто є їхньою косинусоїдальною схожістю. Більш просунуті методи виконують наскрізне прогнозування схожості або класифікації з використанням архітектури трансформера. Особливо виявлення парафраз[en] виграє від високопараметризованих попередньо навчених моделей. Сучасні системи штучного інтелекту (ШІ) успішно використовуються в боротьбі з плагіатом, демонструючи високу ефективність у порівнянні з традиційними методами.  Однією з ключових переваг застосування інструментів виявлення плагіату на основі штучного інтелекту є те що  вони  перевіряють тексти на плагіат за зображеннями та відстежують плагіат навіть у вихідному коді[12].

Продуктивність

Порівняльні оцінки систем виявлення схожості контенту свідчать про те, що їх ефективність залежить від типу наявного плагіату (див. рисунок). За винятком аналізу структури цитування, всі підходи до виявлення плагіату ґрунтуються на текстовій схожості. Тому симптоматично, що точність виявлення знижується тим більше, чим більше випадків плагіату завуальовано.

Ефективність виявлення підходів CaPD в залежності від типу наявного плагіату

Дослівні копії, так званий плагіат копіювання та вставки (c&p), або грубе порушення авторських прав, або скромно замасковані випадки плагіату можуть бути виявлені з високою точністю за допомогою сучасних зовнішніх СППР, якщо джерело є доступним для програмного забезпечення. Особливо процедури зіставлення підрядків досягають хороших результатів для виявлення плагіату c&p, оскільки вони зазвичай використовують моделі документів без втрат, такі як суфіксальні дерева. Ефективність систем, що використовують дактилоскопічний аналіз або аналіз пакетів слів для виявлення копій, залежить від втрат інформації, яких зазнає модель документа, що використовується. Застосовуючи гнучкі стратегії розбиття на частини та відбору, вони краще виявляють помірні форми замаскованого плагіату порівняно з процедурами зіставлення підрядків.

Виявлення внутрішнього плагіату за допомогою стилометрії може певною мірою подолати межі текстової схожості, порівнюючи лінгвістичну схожість. Враховуючи, що стилістичні відмінності між плагіатними та оригінальними сегментами є значними і можуть бути достовірно ідентифіковані, стиліметрія може допомогти у виявленні замаскованого та перефразованого[en] плагіату. Стилометричні порівняння, швидше за все, не дадуть результатів у випадках, коли сегменти сильно перефразовані до такої міри, що вони більше нагадують особистий стиль письма плагіатора, або якщо текст був складений кількома авторами. Результати Міжнародних конкурсів з виявлення плагіату, проведених у 2009, 2010 та 2011 роках, а також експерименти, проведені Штайном, свідчать про те, що стилометричний аналіз, схоже, надійно працює лише для документів обсягом у кілька тисяч або десятків тисяч слів, що обмежує застосовність методу до умов CaPD.

Зростає кількість досліджень, присвячених методам і системам, здатним виявляти перекладений плагіат. Наразі міжмовне виявлення плагіату (ММВП) не розглядається як зріла технологія, і відповідні системи не змогли досягти задовільних результатів виявлення на практиці.

Виявлення плагіату за допомогою аналізу структури цитування здатне виявляти сильніші перекази та переклади з вищими показниками успішності порівняно з іншими підходами до виявлення плагіату, оскільки він не залежить від текстових характеристик. Однак, оскільки аналіз за структурою цитування залежить від наявності достатньої кількості інформації про цитування, він обмежений академічними текстами. Він поступається текстовим підходам у виявленні коротших плагіатних уривків, які характерні для випадків плагіату типу «скопіювати і вставити» або «струснути і вставити», тобто змішати дещо змінені фрагменти з різних джерел.

Програмне забезпечення

Проектування програмних засобів виявлення схожості змісту для роботи з текстовими документами характеризується низкою факторів:

Фактор Опис та альтернативи
Сфера пошуку У загальнодоступному Інтернеті, використовуючи пошукові системи / Інституційні бази даних / Локальні, специфічні для системи бази даних.
Час аналізу Затримка між подачею документів і часом, коли результати стають доступними.
Документообіг / Пакетна обробка Кількість документів, які система може обробити за одиницю часу.
Перевірка інтенсивності Як часто і за якими типами фрагментів документа (абзаци, речення, послідовності слів фіксованої довжини) система запитує зовнішні ресурси, наприклад, пошукові системи.
Тип алгоритму порівняння Алгоритми, які визначають спосіб, яким система використовує для порівняння документів між собою.
Точність і відкликання Кількість документів, які були правильно позначені як плагіат, порівняно із загальною кількістю позначених документів, а також із загальною кількістю документів, які насправді були плагіатом. Висока точність означає, що було знайдено мало хибнопозитивних результатів, а високий відгук означає, що мало хибнонегативних результатів залишилися невиявленими.

Більшість масштабних систем виявлення плагіату використовують великі внутрішні бази даних (на додаток до інших ресурсів), які зростають з кожним додатковим документом, поданим на аналіз. Однак ця особливість розглядається деякими як порушення авторських прав студентів.

У вихідному коді

Плагіат у комп'ютерному вихідному коді також є частим явищем і вимагає інших інструментів, ніж ті, що використовуються для порівняння текстів у документах. Значна кількість досліджень присвячена академічному плагіату у вихідному коді.

Відмінним аспектом плагіату вихідного коду є те, що в ньому не існує фабрик рефератів[en], які можна знайти в традиційному плагіаті. Оскільки більшість завдань з програмування очікують від студентів написання програм з дуже специфічними вимогами, дуже важко знайти існуючі програми, які вже відповідають їм. Оскільки інтегрувати зовнішній код часто важче, ніж написати його з нуля, більшість студентів, які займаються плагіатом, вирішують робити це у своїх однолітків.

На думку Роя і Корді, алгоритми виявлення схожості вихідного коду можуть бути класифіковані як такі, що базуються або на

  • Рядки — пошук точних текстових збігів сегментів, наприклад, рядків з п'яти слів. Швидко, але можна заплутатися через перейменування ідентифікаторів.
  • Токени — як і у випадку з рядками, але з використанням лексеми для перетворення програми в токени. Це дозволяє відкинути пробіли, коментарі та імена ідентифікаторів, що робить систему більш стійкою до простих замін тексту. Більшість систем виявлення академічного плагіату працюють на цьому рівні, використовуючи різні алгоритми для вимірювання схожості між послідовностями токенів.
  • Дерева розбору — побудова та порівняння дерев розбору. Це дозволяє виявити схожість більш високого рівня. Наприклад, порівняння дерев може нормалізувати умовні оператори і виявити еквівалентні конструкції як схожі між собою.
  • Графіки програмних залежностей[en] (PDG) — PDG відображає фактичний потік управління в програмі і дозволяє знаходити еквіваленти набагато більш високого рівня, з більшими витратами на складність і час обчислень.
  • Метрики — метрики фіксують «оцінки» сегментів коду відповідно до певних критеріїв; наприклад, «кількість циклів та умовних операторів» або «кількість різних змінних, що використовуються». Метрики легко обчислюються і можуть бути швидко порівняні, але також можуть призвести до помилкових спрацьовувань: два фрагменти з однаковими оцінками за набором метрик можуть робити абсолютно різні речі.
  • Гібридні підходи — наприклад, дерева розбору + суфіксні дерева можуть поєднувати можливості виявлення дерев розбору зі швидкістю, яку надають суфіксні дерева, тип структури даних, що відповідає рядкам.

Попередня класифікація була розроблена для рефакторингу коду, а не для виявлення академічного плагіату (важливою метою рефакторингу є уникнення дублюючого коду, який в літературі називають клонами коду). Вищезазначені підходи ефективні для різних рівнів схожості; низький рівень схожості стосується ідентичного тексту, тоді як високий рівень схожості може бути зумовлений схожими специфікаціями. В академічному середовищі, коли всі студенти повинні писати код за однаковими специфікаціями, функціонально еквівалентний код (з високим рівнем схожості) цілком очікуваний, і тільки низький рівень схожості розглядається як доказ шахрайства.

Складнощі з використанням програм для виявлення плагіату за допомогою текстопроцесора

Задокументовано різні ускладнення, пов'язані з використанням програмного забезпечення для виявлення плагіату, коли воно застосовується для виявлення плагіату. Одне з найбільш поширених занепокоєнь, задокументованих в документах, стосується питання прав інтелектуальної власності. Основний аргумент полягає в тому, що матеріали повинні бути додані до бази даних для того, щоб ТМС могла ефективно визначати збіг, але додавання матеріалів користувачів до такої бази даних може порушувати їхні права інтелектуальної власності. Це питання піднімалося в ряді судових справ.

Додатковим ускладненням при використанні ТМС є те, що програмне забезпечення знаходить лише точні збіги з іншим текстом. Воно не вловлює, наприклад, погано перефразовану роботу або практику плагіату шляхом використання достатньої кількості замін слів, щоб уникнути виявлення програмним забезпеченням, яка відома під назвою «роутинг».

Дивитися також

Список літератури

  1. Culwin, Fintan; Lancaster, Thomas (2001). Plagiarism, prevention, deterrence and detection. Архів оригіналу за 18 April 2021. Процитовано 11 листопада 2022.
  2. а б Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233—245. DOI:10.1080/02602930500262536
  4. Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 жовтня 2019). Academic Plagiarism Detection: A Systematic Literature Review. ACM Computing Surveys (англ.). 52 (6): 1—42. doi:10.1145/3345317.
  5. а б Youmans, Robert J. (November 2011). Does the adoption of plagiarism-detection software in higher education reduce plagiarism?. Studies in Higher Education. 36 (7): 749—761. doi:10.1080/03075079.2010.523457.
  6. Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). On the use of character n-grams as the only intrinsic evidence of plagiarism. Language Resources and Evaluation. 53 (3): 363—396. doi:10.1007/s10579-019-09444-w. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)
  7. Lan, Wuwei; Xu, Wei (2018). Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering. Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA: Association for Computational Linguistics: 3890—3902.
  8. Wahle, Jan Philip; Ruas, Terry; Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (2022), Smits, Malte (ред.), Identifying Machine-Paraphrased Plagiarism, Information for a Better World: Shaping the Global Future (англ.), Cham: Springer International Publishing, 13192: 393—413, arXiv:2103.11909, doi:10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, процитовано 6 жовтня 2022
  9. Заповніть пропущені параметри: назву і/або авторів. arXiv:[1].
  10. «Plagiarism Prevention and Detection — On-line Resources on Source Code Plagiarism» [Шаблон:Webarchive:помилка: Перевірте аргументи |url= value. Порожньо.]. Higher Education Academy, University of Ulster.
  11. Roy, Chanchal Kumar;Cordy, James R. (26 September 2007).«A Survey on Software Clone Detection Research». School of Computing, Queen's University, Canada.
  12. How AI Makes Progress in Addressing Plagiarism. plagiarismsearch.com (english) . 29 серпня 2023.