Виявлення плагіатуВиявлення плагіату або визначення схожості вмісту — це процес знаходження місць плагіату чи порушення авторських прав у творі чи документі. Широке використання комп'ютерів і поява Інтернету сприяли поширенню плагіату[1][2]. Виявити плагіат можна різними способами. Вияв плагіату людиною є найбільш традиційною формою його виявлення. Це може бути тривалим і трудомістким завданням для читача[2], а також може призвести до неузгодженості в тому, як ідентифікується плагіат в організації[3]. Програмне забезпечення для зіставлення тексту (TMS), яке також називають «програмним забезпеченням для виявлення плагіату» або «програмним забезпеченням для боротьби з плагіатом», стало широко доступним у формі як комерційно доступних продуктів, так і програмного забезпечення з відкритим кодом. TMS фактично не відображає плагіат, але натомість містить певні фрагменти тексту в одному документі, які відповідають тексту в іншому документі. Виявлення плагіату за допомогою програмного забезпеченняКомп'ютерне виявлення плагіату (CaPD) — це інформаційно-пошукове (IR) завдання, що підтримується спеціалізованими інформаційно-пошуковими системами, які називаються системами виявлення плагіату (СПД) або системами виявлення схожості документів. Систематичний огляд літератури за 2019 рік[4] представляє огляд найсучасніших методів виявлення плагіату. У текстових документахСистематичний огляд літератури за 2019 рік представляє огляд найсучасніших методів виявлення плагіату[5]. Зовнішні системи виявлення порівнюють підозрілий документ з еталонною колекцією — набором документів, які вважаються справжніми[6] На основі обраної моделі документа та заздалегідь визначених критеріїв схожості, завданням виявлення є пошук всіх документів, які містять текст, схожий за ступенем вище обраного порогу з текстом у підозрілому документі[7]. Внутрішні ПДС аналізують виключно текст, що підлягає оцінці, не проводячи порівняння із зовнішніми документами. Такий підхід спрямований на розпізнавання змін в унікальному стилі письма автора як індикатора потенційного плагіату[8][9]. Системи PDS не здатні надійно ідентифікувати плагіат без людського фактору. Схожість та особливості стилю написання обчислюються за допомогою заздалегідь визначених моделей документів і можуть давати помилкові спрацьовування[10][11]. Ефективність цих інструментів у вищих навчальних закладахБуло проведено дослідження з метою перевірки ефективності програмного забезпечення для виявлення схожості у вищих навчальних закладах. В одній частині дослідження одній групі студентів було доручено написати роботу. Цим студентам спочатку розповіли про плагіат і повідомили, що їхні роботи будуть перевірені системою виявлення схожості контенту. Другій групі студентів було доручено написати роботу без будь-якої інформації про плагіат. Дослідники очікували, що в першій групі рівень плагіату буде нижчим, але виявили приблизно однаковий рівень плагіату в обох групах[5]. ПідходиНа рисунку нижче представлено класифікацію всіх підходів до виявлення, які наразі використовуються для комп'ютерного виявлення схожості контенту. Підходи характеризуються типом оцінки схожості, яку вони проводять: глобальною або локальною. Глобальні підходи до оцінки схожості використовують характеристики, взяті з більших частин тексту або документа в цілому, для обчислення схожості, тоді як локальні методи досліджують лише попередньо вибрані сегменти тексту як вхідні дані. Зняття відбитків пальцівНаразі найбільш поширеним підходом до виявлення схожості змісту є дактилоскопічний метод. Цей метод формує репрезентативні дайджести документів шляхом виділення з них набору множинних підрядків (n-грам). Набори представляють собою відбитки пальців, а їх елементи називаються мініатюрами (minutiae). Підозрілий документ перевіряється на плагіат шляхом обчислення його «відбитка» та запиту мініатюр за попередньо розрахованим індексом «відбитків» для всіх документів репрезентативної колекції. Збіг реквізитів з реквізитами інших документів вказує на спільні сегменти тексту і свідчить про потенційний плагіат, якщо вони перевищують обраний поріг схожості. Обчислювальні ресурси та час є обмежуючими факторами для дактилоскопії, тому цей метод, як правило, порівнює лише підмножину мініатюр, щоб прискорити обчислення та забезпечити перевірку у дуже великих колекціях, таких як Інтернет. Зіставлення рядківПорівняння рядків є поширеним підходом, що використовується в комп'ютерних науках. У застосуванні до проблеми виявлення плагіату документи порівнюються на наявність дослівних текстових збігів. Для вирішення цього завдання було запропоновано численні методи, деякі з яких були адаптовані для зовнішнього виявлення плагіату. Перевірка підозрілого документа в таких умовах вимагає обчислення та зберігання ефективно порівнянних представлень для всіх документів у довідковій колекції для їх попарного порівняння. Як правило, для цього використовуються суфіксальні моделі документів, такі як суфіксальні дерева або суфіксальні вектори. Тим не менш, зіставлення підрядків залишається обчислювально дорогим, що робить його нежиттєздатним рішенням для перевірки великих колекцій документів. Мішок слівАналіз пакетів слів являє собою застосування векторного пошуку, традиційної концепції ІР, до області виявлення схожості контенту. Документи представляються у вигляді одного або декількох векторів, наприклад, для різних частин документа, які використовуються для попарних обчислень подібності. Обчислення подібності може базуватися на традиційній косинусоїдальній мірі подібності або на більш складних мірах подібності. Аналіз цитуванняВиявлення плагіату на основі цитування (CbPD) ґрунтується на аналізі цитування і є єдиним підходом до виявлення плагіату, який не спирається на текстову схожість. CbPD досліджує інформацію про цитування та посилання в текстах для виявлення подібних закономірностей у послідовності цитування. Як такий, цей підхід підходить для наукових текстів або інших академічних документів, які містять цитати. Аналіз цитування для виявлення плагіату є відносно молодою концепцією. Вона не була прийнята комерційним програмним забезпеченням, але існує перший прототип системи виявлення плагіату на основі цитування. Подібний порядок і близькість цитувань у досліджуваних документах є основними критеріями, що використовуються для обчислення схожості шаблонів цитування. Шаблони цитування являють собою послідовності, що не містять виключних цитат, які є спільними для порівнюваних документів. Для кількісної оцінки ступеня схожості патернів також враховуються такі фактори, як абсолютна кількість або відносна частка спільних цитувань у патерні, а також імовірність того, що цитати зустрічаються в одному документі. СтилометріяСтилометрія — це статистичні методи кількісної оцінки унікального стилю письма автора, які переважно використовуються для встановлення авторства або виявлення внутрішнього плагіату. Виявлення плагіату шляхом атрибуції авторства передбачає перевірку відповідності стилю написання підозрілого документа, який нібито написаний певним автором, стилю написання корпусу документів, написаних тим самим автором. Внутрішнє виявлення плагіату, з іншого боку, виявляє плагіат на основі внутрішніх ознак у підозрілому документі без порівняння його з іншими документами. Це здійснюється шляхом побудови та порівняння стилістичних моделей для різних текстових сегментів підозрілого документа, і уривки, які стилістично відрізняються від інших, позначаються як потенційно плагіат/порушення. Незважаючи на простоту отримання, символьні n-грами виявилися одними з найкращих стилометричних ознак для виявлення плагіату за його суттю. Нейронні мережіБільш сучасні підходи до оцінки схожості контенту з використанням нейронних мереж досягли значно більшої точності, але потребують великих обчислювальних витрат. Традиційні нейромережеві підходи вбудовують обидві частини контенту в семантичні векторні вставки для обчислення їхньої схожості, яка часто є їхньою косинусоїдальною схожістю. Більш просунуті методи виконують наскрізне прогнозування схожості або класифікації з використанням архітектури трансформера. Особливо виявлення парафраз[en] виграє від високопараметризованих попередньо навчених моделей. Сучасні системи штучного інтелекту (ШІ) успішно використовуються в боротьбі з плагіатом, демонструючи високу ефективність у порівнянні з традиційними методами. Однією з ключових переваг застосування інструментів виявлення плагіату на основі штучного інтелекту є те що вони перевіряють тексти на плагіат за зображеннями та відстежують плагіат навіть у вихідному коді[12]. ПродуктивністьПорівняльні оцінки систем виявлення схожості контенту свідчать про те, що їх ефективність залежить від типу наявного плагіату (див. рисунок). За винятком аналізу структури цитування, всі підходи до виявлення плагіату ґрунтуються на текстовій схожості. Тому симптоматично, що точність виявлення знижується тим більше, чим більше випадків плагіату завуальовано. Дослівні копії, так званий плагіат копіювання та вставки (c&p), або грубе порушення авторських прав, або скромно замасковані випадки плагіату можуть бути виявлені з високою точністю за допомогою сучасних зовнішніх СППР, якщо джерело є доступним для програмного забезпечення. Особливо процедури зіставлення підрядків досягають хороших результатів для виявлення плагіату c&p, оскільки вони зазвичай використовують моделі документів без втрат, такі як суфіксальні дерева. Ефективність систем, що використовують дактилоскопічний аналіз або аналіз пакетів слів для виявлення копій, залежить від втрат інформації, яких зазнає модель документа, що використовується. Застосовуючи гнучкі стратегії розбиття на частини та відбору, вони краще виявляють помірні форми замаскованого плагіату порівняно з процедурами зіставлення підрядків. Виявлення внутрішнього плагіату за допомогою стилометрії може певною мірою подолати межі текстової схожості, порівнюючи лінгвістичну схожість. Враховуючи, що стилістичні відмінності між плагіатними та оригінальними сегментами є значними і можуть бути достовірно ідентифіковані, стиліметрія може допомогти у виявленні замаскованого та перефразованого[en] плагіату. Стилометричні порівняння, швидше за все, не дадуть результатів у випадках, коли сегменти сильно перефразовані до такої міри, що вони більше нагадують особистий стиль письма плагіатора, або якщо текст був складений кількома авторами. Результати Міжнародних конкурсів з виявлення плагіату, проведених у 2009, 2010 та 2011 роках, а також експерименти, проведені Штайном, свідчать про те, що стилометричний аналіз, схоже, надійно працює лише для документів обсягом у кілька тисяч або десятків тисяч слів, що обмежує застосовність методу до умов CaPD. Зростає кількість досліджень, присвячених методам і системам, здатним виявляти перекладений плагіат. Наразі міжмовне виявлення плагіату (ММВП) не розглядається як зріла технологія, і відповідні системи не змогли досягти задовільних результатів виявлення на практиці. Виявлення плагіату за допомогою аналізу структури цитування здатне виявляти сильніші перекази та переклади з вищими показниками успішності порівняно з іншими підходами до виявлення плагіату, оскільки він не залежить від текстових характеристик. Однак, оскільки аналіз за структурою цитування залежить від наявності достатньої кількості інформації про цитування, він обмежений академічними текстами. Він поступається текстовим підходам у виявленні коротших плагіатних уривків, які характерні для випадків плагіату типу «скопіювати і вставити» або «струснути і вставити», тобто змішати дещо змінені фрагменти з різних джерел. Програмне забезпеченняПроектування програмних засобів виявлення схожості змісту для роботи з текстовими документами характеризується низкою факторів:
Більшість масштабних систем виявлення плагіату використовують великі внутрішні бази даних (на додаток до інших ресурсів), які зростають з кожним додатковим документом, поданим на аналіз. Однак ця особливість розглядається деякими як порушення авторських прав студентів. У вихідному кодіПлагіат у комп'ютерному вихідному коді також є частим явищем і вимагає інших інструментів, ніж ті, що використовуються для порівняння текстів у документах. Значна кількість досліджень присвячена академічному плагіату у вихідному коді. Відмінним аспектом плагіату вихідного коду є те, що в ньому не існує фабрик рефератів[en], які можна знайти в традиційному плагіаті. Оскільки більшість завдань з програмування очікують від студентів написання програм з дуже специфічними вимогами, дуже важко знайти існуючі програми, які вже відповідають їм. Оскільки інтегрувати зовнішній код часто важче, ніж написати його з нуля, більшість студентів, які займаються плагіатом, вирішують робити це у своїх однолітків. На думку Роя і Корді, алгоритми виявлення схожості вихідного коду можуть бути класифіковані як такі, що базуються або на
Попередня класифікація була розроблена для рефакторингу коду, а не для виявлення академічного плагіату (важливою метою рефакторингу є уникнення дублюючого коду, який в літературі називають клонами коду). Вищезазначені підходи ефективні для різних рівнів схожості; низький рівень схожості стосується ідентичного тексту, тоді як високий рівень схожості може бути зумовлений схожими специфікаціями. В академічному середовищі, коли всі студенти повинні писати код за однаковими специфікаціями, функціонально еквівалентний код (з високим рівнем схожості) цілком очікуваний, і тільки низький рівень схожості розглядається як доказ шахрайства. Складнощі з використанням програм для виявлення плагіату за допомогою текстопроцесораЗадокументовано різні ускладнення, пов'язані з використанням програмного забезпечення для виявлення плагіату, коли воно застосовується для виявлення плагіату. Одне з найбільш поширених занепокоєнь, задокументованих в документах, стосується питання прав інтелектуальної власності. Основний аргумент полягає в тому, що матеріали повинні бути додані до бази даних для того, щоб ТМС могла ефективно визначати збіг, але додавання матеріалів користувачів до такої бази даних може порушувати їхні права інтелектуальної власності. Це питання піднімалося в ряді судових справ. Додатковим ускладненням при використанні ТМС є те, що програмне забезпечення знаходить лише точні збіги з іншим текстом. Воно не вловлює, наприклад, погано перефразовану роботу або практику плагіату шляхом використання достатньої кількості замін слів, щоб уникнути виявлення програмним забезпеченням, яка відома під назвою «роутинг». Дивитися також
Список літератури
|