文章相似度檢測 、內容相似度檢測 (content similarity detection)或抄袭检测 (plagiarism detection)是在一份文件中找到抄袭 或侵權 詞句所在位置的方法。隨著電腦的普遍使用,網際網路的發明,抄袭其他作品的難度越來越低[ 1] [ 2] 。
抄袭检测可以用許多方式來進行。人工檢測是傳統檢測是否有抄袭的方法,相當的耗時間[ 2] ,而且可能因為組織內對於抄袭定義的不同,會有不一致的情形[ 3] 。目前已有許多文字匹配軟體(text-matching software、TMS),也稱為反剽竊軟體(anti-plagiarism software)或剽竊檢測軟體(plagiarism detection software),這些軟體可能是商業軟體,也可能是開源軟體。文字比對軟體不會一句一句的檢查是否有抄袭,不過軟體會從一份文件中找到和其他文件相符的特定片段,若相符的特定片段越多,抄袭的可能性也就越高。
電腦輔助的抄袭检测(computer-assisted plagiarism detection、簡稱CaPD)是由特製的信息檢索 系統所進行的信息檢索工作,此系統稱為抄袭检测系統(plagiarism detection system、PDS)或文件相似度檢測系統。2019年的一篇系統綜述 [ 4] 簡單說明了目前正在使用的抄袭检测系統。
文件相似度檢測系統有兩種通用的檢測方式,一種是外在的,一種則和文件的固有特性有關[ 5] 。
[ 6] 。
依照給定的文件模型,以及事先定義的相似度準則,檢測工作就是檢索出參考用的文件中,內容和待測文件相似度超過一定比例的比文件[ 7] 。
固有特性的抄袭检测系統會直接用待測的文件進行分析。分析的目的是找出作者獨特的寫作方式變化,作為抄袭可能性的指標[ 8] 。
抄袭检测系統一定要配合人類的判斷,才能可靠的識別文件抄袭。相似度是依事先定義的文件模型來計算,因此可能出現偽陽性 [ 9] [ 10] [ 11] [ 12] [ 13] 。
文章指紋識別(fingerprinting)是目前檢測內容相似性的方式中所最為廣泛運用者。此方式是藉由從文章中擇定一組由多個字母所組成的「符串」(n-gram ),並定義為該篇文章中具有代表性的摘要。這些符串即如同指紋一般,而構成指紋的元素即稱為「細節」(minutaie)[ 14] [ 15] 。
文章指紋識別會先針對待確認的文件計算其指紋,並且在所有的參考文件中,查詢是否有出現指紋中一定比例的細節。和其他文件的細節符合表示二份文件中有共同的文字區塊,若相似度超過一定比例,有可能是抄袭的[ 16] 。指紋識別的限制因素是運算資源以及時間,因此此方法多半只會選擇一部份的細節進行比較,一方面加速計算,也可以在大量的文本(例如網際網路)中搜尋[ 14] 。
字串匹配 是電腦科學中常用的方法。若應用在内容抄袭检测時,會針對文件進行逐字逐字的重疊比較。針對這項任務,已提出了許多不同的方法,其中也有一些已用在外部的抄袭检测上。以此方法檢查待測文件,要有足夠的計算資源以及容量,才能高效的針對所有的參考文件,進行兩兩文件的比較。有些文件模型(例如后缀树 或后缀向量)已用在此任務上。無疑的,子字串匹配的運算量相當的大,因此在比較大量參考文件時,不能使用字串匹配進行檢查[ 17] [ 18] [ 19] 。
词袋分析 (Bag of words analysis)是由傳統信息檢索概念中的向量空間模型 ,轉換到內容相似度檢測旳技術。文件可以用一個或是多個向量(可能是分別表示文件的不同部份)表示,這些向量會用來進行成對的相似度計算。相似度計算可以用傳統的余弦相似性 計算,或是用更複雜的相似性計算方式[ 20] [ 21] [ 22] 。
引用文獻為基礎的抄袭检测(CbPD)[ 23] 是依引文分析 為基礎,是唯一不靠文本相似度(textual similarity)的抄袭检测演算法[ 24] 。CbPD會檢查引用文獻以及文件中用文獻佐證的部份,識別是否有類似的模式 。因此,此方式適用於科學論文或是其他一定會引用文獻的學術論文。引用文獻為基礎的抄袭检测是相對而言較晚發展的概念。目前還沒有商用軟體使用此一作法,不過已有使用此一技術的原形系統[ 25] 。待檢查文件中的類似程度以及接近(proximity)文獻的程度是此一技術的判斷準則。
计量文献学 是用統計的方式識別作者獨特寫作風格的方式[ 26] [ 27] ,主要用在作者歸屬確認,或是考慮文件固有特性的電腦輔助抄襲檢測(CaPD)。可以針對不同的文字建構其文體模型,並且進行比較,來自不同來源的文字,其文體模型也會不同,因此可以依此偵測到抄袭或是侵權的情形[ 8] 。
内容抄袭检测的比較性評估[ 6] [ 28] [ 29] [ 30] [ 31] [ 32] 指出,检测系統的性能會因抄袭的方式不同而不同。除了引用文獻分析外,其他的檢測都是以文本相似度為基礎。因此若混合許多文獻抄袭,檢測系統的準確度就會下降。
若是「複製貼上」(copy and paste)型式的抄袭,公然侵犯版權的抄袭、或是適度掩飾的抄袭,若軟體可以找到來源的文字,目前的内容抄袭系統的精確度很高。特別是子字串比對程序針對「複製貼上」型式的抄袭,其效果非常的好,因為其中會使用無損的文件模型,例如后缀树 。利用文章指紋或是詞袋分析的性能會因為文件模型中,資訊的減少程度而受到影響。若文章指紋或是詞袋分析再配合靈活的分塊及選擇策略,檢測變相抄襲的性能會比相較於子字串比對程序要好。
利用Stylometry的固有特性抄袭检测可以用比較語言相似性,克服一些文本相似度的問題。假設原始文件及待確認文件的風格都很明確,而且是用可靠的方式識別,Stylometry可以識別變相抄襲及文字改寫 (Paraphrasing)式的抄袭。但若文字重組的非常嚴重,反而產生了不同於來源資料的風格,或是抄袭自數個不同的來源,Stylometry分析可能會失效。2009年至2011年國際抄袭检测比賽的結果[ 6] [ 31] [ 32] ,以及Stein的實驗[ 33] 都指出,Stylometry分析若要正常運作,只能針對數千到上萬字之間的文件,這限制了電腦輔助的抄襲檢測的應用性。
越來越多的研究是針對可偵測翻譯抄袭的方式或是系統。目前跨語言的抄袭检测(cross-language plagiarism detection、CLPD)還不是成熟的技術[ 34] ,各系統在評估時還無法有令人滿意的結果[ 30] 。
和其他方式比較,引用文獻分析的抄袭检测在識別改寫情形較嚴重的抄袭,或是識別翻譯抄袭上的成功率較高,因為和文本相似度沒有關係[ 24] [ 35] 。不過因為引用文獻分析要有足夠的文獻資訊,因此只限制在學術文件。引用文獻分析在檢測較短的抄袭文字(例如「複製貼上」的抄袭或是「複製重組貼上」的抄袭)時,效果不如以文字為基礎的抄袭检测。「複製重組貼上」(shake-and-paste)的抄袭是指用不同的來源,略為混合後再抄袭的作法[ 36] 。
若利用文字匹配軟體來進行内容抄袭检测,目前已出現一些副作用。目前最受闗注的問題是被參考文件的智慧財產權 問題。文件要可以被文字匹配系統檢查到,就需要加到文字匹配系統的資料庫 中,才能有效的匹配,但是將其他人創作,有智慧財產權的文件加入資料庫,有侵權 的問題。目前已經有一些相關的訴訟案。
另一個副作用是因為文字匹配軟體只會計算文字精準匹配的結果。若在抄袭後將夠多的單字改為同義字,減少和原文完全相同的文字,有可能可以騙過檢測軟體,此方法稱為rogeting 。
程式碼的抄袭也很常見,程式碼抄袭的检测工具和文件抄袭的檢測工具不同。在程式碼抄袭檢測上,已有許多的學術研究[ 37] 。
根據Roy和Cordy的研究[ 38] ,程式碼抄袭检测演算法可以分為以下幾種
符記(Tokens):也和字串演算法相同,但是由詞法分析 將程式先轉換為符記(Token),忽略空白、註解、識別符名稱,因此若只是單純修改變數名稱,此方式仍可以法識別。大部份學術的程式碼抄袭系統會使用此演算法,用不同的演算法來評估二個符記序列的相似度。
分析树 (Parse Trees):先建立分析树然後再比較,這可以偵測更高層次的類似性。例如,分析树比較可以正規化條件敘述,再偵測兩者是否有類似的等效結構。
程式相依圖 (PDG):程式相依圖可以表示程式中各函式之間彼此呼叫的關係,可以找到更高層次的相似,不過複雜度及運算時間都多很多。
混合法:例如分析树加上后缀树 ,可以結合分析树的能力以及后缀树(一種用於字串比對的資料結構)的計算效率。
上述的分類一開始是為了代码重构 所開發的,不是為了程式碼抄袭。代码重构的一個重要目的是避免程式中重複的程式碼,在文獻中稱為代码重复 。上述的作法可以偵測到不同層次的相似性:低層次的相似性是指完全相同的文字,高層次的相似性可能是因為類似的規格所產生。在學術的使用上,因為學生是依相同的規格寫程式作業,其作業的程式在機能上等效(即高層次的相似性)是合理的,因此若用在在程式作業的抄袭檢測上,一般只會考慮低層次的相似性。
