Сканторпська проблема (англ.Scunthorpe problem) — це ненавмисне блокування вебсайтів, електронних листів, дописів на форумах або результатів пошуку фільтром спаму або пошуковою системою через те, що їхній текст містить рядок літер, які мають обсценне або неприйнятне значення. За повідомленнями, найчастіше проблема зачіпає найменування, скорочення та технічні терміни.
Проблема виникає, оскільки комп'ютери можуть легко ідентифікувати рядки тексту в документі, але для інтерпретації слів такого роду потрібна значна здатність інтерпретувати широкий спектр контекстів, можливо, у багатьох культурах, що є надзвичайно складним завданням. У результаті широкі правила блокування можуть спричинити хибно позитивні спрацювання і блокування невинних фраз.
Походження та історія
Проблема отримала таку назву після інциденту в 1996 році, коли фільтр лихослів'я AOL не дозволяв жителям міста Сканторп (Північний Лінкольншир, Англія) створювати облікові записи в AOL, оскільки назва міста (англ.Scunthorpe) містить підрядок «cunt», що є грубістю в англійській мові.[1] Багато років по тому, додаткові фільтри безпечного пошуку в Google, імовірно, припустилися тієї ж помилки, внаслідок чого користувачі не могли шукати місцеві підприємства, у назвах яких було слово Scunthorpe.[2]
Інші приклади
Серед помилкових рішень фільтрів непристойностей були такі випадки:
Відмова у реєстрації доменних імен та облікових записів
У квітні 1998 року, Джефф Голд спробував зареєструвати доменне ім'яshitakemushrooms.com, але через підрядок shit він був заблокований фільтром InterNIC[en] заборони «семи брудних слів»[en], який був активний в період 1996—98 років.[5] (Shitake, тобто шіїтаке — це японська назва їстівного гриба Lentinula edodes).
У 2000 році в канадському телевізійному сюжеті про програмне забезпечення вебфільтрування йшлося про те, що вебсайт Монреальської міської громади (фр.Communauté urbaine de Montréal) був повністю заблокований, оскільки його доменне ім'я відповідало його абревіатурі французькою — CUM (www.cum.qc.ca);[6] «cum» (серед інших значень) — це англомовний сленг на позначення сперми.
У лютому 2004 року в Шотландії Крейг Кокберн повідомив, що не може використовувати своє прізвище (пишеться Cockburn, а вимовляється як Coburn) у Hotmail. Окрім цього, у нього виникли проблеми з електронною поштою на робочому місці, оскільки його посада, спеціаліст із програмного забезпечення (англ.software specialist), містила підрядок «cialis», що є назвою препарату для лікування еректильної дисфункції, реклама якого часто міститься у спамних листах. Hotmail спочатку порадили йому написати своє ім'я C0ckburn (з нулем замість літери «o»), але пізніше заборону відмінили.[7] У 2010 році у нього була аналогічна проблема з реєстрацією на вебсайті Бі-Бі-Сі, де знову чотири перших символи його прізвища спричинили проблему з фільтром вмісту.[8]
У лютому 2006 року Лінді Каллахан спочатку не змогла зареєструвати своє ім'я в Yahoo! як адресу електронної пошти, оскільки її прізвище містить підрядок «аллах». Yahoo! пізніше скасували заборону.[9]
У липні 2008 р. доктор Герман І. Лібшиц не зміг зареєструвати адресу електронної пошти від Verizon, оскільки його прізвище містить підрядок shit, і Verizon спочатку відхилили його запит на виняток. У наступній заяві прессекретар Verizon вибачився за те, що не підтвердив бажану адресу електронної пошти.[10]
У серпні 2018 року Наталі Вінер повідомила в соціальних мережах, що не змогла створити обліковий запис для себе на вебсайті, оскільки її прізвище (англ.Weiner) — це слово, яке також використовується як сленг для пеніса. Повідомлялося, що «сотні» людей відповіли, що це впливає і на них. Серед тих, хто відповів, були особи на ім'я Бен Шмук (прізвище — слово «пеніс» ідишем) та Арун Дікшит (прізвище — «той, хто навчає» санскритом, але містить підрядок shit у написанні латинкою).[11][12][13] Статті, що висвітлюють це, зазначають, що це звичайна і надзвичайно складна технічна проблема, для якої наразі не існує надійного рішення.
Заблоковані вебпошуки
Упродовж кількох місяців до початку 1996 року, деякі пошукові запити Super Bowl XXX[en] фільтрувались, оскільки римське число порядкового номера гри (XXX) також використовується для ідентифікації порнографії.[14]
Гарет Рулофсе, вебдизайнер сайту RomansInSussex.com, зазначив у 2004 році: «Ми виявили, що багато бібліотечних, шкільних мереж та Інтернет-кафе блокують сайти зі словом „секс“ у доменному імені. Це було викликом для RomansInSussex.co.uk, оскільки його цільова аудиторія — школярі».[2]
У 2008 році фільтр безкоштовного бездротового обслуговування міста Факатане (англ.Whakatane) в Новій Зеландії заблокував пошукові запити, що містили назву самого міста, оскільки фонетичний аналіз фільтра вважав, що «whak» звучить як fuck; назва міста є маорійським словом, а в маорійській мові «wh» найчастіше вимовляється як «f». Потім місто додало назву міста у білий список фільтра.[15]
У липні 2011 року вебпошук у Китаї зі словом «Цзян» був заблокований після того, як на сайті мікроблогів Sina Weibo з'явилися заяви про те, що колишній президент Цзян Цземінь помер. Оскільки слово «Цзян», що означає «річка», пишеться тим же китайським символом (江), то і пошуки, пов'язані з річками, включаючи Янцзи (назва якої містить цей символ), видавали повідомлення «Згідно з відповідними законам, правилами та політиками, результати цього пошуку не показуються».[16]
У лютому 2018 року на торговій платформі Google були заблоковані вебпошуки таких речей як glue guns, Guns N' Roses та Burgundy після того, як Google поспішно додав у свою пошукову систему фільтр на результати щодо зброї.[17]
Заблоковані електронні листи
У лютому 2003 року депутати парламенту Британської палати громад виявили, що новий фільтр спаму блокує електронні листи. Він заблокував електронні листи, що містили посилання на законопроект про сексуальні правопорушення, який тоді обговорювався, а також деякі повідомлення, що стосувалися консультаційного документу ліберал-демократів щодо цензури.[18] Він також заблокував електронні листи, написані валлійською, оскільки не розпізнав мову.[19]
У жовтні 2004 року повідомлялося, що Музей Горнімана в Лондоні не отримував частину своєї електронної пошти, оскільки фільтри помилково трактували його назву (англ.Horniman Museum) як альтернативне написання horny man. Horny — поширений сленговий термін в англійській мові на позначення сексуального збудження.[20]
Проблеми можуть виникати зі словами socialism, socialist та specialist, оскільки вони містять підрядок Cialis. Блокування слова specialist впливає на надіслані резюме, CV та інші матеріали, включаючи посадові інструкції.[21]
Заблоковано для слів із двома значеннями
У жовтні 2004 року електронні листи, що рекламували пантоміму Діка Віттінгтона, надіслані вчителем з Норвіча у Сполученому Королівстві, були заблоковані шкільними комп'ютерами через використання імені Дік (похідне від Річард), оскільки dick іноді використовується як сленг для пеніса.[22]
У травні 2006 року чоловік з Манчестера виявив, що електронні листи зі скаргами на міське планування, які він писав у місцеву раду, були заблоковані, оскільки вони містили слово erection у стосунку до зведення будівель (інше значення слова — ерекція).[23]
Заблоковані електронні листи та вебпошуки, пов'язані з журналом «Бівер» (Вінніпег), змусили видавця змінити ім'я із TheBeaver на Canada's History у 2010 році, після 89 років публікації.[25] Видавець Дебора Моррісон прокоментувала: «Ще в 1920 році The Beaver було цілком прийнятною назвою. І хоча його інше значення [ піхва ] не є новим, його неоднозначність почала створювати зовсім нові проблеми з поширенням Інтернету. Назва стала перешкодою нашому зростанню».[26]
У червні 2010 року Twitter заблокував користувача з Люксембурга через 29 хвилин після того, як він відкрив свій акаунт і опублікував свій перший твіт. Користувач написав «Нарешті! Пара великих синиць (Parus major) перебралася у мій пташник!». «Великі синиці» англійською «great tits», і, попри латинську назву виду, доданої для розуміння того, що твіт стосується птахів, будь-які спроби розблокувати обліковий запис були марними.[27]
Блокувалися листи жителів Пеністона в Південному Йоркширі, оскільки назва міста включає підрядок пеніс.[28]
Аналогічна проблема була в жителів міста Лайтвотер[en] (графство Суррей), оскільки його назва (англ.Lightwater) містить підрядок twat.
Резюме власників диплома з відзнакою magna cum laude за включення слова cum, що латиною означає з (у цьому словосполученні), але іноді використовується як сленгове слово сперма в англійській мові.[29]
У грудні 2011 року повідомлялося, що в програмному забезпеченні Virgin Media до відфільтрованих слів потрапили «Арсенал» (через «arse») та «канал» (через «анал»).[31]
Англійське слово або рядок «ass» можуть автоматично заміняти на «butt» (яке вважається не таким грубим), в результаті чого трапляються випадки «clbuttic» замість «classic» та «buttbuttinate» замість «assassinate».[32]
Інше
У травні 2018 року вебсайт продуктового магазину Publix не дозволив замовити торт, що містить латинську фразу summa cum laude. Замовник намагався усунути проблему, включивши спеціальні вказівки, але зрештою отримав торт із написом «Summa --- Laude».[33][34]