斯肯索普问题斯肯索普问题(Scunthorpe problem)是指在電子邮件过滤或搜索引擎中,由于文本包含一个或多个看似有亵渎或非法含义的字符串(或子串),导致网站、电子邮件、论坛帖子或搜索结果被无意间阻拦的现象。受此问题影响最多的是名称、缩写和技术术语等。 这个问题的产生源于电脑虽然能轻易识别文件内的文本字符,但是没有相当的能力来解释这些文字的含义;對此电脑需要能理解广泛的语境,甚至跨越多个文化,而这是一项极其困难的任务。因此,广泛的阻挡规则可能会导致对无辜短语的误判,出现错误拦截的情况。 词义和起源该问题源于1996年的一次网络事件,当时美国在线(AOL)的脏话过滤器阻止了英格兰北林肯郡斯肯索普市(Scunthorpe)的居民在AOL上创建账户,因为该市名中包含了字符串“cunt(屄,阴道)”。[1]在2000年代初,谷歌的安全搜索过滤器也犯了同样的错误,阻止了人们搜索包含斯卡恩索普市名称的本地企业或网站,故这一问题由此得名。[2] 解决措施由于创建一个能够理解上下文中的词组的过滤器非常困难,因此斯肯索普问题很难完全解决。[3][4]一种常见的解决方案是创建一个白名单,其中包含已知的容易产生斯肯索普问题的词组,任何出现在白名单上的单词都将被过滤器忽略,即使它们包含的文本在其他情况下可能是不允许的。[5]另一种常见的解决方案是通过贝叶斯公式来计算单个词组成为敏感词的概率,进而组合分析一段话中包含敏感词的概率,但这一方法需要对大量语料数据的分析作为支持。[6] 事例敏感词过滤器引發的錯誤包括: 中国大陆以外的斯肯索普问题
中国大陆的斯肯索普问题
参考来源
|
Index:
pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve
Portal di Ensiklopedia Dunia