Deep web e surface webDeep web e surface web conformam uma divisão do conteúdo da rede mundial de computadores (world wide web) quanto à indexação feita por mecanismos de busca padrão. Deep web (deepnet, web invisível, undernet, web obscura ou web oculta) corresponde à parte não indexada e surface web (ou internet superficial) é a parte indexada. Motores de busca constroem um banco de dados através de programas chamados web crawlers ou spiders (aranhas) que começam com uma lista de páginas de internet conhecidas. Esse programa pega uma cópia de cada pagina e indexa-a, guardando informações importantes que permitirão que a página seja facilmente recuperada mais tarde. Qualquer hiperligação para novas páginas são adicionadas para a lista de páginas para serem indexadas. Eventualmente todas as páginas acessíveis são indexadas a menos que exceda os limites do motor de busca.[1] Assim, o conjunto de páginas acessíveis definem a porção superficial da rede (surface web). Por diversas razões (como o Protocolo de Exclusão de Robôs, hiperligações geradas por JavaScript e Flash, proteção de senhas), algumas páginas não podem ser acessadas pelos web crawlers. Essas páginas compõem a seção oculta da rede (deep web). Em janeiro de 2014 as páginas indexadas eram pelo menos 15 bilhões de páginas.[2] Não deve ser confundida a deep web com a Dark Internet, que está relacionada à porção da Internet que não pode ser acessada ou que se tornou inacessível por meios convencionais. Também não se confunde com a Darknet, que não é uma simples rede de compartilhamento de arquivos, mas uma rede subjacente ou em camadas, onde existem grandes esforços no sentido de se manterem anônimos os dados de seus utilizadores. Mike Bergman, fundador da BrightPlanet[3] e autor da expressão "deep web",[4] afirmou que a busca na Internet atualmente pode ser comparada com o arrastar de uma rede na superfície do oceano: pode-se pescar um peixe grande, mas há uma grande quantidade de informação que está no fundo, e, portanto, faltando. A maior parte da informação da web está enterrada profundamente em sites gerados dinamicamente, não sendo encontrada pelos mecanismos de busca padrão. Estes não conseguem "enxergar" ou obter o conteúdo na deep web — aquelas páginas não existem até serem criadas dinamicamente como resultado de uma busca específica. A deep web possui um tamanho muito superior ao da surface web.[5] O risco da deep web é, basicamente, a intenção com que o usuário a acessa. Por conter páginas com conteúdo ilegal, as mesmas podem conter vírus, prejudicando a segurança do computador. Vale lembrar que ela também, por ser criptografada e anônima, é muito usada por criminosos.[6] TamanhoEstimativas baseadas em extrapolações de um estudo feito na Universidade da Califórnia em Berkeley em 2001[5] especularam que a deep web possui 7 500 terabytes de informação. Estimativas feitas por He et al.,[7] em 2004, detectaram cerca de 300 mil sites da deep web e, de acordo com Shestakov, cerca de 14 mil destes eram da parte russa da web em 2006.[8] Em 2008, a web chamada “deep web”, não referenciada pelos motores de busca representa 70 a 75% do total, ou seja, cerca de um trilhão de páginas não indexadas. NomenclaturaPara referir-se aos websites que não estavam registrados em nenhum mecanismo de busca,[5] Bergman citou um artigo de janeiro de 1996 por Frank Garcia, no qual ele afirma que estes:[9]
Outro uso antigo do termo "web invisível" foi feito por Bruce Mount e Matthew B. Koll do Personal Library Software, descrevendo a ferramenta da deep web "@1", na edição de dezembro de 1996.[nota 1] O primeiro uso do termo específico deep web, agora reconhecido, ocorreu no estudo de 2001 de Bergman, mencionado anteriormente.[5] ClassificaçãoO conteúdo da deep web pode ser classificado em uma ou mais das seguintes categorias:
Ver tambémReferências
Notas |