Common Crawl
Common Crawl (literalmente rastreo común) es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público.[1][2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008.[3] Completa el rastreo en general una vez al mes.[4] Common Crawl fue fundada por Gil Elbaz.[5] También están Peter Norvig y Joi Ito como asesores de la organización sin fines.[6] Sus rastreadores (crawlers) respetan las políticas nofollow y robots.txt. El código fuente usado para procesar el conjunto de datos de Common Crawl es abierto y se encuentra disponible públicamente. HistoriaAmazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012.[7] La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de ese año.[8] Los archivos de Common Crawl solo incluían archivos .arc anteriores. En diciembre de 2012, blekko donó los metadatos del motor de búsqueda Common Crawl blekko, el recopilado de los rastreos que realizó de febrero a octubre de 2012.[9] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y evitar el spam, la pornografía y la influencia de un SEO excesivo". En 2013, Common Crawl comenzó a usar el webcrawler Nutch de Apache Software Foundation en lugar de un rastreador personalizado.[10] Common Crawl cambió de usar archivos .arc a archivos .warc a partir de noviembre de 2013.[11] Historial de datos de Common CrawlLos siguientes datos se han recopilado del blog oficial de Common Crawl
Premio Norvig Web Data ScienceEn consonancia con SURFsara, Common Crawl patrocina el Premio Norvig Web Data Science, un concurso abierto a estudiantes e investigadores en Benelux.[12][13] El premio lleva el nombre de Peter Norvig, quien también preside el comité de evaluación del premio. Referencias
Enlaces externos
|