Kaggle

Kaggle
Tipo Subsidiary
Industria Data science
Fundación April 2010
Fundador Anthony Goldbloom
Sede central San Francisco (Estados Unidos)
Presidente Max Levchin
Productos Competitions, Kaggle Kernels, Kaggle Datasets, Kaggle Learn
Propietario Alphabet Inc.
Empresa matriz Google
Sitio web kaggle.com

Kaggle, una subsidiaria de Google LLC, es una comunidad en línea de científicos de datos y profesionales del aprendizaje automático. Kaggle permite a los usuarios encontrar y publicar conjuntos de datos, explorar y crear modelos en un entorno de ciencia de datos basado en la web; trabajar con otros científicos de datos e ingenieros de aprendizaje automático y participar en concursos para resolver desafíos de ciencia de datos.[1]

Historia

Kaggle comenzó en 2010 ofreciendo concursos de aprendizaje automático y ahora también ofrece una plataforma de datos públicos, un banco de trabajo basado en la nube para ciencia de datos y educación en inteligencia artificial. Su personal inicial clave fueron Anthony Goldbloom y Jeremy Howard. Nicholas Gruen fue presidente fundador, sucedido por Max Levchin. El patrimonio en 2011 se elevó llegando a valorar la empresa en $ 25 millones de dólares norteamericanos.

El 8 de marzo de 2017, Fei-Fei Li, científica jefe de Google, anunció que la empresa iba a adquirir Kaggle.[2][3]

En junio de 2017, Kaggle superó el millón de usuarios registrados y, en octubre de 2023, tenía más de 15 millones de usuarios en 194 países.[4][5][6]

En 2022, los fundadores Goldbloom y Hamner dimitieron de sus cargos y D. Sculley se convirtió en director ejecutivo.[7]

En febrero de 2023, Kaggle presentó Models, que permite a los usuarios descubrir y utilizar modelos previamente entrenados a través de integraciones profundas con el resto de la plataforma de Kaggle.[8]

Comunidad de Kaggle

En junio de 2017, Kaggle anunció que superó el millón de usuarios registrados, o Kagglers.[9]​ La comunidad se extiende por 194 países. Es una comunidad diversa, que va desde aquellos que recién comienzan hasta muchos de los investigadores más conocidos del mundo.[10]

Las competiciones de Kaggle atraen regularmente a más de mil equipos e individuos. La comunidad de Kaggle tiene miles de conjuntos de datos públicos y fragmentos de código (llamados «Kaggle kernels» en Kaggle). Muchos de estos investigadores publican artículos en revistas revisadas por pares basándose en su desempeño en las competencias de Kaggle.[11]

En marzo de 2017, el fondo Two Sigma Investments estaba realizando una competencia en Kaggle para codificar un algoritmo de compra y venta de activos.[12]

Servicios de Kaggle

  • Concursos de aprendizaje automático: este fue el primer producto de Kaggle. Las empresas publican problemas y los participantes compiten para construir el mejor algoritmo, generalmente con premios en efectivo.
  • Kaggle Kernels: un banco de trabajo basado en la nube para ciencia de datos y aprendizaje automático. Permite a los científicos de datos compartir código y análisis en Python, R y R Markdown. Más de 150K «kernels» (fragmentos de código) se han compartido en Kaggle que cubren desde el análisis de sentimientos hasta detección de objetos.
  • Plataforma de conjuntos de datos públicos: los miembros de la comunidad comparten conjuntos de datos entre sí. Tiene conjuntos de datos de desde radiografías de huesos hasta resultados de peleas de boxeo.
  • Kaggle Learn: una plataforma para la educación de la IA en fragmentos más manejables.

Cómo funcionan las competiciones de Kaggle

  1. El anfitrión de la competencia prepara los datos y una descripción del problema.
  2. Los participantes experimentan con diferentes técnicas y compiten entre sí para producir los mejores modelos. El trabajo se comparte públicamente a través de Kaggle Kernels para lograr un mejor punto de referencia e inspirar nuevas ideas. Los envíos se pueden realizar a través de Kaggle Kernels, mediante la carga manual o utilizando la API de Kaggle. Para la mayoría de las competiciones, las presentaciones se califican de inmediato (según su precisión predictiva en relación con un archivo de solución oculto) y se resumen en una tabla de clasificación en vivo.
  3. Una vez transcurrido el plazo, el anfitrión del concurso paga el premio en metálico a cambio de «una licencia mundial, perpetua, irrevocable y libre de regalías [...] para utilizar la Participación ganadora», es decir, el algoritmo, el software y la propiedad intelectual relacionada desarrollados. que es «no exclusivo a menos que se especifique lo contrario».[13]

Además de sus competencias públicas, Kaggle también ofrece competencias privadas limitadas a los principales participantes de Kaggle. Kaggle ofrece una herramienta gratuita para que los profesores de ciencia de datos realicen concursos académicos de aprendizaje automático, Kaggle In Class.[14]​ Kaggle también organiza concursos de reclutamiento en los que los científicos de datos compiten por la oportunidad de entrevistarse en empresas líderes en ciencia de datos como Facebook, Winton Capital y Walmart.

Impacto de las competiciones de Kaggle

Kaggle ha realizado cientos de concursos de aprendizaje automático desde que se fundó la empresa. Las competiciones van desde mejorar el reconocimiento de gestos para Microsoft Kinect[15]​ hasta hacer una IA de fútbol para el Manchester City o mejorar la búsqueda del bosón de Higgs en el CERN.[16]

Las competiciones han dado lugar a muchos proyectos exitosos que incluyen la mejora del estado del arte en la investigación del VIH,[17]​ calificaciones de ajedrez[18]​ y pronósticos de tráfico.[19]​ Los más famosos, Geoffrey Hinton y George Dahl, usaron redes neuronales profundas para ganar una competencia organizada por Merck. Y Vlad Mnih (uno de los estudiantes de Hinton) usó redes neuronales profundas para ganar una competencia organizada por Adzuna. Esto ayudó a mostrar el poder de las redes neuronales profundas y resultó en que la técnica fuera adoptada por otros en la comunidad de Kaggle. Tianqi Chen de la Universidad de Washington también usó Kaggle para mostrar el poder de XGBoost, que desde entonces ha reemplazado a Random Forest como uno de los principales métodos utilizados para ganar competencias de Kaggle.

Se han publicado varios artículos académicos sobre la base de los hallazgos realizados en los concursos de Kaggle.[20]​ Una clave para esto es el efecto de la tabla de clasificación en vivo, que anima a los participantes a seguir innovando más allá de las mejores prácticas existentes.[21]​ Los métodos ganadores se escriben con frecuencia en el blog de Kaggle.

Finanzas

En marzo de 2017, Fei-Fei Li, directora científica de Google, anunció que Google iba a adquirir Kaggle durante su discurso de apertura en Google Next.[22]

Sistema de Progresión

Kaggle ha implementado un sistema de progresión para reconocer y recompensar a los usuarios en función de sus contribuciones y logros dentro de la plataforma. Este sistema consta de cinco niveles: Novato, Colaborador, Experto, Maestro y Gran Maestro. Cada nivel se alcanza cumpliendo con un conjunto de criterios específicos en competiciones, conjuntos de datos, kernels (compartición de código) y discusiones.[23]

El nivel más alto que se puede lograr, Gran Maestro de Kaggle, se otorga a los usuarios que han obtenido un alto rango en múltiples competiciones, incluyendo un alto desempeño en equipos individuales. El 28 de mayo de 2024, de los 18,5 millones de cuentas en Kaggle, 2.745 han alcanzado el estatus de Maestro y 530 han alcanzado el estatus de Gran Maestro.[24]


Referencias

  1. Adegoke, Joshua (17 de abril de 2023). «A Beginner’s Guide to Kaggle for Data Science». MUO (en inglés). Consultado el 2 de febrero de 2024. 
  2. Lardinois, Frederic (8 de marzo de 2017). «Google is acquiring data science community Kaggle». Techcrunch. Archivado desde el original el 9 de marzo de 2017. Consultado el 9 de marzo de 2017. «Sources tell us that Google is acquiring Kaggle [...] the official announcement could come as early as tomorrow.» 
  3. «Google buys Kaggle and its gaggle of AI geeks» (en inglés). 8 de marzo de 2017. Consultado el 1 de junio de 2018. 
  4. «Unique Kaggle Users». 
  5. Markoff, John (24 de noviembre de 2012). «Scientists See Advances in Deep Learning, a Part of Artificial Intelligence». The New York Times (en inglés). Consultado el 19 de agosto de 2018. 
  6. «We've passed 1 million members». Kaggle Winner's Blog (en inglés estadounidense). 6 de junio de 2017. Consultado el 19 de agosto de 2018. 
  7. Wali, Kartik (8 de junio de 2022). «Kaggle gets new CEO, founders quit after a decade». Analytics India Magazine (en inglés estadounidense). Consultado el 10 de junio de 2023. 
  8. «[Product Launch] Introducing Kaggle Models | Kaggle». www.kaggle.com (en inglés). Consultado el 2 de febrero de 2024. 
  9. «We've passed 1 million members» (en inglés estadounidense). 06-06-2017. Consultado el 19 de agosto de 2018. 
  10. Markoff, John. «Scientists See Advances in Deep Learning, a Part of Artificial Intelligence» (en inglés). Consultado el 19 de agosto de 2018. 
  11. «Google Scholar». scholar.google.com. Consultado el 19 de agosto de 2018. 
  12. Wigglesworth, Robin (8 de marzo de 2017). «Hedge funds adopt novel methods to hunt down new tech talent». United Kingdom. Consultado el 29 de octubre de 2017. 
  13. Kaggle. «Terms and Conditions - Kaggle». 
  14. Kaggle. «Kaggle in Class». Archivado desde el original el 16 de junio de 2011. Consultado el 12 de agosto dd 2011. 
  15. Byrne, Ciara (12 de diciembre de 2011). «Kaggle launches competition to help Microsoft Kinect learn new gestures». VentureBeat. Consultado el 13 de diciembre de 2011. 
  16. «The machine learning community takes on the Higgs». Symmetry Magazine. 15 de julio de 2014. Consultado el 14 de enero de 2015. 
  17. Carpenter, Jennifer (Febrero de 2011). «May the Best Analyst Win». Science Magazine. Consultado el 1 de abril de 2011. 
  18. Sonas, Jeff (20 de febrero de 2011). «The Deloitte/FIDE Chess Rating Challenge». Chessbase. Consultado el 3 de mayo de 2011. 
  19. Foo, Fran (6 de abril de 2011). «Smartphones to predict NSW travel times?». The Australian. Consultado el 3 de mayo de 2011. 
  20. 42.  Falta el |título= (ayuda)
  21. Athanasopoulos, George (2011). «The Value of Feedback in Forecasting Competitions» 27. pp. 845-849. 
  22. «Welcome Kaggle to Google Cloud» (en inglés). Consultado el 19 de agosto de 2018. 
  23. Kaggle (ed.). «Sistema de Progresión de Kaggle». Consultado el 3 de abril de 2023. 
  24. Carl McBride Ellis (10 de febrero de 2022). Kaggle, ed. «Kaggle en Números». Consultado el 1 de noviembre de 2023. 

Otras lecturas

Enlaces externos