Consulta de búsqueda web

Una consulta de búsqueda web es una consulta basada en un término de búsqueda específico que un usuario ingresa en un motor de búsqueda web para satisfacer sus necesidades de información. Las consultas de búsqueda web se distinguen por ser a menudo texto sin formato o hipertexto con directivas de búsqueda opcionales (como "y" / "o" con "-" para excluir). Varían mucho de los lenguajes de consulta estándar, que se rigen por estrictas reglas de sintaxis como lenguajes de comandos con palabras clave o parámetros posicionales.

Tipos

Hay tres categorías generales que cubren la mayoría de las consultas de búsqueda web: informativas, de navegación y transaccionales.[1]​ Estos también se denominan "haz, conoce, ve".[2]​ Aunque este modelo de búsqueda no se derivó teóricamente, la clasificación se ha validado empíricamente con consultas de motores de búsqueda reales.[3]

  • Consultas informativas: consultas que cubren un tema amplio (por ejemplo, colorado o camiones) para las que puede haber miles de resultados relevantes.
  • Consultas de navegación: consultas que buscan un único sitio web o una página web de una sola entidad (por ejemplo, youtube o delta air lines).
  • Consultas transaccionales: consultas que reflejan la intención del usuario de realizar una acción en particular, como comprar un automóvil o descargar un protector de pantalla.

Los motores de búsqueda suelen admitir un cuarto tipo de consulta que se utiliza con mucha menos frecuencia:

  • Consultas de conectividad: consultas que informan sobre la conectividad del gráfico web indexado (por ejemplo, ¿qué enlaces apuntan a esta URL? y ¿cuántas páginas se indexan desde este nombre de dominio?).[4]

Características

Una lista de sugerencias de búsqueda para una consulta de búsqueda.

La mayoría de los motores de búsqueda web comerciales no divulgan sus registros de búsqueda, por lo que es difícil obtener información sobre lo que buscan los usuarios en la web.[5]​ Sin embargo, los estudios de investigación comenzaron a aparecer en 1998.[6][7]​ Un estudio de 2001,[8]​ que analizó las consultas del motor de búsqueda Excite, mostró algunas características interesantes de las búsquedas web:

  • La duración media de una consulta fue de 2,4 términos.
  • Aproximadamente la mitad de los usuarios ingresaron una sola consulta, mientras que un poco menos de un tercio de los usuarios ingresaron tres o más consultas únicas.
  • Cerca de la mitad de los usuarios examinaron solo la primera o las dos primeras páginas de resultados (10 resultados por página).
  • Menos del 5% de los usuarios utilizaron funciones de búsqueda avanzada (por ejemplo, operadores booleanos como AND, OR y NOT).
  • Los cuatro términos más utilizados fueron (búsqueda vacía) y, de y sexo.

Un estudio de los mismos registros de consultas de Excite reveló que el 19% de las consultas contenían un término geográfico (por ejemplo, nombres de lugares, códigos postales, características geográficas, etc.).[9]

Los estudios también muestran que, además de las consultas breves (consultas con pocos términos), existen patrones predecibles de cómo los usuarios cambian sus consultas.[10]

Un estudio de 2005 de los registros de consultas de Yahoo reveló que el 33% de las consultas de los mismos usuarios eran consultas repetidas y que en el 87% de los casos el usuario hacía clic en el mismo resultado.[11]​ Esto sugiere que muchos usuarios utilizan consultas repetidas para volver a visitar o reencontrar información. Este análisis es confirmado por una publicación de blog del motor de búsqueda de Bing que indica que alrededor del 30% de las consultas son consultas de navegación.[12]

Además, la investigación ha demostrado que las distribuciones de frecuencia de los términos de consulta se ajustan a la ley de potencia, o curvas de distribución de cola larga . Es decir, una pequeña parte de los términos observados en un registro de consultas grande (por ejemplo,> 100 millones de consultas) se utilizan con mayor frecuencia, mientras que los términos restantes se utilizan con menos frecuencia de forma individual.[13]​ Este ejemplo del principio de Pareto (o la regla 80-20) permite que los motores de búsqueda empleen técnicas de optimización tales como partición de índices o bases de datos , almacenamiento en caché y precargar. Además, se han realizado estudios sobre atributos de orientación lingüística que pueden reconocer si una consulta web es de navegación, informativa o transaccional.[14]

Un estudio de 2011 encontró que la duración promedio de las consultas había crecido de manera constante con el tiempo y la longitud promedio de las consultas en idiomas distintos del inglés había aumentado más que las del inglés.[15]​ Google implementó la actualización Hummingbird en agosto de 2013 para manejar consultas de búsqueda más largas, ya que más búsquedas son conversacionales (por ejemplo, "¿dónde está la cafetería más cercana?").[16]​ Para consultas más largas, el procesamiento de lenguaje natural ayuda, ya que los árboles de análisis de consultas pueden coincidir con el de las respuestas y sus fragmentos.[17]​ Para consultas de varias frases donde las estadísticas de palabras clave y Tf-idf no son muy útiles, la técnica Parse thicket entra en juego para representar estructuralmente preguntas y respuestas complejas.[18]

Consultas estructuradas

Con los motores de búsqueda que admiten operadores booleanos y paréntesis, se puede aplicar una técnica utilizada tradicionalmente por los bibliotecarios. Un usuario que esté buscando documentos que cubran varios temas o facetas puede querer describir cada uno de ellos mediante una disyunción de palabras características, como vehículos OR autos OR automóviles. Una consulta facetada es una conjunción de tales facetas; por ejemplo, una consulta como (electronic OR computerized OR DRE) AND (voting OR elections OR election OR balloting OR electoral) es probable que encuentre documentos sobre voto electrónico incluso si omiten una de las palabras "electrónico" o "votación", o incluso ambas.[19]

Véase también

Referencias

  1. Broder, A. (2002). A taxonomy of Web search. SIGIR Forum, 36(2), 3–10.
  2. «Do, Know, Go: How to Create Content at Each Stage of the Buying Cycle». Search Engine Watch (en inglés estadounidense). 11 de enero de 2013. Consultado el 16 de febrero de 2021. 
  3. Jansen, B. J., Booth, D., and Spink, A. (2008) Determining the informational, navigational, and transactional intent of Web queries, Information Processing & Management. 44(3), 1251-1266.
  4. «Connectivity servers». nlp.stanford.edu. Consultado el 16 de febrero de 2021. 
  5. Dawn Kawamoto and Elinor Mills (2006), AOL apologizes for release of user search data
  6. Jansen, B. J., Spink, A., Bateman, J., and Saracevic, T. 1998. Real life information retrieval: A study of user queries on the web. SIGIR Forum, 32(1), 5 -17.
  7. Silverstein, C., Henzinger, M., Marais, H., & Moricz, M. (1999). Analysis of a very large Web search engine query log. SIGIR Forum, 33(1), 6–12.
  8. Spink, Amanda; Wolfram, Dietmar; Jansen, Major B. J.; Saracevic, Tefko (2001). «Searching the web: The public and their queries». Journal of the American Society for Information Science and Technology (en inglés) 52 (3): 226-234. ISSN 1532-2890. doi:10.1002/1097-4571(2000)9999:99993.0.CO;2-R. Consultado el 16 de febrero de 2021. 
  9. «Analyzing geographic queries - Mark Sanderson and Janet Kohler 2004». Smash Digital (en inglés estadounidense). Consultado el 16 de febrero de 2021. 
  10. Jansen, B. J., Booth, D. L., & Spink, A. (2009). Patterns of query modification during Web searching. Journal of the American Society for Information Science and Technology. 60(3), 557-570. 60(7), 1358-1371.
  11. Teevan, Jaime; Adar, Eytan; Jones, Rosie; Potts, Michael (6 de agosto de 2006). «History repeats itself: repeat queries in Yahoo's logs». Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. SIGIR '06 (Association for Computing Machinery): 703-704. ISBN 978-1-59593-369-0. doi:10.1145/1148170.1148326. Consultado el 16 de febrero de 2021. 
  12. http://www.bing.com/community/site_blogs/b/search/archive/2011/02/10/making-search-yours.aspx
  13. Baeza-Yates, Ricardo (2005). «Applications of Web Query Mining». En Losada, David E., ed. Advances in Information Retrieval. Lecture Notes in Computer Science (en inglés) (Springer): 7-22. ISBN 978-3-540-31865-1. doi:10.1007/978-3-540-31865-1_2. Consultado el 16 de febrero de 2021. 
  14. Alejandro Figueroa (2015). Exploring effective features for recognizing the user intent behind web queries 68. Elsevier. pp. 162-169. 
  15. Mona Taghavi; Ahmed Patel; Nikita Schmidt; Christopher Wills; Yiqi Tew (2011). «An analysis of web proxy logs with query distribution pattern approach for search engines». Computer Standards & Interfaces 34 (1): 162-170. doi:10.1016/j.csi.2011.07.001. 
  16. «FAQ: All About The New Google "Hummingbird" Algorithm». Search Engine Land. 26 de septiembre de 2013. Consultado el 16 de febrero de 2021. 
  17. Galitsky, Boris (1 de marzo de 2013). «Machine learning of syntactic parse trees for search and classification of text». Engineering Applications of Artificial Intelligence (en inglés) 26 (3): 1072-1091. ISSN 0952-1976. doi:10.1016/j.engappai.2012.09.017. Consultado el 16 de febrero de 2021. 
  18. Galitsky, B; Ilvovsky, D; Kuznetsov, SO; Strok, F (2013). «Finding Maximal Common Sub-parse Thickets for Multi-sentence Search». Lecture Notes in Artificial Intelligence 8323. 
  19. Vojkan Mihajlović; Djoerd Hiemstra; Henk Ernst Blok; Peter M.G. Apers (October 2006). Exploiting Query Structure and Document Structure to Improve Document Retrieval Effectiveness.