FAQ9 - Buscadores y Navegadores

9. ¿Qué son los buscadores y navegadores Web?

¿Cómo funcionan los buscadores?: Los buscadores son sitios Web especializados en brindar servicios de búsqueda de documentos, que operan fundamentalmente en base a las palabras dentro de sus contenidos. En el esquema inferior, muy simplificado, se muestra cómo construyen sus Bases de Datos. En forma continua a modo 24x7 el buscador envía a uno o muchos agentes del tipo araña Web (“Web spider”) o googlebot en el caso de Google, recorren la Web visitando todos sus sitios y recorriéndolos en una forma sistemática, por ejemplo a partir de sus “Home” o de sus “SiteMaps” o Mapas del Sitio, idealmente enlace por enlace. Resultante de esta inspección exhaustiva surge un listado de las palabras empleadas así como las coordenadas del lugar donde fueron localizadas dentro del documento (Página Web).

En un proceso posterior, los buscadores procesan estos listados e indexan de acuerdo a sus propios criterios cada página Web. Esta información, evaluada y “pesada” con esos criterios, es luego codificada y compactada a los fines de ahorrar espacio y ganar en velocidad de respuesta. Finalmente, la información es almacenada en lo que hemos denominado “Base de Datos” que pueden ser un complejo de Bases de Datos distribuidos en miles de computadoras conectadas a Internet aunque bajo el estricto control propietario del buscador.

 

Fuente: “HowStuffWorks.com”, Cómo Trabaja Esto: Motores de Búsqueda

 

 

En la figura de abajo, apenas con un poco más de detalle, Google informa al público en general el funcionamiento de su motor de búsqueda.

 

 

Fuente: How Google Works, por Google

 

 

 Google que se muestra extremadamente celoso de su patrimonio tecnológico, a pesar de lo cual y como iremos viendo se conoce bastante cómo funciona, proporciona aquí dos “mega detalles” de arquitectura básica: Tendría tres tipos de servidores: su “Google Web server”, Servidor Web de Google,varios “Google Index Servers” o Servidores Google para los Índices y varios “Google Doc Servers” o Servidores Google para los Documentos. 

Indagando un poco más sobre Google: existe abundante información sobre inferencias acerca del funcionamiento y de políticas de indexación y búsquedas de Google así como minuciosos análisis (“The Google Pagerank Algorithm and How It Works”, El Algoritmo PageRank y cómo trabaja, de Ian Rogers; Google's PageRank Explained, El Algoritmo de Google Explicado, de WebWorkShop.net) de su algoritmo PageRank de asignación de un número de “ranking” a cada documento indexado. Tal es así que incluso algoritmos similares sino prácticamente iguales están hoy siendo usados para otros propósitos tales como Servicios de Defensa de Internet. Justamente de uno de esos servicios extrajimos la imagen que muestra mediante un comic algo de la mecánica de ese algoritmo (ver el algoritmo PageRank y una discusión sobre la dualidad “hubs” versus “authorities” en nuestra sección principal de Aplicaciones Aiware):

 

 

 

 

Fuente: “Researchers borrow from Google PageRank for network defense service”,

Investigadores usan la idea del PageRank para servicios de defensa de redes, de ZDNet.

 

Este comic sugiere que cuanto más “votos” o aprobaciones le lleguen mediante hipervínculos a un sitio más crece en importancia: el amarillo es el más votado y por tanto fortalecido en cuanto a su popularidad por los sitios verdes los rojos y el azul. Le sigue el azul que es también muy popular entre los verdes y finalmente aparecen los rojos como ya de por si, en función de aportes fuera del esquema, como el siguiente en importancia, en parte por aportes no vistos y en parte por la preferencia del relativamente poderoso azul.

Google  “deep”: Finalmente podemos encontrar en la Web innumerables análisis e hipótesis de su funcionamiento que ayudan a comprender no ya el algoritmo, que ha pasado a ser no el núcleo sino uno entre varios elementos a ser tenido en cuenta para evaluar a Google como buscador, tales como los criterios de indexación, detección de keywords y de memes, búsqueda por imágenes, etc.  Reproducimos abajo una publicitada “media verdad”.

                                                                                                                                              

 

Fuente: Learn How Google Works, posiblemente una “media verdad” consensuada por Google

 

Additional information