FAQ11 - Buscadores Semánticos

11. ¿Qué son los buscadores semánticos?

 

 

 

Fuente: IHMC, Mapas Conceptuales haga clic en ésta imagen

 

Ambigüedad Semántica: Hoy existe un alto grado de ambigüedad en la interpretación de Búsqueda Semántica y por lo tanto de Buscadores Semánticos. La ambigüedad quizás no existiría si no hubiéramos estado todos expuestos al “marketing” de una tecnología realmente avasallante como la que hemos experimentado en la última década de Internet. Como la Semántica es la ciencia del significado de las cosas expresadas lingüísticamente no podemos dejar de pensar que dicha ciencia está de hecho representada en la Web y ya en la faz práctica nos cuesta creer que los buscadores actuales no puedan realizar búsquedas semánticas. Y ésta y duda expectativa e son comprensibles.

 

Sin embargo y reiterando lo que venimos dejando asentado en varias secciones de este sitio los actuales buscadores convencionales no son buscadores semánticos y todo esto subsumido en una realidad: la Web no está semánticamente estructurada sino es, a lo sumo, un enorme reservorio de contenido susceptible de ser semánticamente estructurado. Sin embargo reconocemos que con un poco de ingenio - y lo hemos demostrado en varias aplicaciones de nuestra Metodología Darwin-  es posible usar a buscadores tales como Google como si fueran cuasi semánticos.

Imagen “in mente”: Esperemos que la imagen superior nos ayude a aclarar esta especie de “conundrum”, acertijo o situación paradójica. El “comic” muestra a una persona que tiene “in mente” una muy definida idea de lo que busca. Supongamos que esta persona pertenezca a una muestra de un millón de personas de similar nivel sociocultural que comparten una misma lengua materna. Digamos que la tenemos identificada en la muestra como P0203458, persona que según su ficha personal posee un razonablemente buen nivel de formación lógico y por lo tanto es presumible que su idea “in mente” pueda ser explicitada mediante un mapa conceptual como el que está esquematizado en la figura. Posiblemente existan en esta muestra muchas más personas de perfil comparable, digamos 95.000, que se atreverán a afirmar que tienen una clara idea de lo que buscan aunque sus mapas conceptuales o grafos puedan ser algo distintos. No obstante esta interesante uniformidad parcial el resto de la muestra, 905.000 personas, tienen otras maneras de representar y consecuentemente de explicitar lo que tienen in mente.

Ahora bien les rogamos nos acompañen con la mente libre de prejuicios en la siguiente imaginería: Aceptemos que el universo de los hoy casi 1.800 millones de personas y/o sus avatares consultan los buscadores siendo perfectamente posible pensar que haya en todo momento y en promedio 15 millones de “ideas in mente” y que podríamos llegar a catalogarlas en  120 millones de muestras, finalmente números enormes pero “finitos” y manejables.

Cada una de esas muestras no tiene otra forma de expresarse que con palabras, es decir, encadenamientos de ellas. Si ahora suponemos que existen unos agentes que pueden acceder en forma prácticamente instantánea, digamos en paralelo, a una base de conocimiento que tenga almacenadas y adecuadamente ordenadas esas 15 millones de ideas para todas las lenguas en uso en la Web es viable imaginar que los agentes ayudados por un algoritmo del tipo “Data Mining” complementado por otro de Cadenas de Markov y en función de todas las consultas realizadas al cabo de cierto tiempo puedan llegar a  inferir acertadamente lo que cada muestra tenía in mente.

Síntesis del ejercicio de imaginería semántica: Un buscador semántico sería el que paralelamente a la base de documentos Web indexados por palabras posea otra base conceptual, semántica, de tamaño mucho menor, en la cual están almacenadas y ordenadas por lengua todas las posibles ideas “in mente” que a un momento dado posee la humanidad.

Cuando P0203458 a su mejor saber y entender pregunte por palabras a partir de ellas podría el agente identificar en forma estadísticamente precisa la imagen que tiene in mente y extraer de la otra base aquellos documentos que mejor se contrastan semánticamente con dicha imagen. Con el tiempo las dos bases se fundirían en una sola ordenada semánticamente pero para ello, en un futuro, muy cercano ¿por qué no?, los documentos deberían ser automáticamente pre clasificados al momento de su “subida’ a la Web.

¿Cómo construir la Base Conceptual paralela?: En este ejercicio de imaginería nos estamos olvidando de que previamente habría que construir la base paralela mencionada. Para ello deberíamos hacer una síntesis: de los 30.000 millones de páginas Web preseleccionar las pertenecientes a una lengua: la más hablada, la actual “lengua franca”: el inglés, con los cuales nos quedarían aproximadamente unos 20.000 millones de documentos. De ellos quedarnos con los 600 millones “mejores” y de esa aún enorme muestra extraer las mencionadas 15 millones de ideas posibles expresadas en el inglés Web a la fecha de la síntesis.

Nota: Esta Base Conceptual paralela sería equivalente a un Mapa del Conocimiento Humano.

Additional information