Los "Textones" Darwin II - Lenguaje Natural Darwin

Metodología Aiware - IX

Juan Chamero, Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. , al 24 de Abril del 2013

Apéndices

  

Concepto de “Vecindad Semántica Darwin”

Esta imagen sintetiza un árbol de conocimiento o parte del mismo “semánticamente secuenciado” en forma curiosamente análoga a cómo se secuencian los genes en el Genoma Humano. Hay que imaginar al contenido asociado a las ramas de ese árbol, desde la raíz a las hojas. Todo el contenido Web, sus hoy 30.000 millones de páginas Web, están, en mayor o menor grado semántico asociados a éstos vectores o representaciones unidimensionales del conocimiento. Estadísticamente, los “mejores documentos, los que supuestamente nos conducirían a las “mejores verdades” están apuntados a lugares específicos de estos vectores. A su vez cada uno de estos lugares específicos a los que la Metodología Darwin denomina “modales” tiene una vecindad semántica de documentos afines, similares o parecidos desde un punto de vista cognitivo.

Textones - II

Ejemplo de Procesamiento Semántico de Textones: Pasemos ahora a un ejercicio de aplicación práctica. Hace dos años construimos un Tesauro de Turismo. Su estructura arbórea o esqueleto semántico tenía unos 2.500 nodos y formaba parte de una estructura mayor de Viajes y Turismo. Para cada nodo puede definirse un “camino semántico” que va desde la raíz del árbol de Turismo invertido hasta uno cualquiera de esos 2.500 nodos, por ejemplo:

0.2.01.01.005: road silk (camino de la seda)

Dentro del camino semántico de cinco eslabones siguiente:

  • 0.: Viajes y Turismo
  • 0.2.: El Turismo como segunda rama de Viajes y Turismo (la primera sería Viajes)
  • 0.2.01: Historia del Turismo
  • 0.2.02.01: Tiempos Antiguos dentro de Historia del Turismo
  • 0.2.01.01.005: El Camino de la Seda (Road Silk) como muestra cronológica

Si ahora buscamos en Google por: 

[“road silk” tourism]

 Así, entrecomillado “road silk” y globalmente dentro de la Gran Temática del Turismo, nos encontramos con 8.500 Referencias. Supongamos que de estas 8.500 referencias una familia de agentes dentro de la Metodología Darwin puede crear un Textón Temático sobre el Camino de la Seda dentro de Historia del Turismo. Para ello podría extraer de un conjunto de las 1000 referencias Top de Google 1.000 muestras de texto alrededor de la vecindad del término “road silk”. En forma primitiva podríamos pensar en extraer una muestra de hasta 1.000 caracteres dentro de la cual figure al menos una vez el término “road silk”.  Con esto tendríamos pues un textón de muestra de 1 millón de caracteres.

Nota 01: en estas idealizaciones estamos experimentando grandes saltos y simplificaciones tales cómo dar por hecho poseer un script capaz de extraer solo texto de los distinto tipos de archivos a ser encontrados en las referencias y cómo seleccionar las mejores fuentes dentro de las 8.500 referencias registradas por Google. No obstante sigamos adelante pues si llegamos a la conclusión de que es científicamente posible extraer conceptos de los textones los problemas a resolver por cualquier ontología semántica Web serian solo de tiempo y esfuerzo.

Finalmente lograremos tener un textón de 1 millón de palabras o de caracteres para el tema “road silk” dentro de Historia del Turismo. Podríamos hasta curiosear y criticar como humanos la calidad de las “autoridades” bajo cuyos auspicios fueron escritas las 1.000 muestras. Una primera prueba que podríamos hacer, aunque algo pesada y aburrida, sería ofrecer el textón listado a un grupo de estudiantes para que marquen sobre el mismo las palabras o grupos de palabras que a su buen saber y entender son conceptos relacionados con la temática en estudio (es lo que hicimos con un grupo de 100 estudiantes del Instituto Tecnológico de Monterrey, México, en el año 2003 con el Tesauro de Computación). Veamos ahora como creamos e instruimos a agentes para que hagan algo similar y porque no algo mejor.

 

  • Paso 0: Generación de los textones temáticos;
  • Paso 1: contar la cantidad de veces que figura el nombre del tema pues en cada muestra existe al menos 1;
  • Paso 2: identificar, registrar y computar frecuencias para M, D, T, C, P, mónadas, díadas,  tríadas, cuaternas y pent-adas  de palabras respectivamente;
  • Paso 3: Correlacionar la Jerga extraída del textón versus una Jerga Básica (digamos una de 3.000 Palabras Comunes de Uso Frecuente e igual número de Referencias y Alocuciones Comunes y de Uso Frecuente;

 

Nota 02: Por ahora nada más hasta procesar los 2.500 textones temáticos del Esqueleto Semántico de Turismo. Una vez realizado este cómputo y suponiendo un espacio de 25 bytes para alojar una palabra o signo tendríamos un Textón de Turismo de 25.000MB o sea de 25GB.

Nota 03: El tiempo de llamada a cada una de las referencias es el principal limitante por lo cual habría que limitarlo. Es preferible realizar un esfuerzo de programación tendiente a una mejor selección de las “autoridades” a ser seleccionadas para cada textón semántico disminuyendo sensiblemente el número de referencias de la muestra, con textones de 100.000 palabras en lugar de un millón. Suponiendo una sola PC y un tiempo de 10 segundos en promedio para bajar y procesar una página dada tendríamos un tiempo de 1.000 segundos por tema o sea aproximadamente 3 minutos, dándonos un estimado de 50 horas de proceso para generar el textón de turismo que entrará en un espacio de 1GB. El tiempo de proceso para los pasos 1 a 9 es despreciable respecto al de generación de los textones (Paso 0).

  • Paso 4: Obtener la Jerga_Básica_0 para el total de textones; Computar M0, D0, T0, C0 y P0 para el universo total del Turismo;
  • Paso 5: agregar al registro de cómputo de cada textón temático el match entre Mi, Di, Ti, Ci y Pi de cada tema versus M0, D0, T0, C0 y P0 del universo total;

Nota 04: En función de una supuesta Conjetura de Especificidad de la Ontología Darwin, es poco probable que un determinado elemento de Mi, Di, Ti, Ci, Pi considerado “raro” pero de existencia probable en la temática i-ésima exista como raro y de existencia probable en otro temática j, sobre todo si la temática j no está en su “vecindad arbórea”.

  • Paso 6: pre selección de aquellos elementos raros pero de existencia probable para cada tema;
  • Paso 7: Matriz de análisis ex post de potenciales conjuntos de conceptos por tema versus sí mismos a fin de verificar la fuerte Conjetura de Especificidad;
  • Paso 8: Pre-Listado de los conjuntos de conceptos por tema con indicación de las probables superposiciones con miembros de otros temas;
  • Paso 9: Listado de los conjunto de conceptos por tema, que deberán ser considerados “potenciales’’ hasta tanto sean revisados y aprobados por expertos humanos.

Proceso de Revisión Humana: Este tiempo puede llegar a ser muy significativo teniendo en cuenta que hay que revisar 2.500 conjuntos de 30 a 100 elementos cada uno con un promedio estimado en 70, es decir habrá que revisar 175.000 líneas!. Tampoco hay que exagerar el control teniendo en cuenta que estos Tesauros son esencialmente evolutivos y que tienen a perfeccionarse con el tiempo y sobre todo con la intensidad de uso. Estimando 10 minutos por conjunto tendríamos 25.000 minutos para un primer control de todo el Tesauro, unas 415 horas o ~150 horas para un equipo de 3 personas. Dentro de este tiempo están previstos los ajustes que habrá que hacer en la programación, puesta a punto y entrenamiento de los agentes para optimizar su funcionamiento futuro.

 

Nota del Webmaster: Aquí se presenta un caso práctico y relativamente reciente de generación de textones para construir un Tesauro Web de Turismo. Si quisiéramos aplicar la metodología para “mapear” toda la Web creando un Mapa del Conocimiento Humano y suponiendo que el contenido total del conocimiento tiene un volumen 200 veces mayor, medido en textones manejables con la tecnología actualmente disponible, tendríamos un esfuerzo de revisión humana del orden de los 600 meses hombre. He aquí un caso típico de transferencia aconsejable de tareas humanas a agentes, justificando el esfuerzo de programación necesario. Esta misma tarea mediante un operador antrópico como el que veremos en el siguiente artículo de ésta serie tomaría solo unas pocas horas.