Los "Textones" Darwin - Redes de Pesca en el Océano Web

Metodología Aiware - VIII

Juan Chamero, Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. , al 24 de Abril del 2013

Apéndices

 

 Concepto de “Vecindad Semántica Darwin”

 

Esta imagen sintetiza un árbol de conocimiento o parte del mismo “semánticamente secuenciado” en forma curiosamente análoga a cómo se secuencian los genes en el Genoma Humano. Hay que imaginar al contenido asociado a las ramas de ese árbol, desde la raíz a las hojas. Todo el contenido Web, sus hoy 30.000 millones de páginas Web, están, en mayor o menor grado semántico asociados a éstos vectores o representaciones unidimensionales del conocimiento. Estadísticamente, los “mejores documentos” ,  los que supuestamente nos conducirían a las “mejores verdades”, están apuntados a lugares específicos de estos vectores. A su vez cada uno de estos lugares específicos a los que la Metodología Darwin denomina “modales” tiene una vecindad semántica de documentos afines, similares o parecidos desde un punto de vista cognitivo.

 

Textones - I

Los “textones” son en la Metodología Darwin enormes archivos de texto compilados por los agentes a fin de ser analizados por los programas y algoritmos Darwin. Estos archivos son de Páginas Web potencialmente considerados como “Autoridades”, es decir se generan y procesan como parte del tercer paso [i, k, A, K] de la Metodología Aiware.

Esta metodología opera sobre largas cadenas de palabras y signos denominados “textones” tratando determinados “asuntos” en una lengua y en forma supuestamente “bien escritos”, en sus aspectos literarios, sintácticos y ortográficos. Estos textones podrían ser el resultado de la digitalización de libros y ensayos. También habrá que suponer que las palabras pertenecen a un Glosario Básico de Términos Comunes y Usuales en la lengua en cuestión.

Características de los textones: Con respecto a lo de “largas cadenas” debemos preguntarnos cuán largas deberían ser y respondemos: lo suficientemente largas como para que el textón pueda ser considerado una buena muestra literaria del tema o temas tratados, estadísticamente hablando. Un libro extenso, por ejemplo La Biblia para el Judeocristianismo o una equivalente Escritura Sagrada para otras religiones, podrían ser ejemplos de textones, digamos 2.000 páginas de 500 palabras por página. Para estar entonces a cubierto consideraremos textones de 2 millones de palabras o más. Estos textones pueden haber sido escritos por una sola persona o por muchas, pero en este segundo caso habrá que suponer continuidad y coherencia temática y ajuste a un determinado estilo, característica que como veremos pueden ser verificadas durante o “ex post” de la aplicación de la metodología. Un textón puede tratar de un único asunto, en cuyo caso se denominará “textón temático” o de varios e idealmente podríamos imaginar un gigantesco textón donde se resuma todo el Conocimiento Humano.

Analítica de un textón: Veamos ahora qué podemos analizar dentro de un textón. A nivel de “fuerza bruta” digital y metódica podríamos computar las distribuciones en frecuencia de todos las “mónadas”, “díadas”, “tríadas”,  etc., de palabras que encontremos a nuestro paso comenzando por ejemplo desde la izquierda y yendo de izquierda a derecha. Así para este párrafo tendríamos:

Díadas: Veamos ahora, ahora qué, qué podemos, podemos analizar, ………….;

Tríadas: Veamos ahora qué, ahora qué podemos, podemos analizar dentro, …….:

……………

“n-adas raras” y “n-adas muy raras”: Y así siguiendo. Para todas estas n-adas podríamos contabilizar su existencia y frecuencia de uso. La mayor parte de ésta tarea, si fuera encarada por humanos no tendría demasiado sentido pero de tanto en tanto vamos a encontrar “n-adas raras”, estadísticamente atípicas, que tienen sentido propio como es el caso de las Expresiones Comunes de una lengua tales como “el que la hace la paga”, “a buen entendedor pocas palabras bastan”, “a ojo de buen cubero”, etc., y alocuciones latinas tales como “sine qua non” y “res non verba’. Y de tanto en tanto aparecerán otras muy “raras” que aparecen más o menos regularmente distribuidas en las cercanías temáticas o de proximidad semántica del nombre de la temática de los textones.  Si pudiéramos analizar textones temáticos comparables en cuanto a su tamaño y calidad pero con temáticas bastante diferentes vamos a encontrar que en cada uno de ellos aparecen n-adas muy raras diferentes pero que analizados por un humano podrían llegar a ser considerados características de esas  temáticas. Y vamos a encontrar también que para temas muy diferentes o “semánticamente muy alejados entre sí” es poco probable encontrar n-adas muy raras comunes.

El humano como discriminador de conceptos: El ser humano está naturalmente dotado para detectar estas n-adas muy raras y es más, muchos de nosotros lo hacemos marcando los “mini textones” que diariamente encontramos en nuestra lectura de diarios y escritos. Solo necesitamos tener una “temática in mente” (subjetiva que puede no coincidir con la temática del tema que se está leyendo) y un poco de práctica para distinguir “conceptos” que despiertan nuestro interés. ¿Estos conceptos no serían pues asimilables a esas n-adas muy raras”? ¡La respuesta es sí!......pero…..teniendo en cuenta de considerarla centro de un determinado contexto. Ver al respecto el significado de Ceptos y CONceptos dentro del directorio de conceptos de nuestro sitio. 

Nota del Webmaster: Los textones pueden visualizarse también como “filas” o “columnas” de un indexado de la Web por conceptos. Tengamos en cuenta que solo un arreglo primal de la Web, gigantesco Océano que posee hoy más de 30.000 millones de páginas Web y teniendo en cuenta que buscadores como Google posiblemente identifiquen y manejen más de 100 millones de palabras diferentes pertenecientes a las distintas lenguas (sin considerar las palabras incorrectamente escritas) estaríamos hablando de 100 millones de “textones primales W” de 30.000 millones de componentes (donde cada componente sería la dirección de uno de los 30.000 millones de direcciones de páginas Web que contiene a la palabra W) y de 30.000 millones de “textones primales URL” (donde cada componente  apuntaría a la existencia o no existencia de cada una de los 100 millones de palabras en el contenido de ese URL).

 

 

Additional information