Aplicaciones de Aiware

Metadata

Metadata

Su Creación, Descubrimiento y Organización

Fuentes

  • 1. Semántica Web, según el Consorcio W3C;
  • 2. NISO, Estándares para las actividades de creación de contenidos, bibliotecas, reservorios de datos y software asociado;
  • 3. Metadata, según Wikipedia;
  • 4. Linked Data, según Wikipedia;

 

Definición

Metadata es información estructurada que describe, explica, facilita la ubicación, uso y/o administración de información (contenido). Por ello es también definida como datos acerca de datos. Existen tres tipos de metadata:

1) metadata descriptiva: que describe un contenido para descubrirlo e identificarlo. Incluye elementos tales como título, resumen, autoría y “keywords” (o conceptos destacados dentro del contenido).

2) metadata estructural: que indica cómo organizar contenidos compuestos, por ejemplo cómo ordenar las páginas de un libro en secciones, capítulos, etc.

3)  metadata administrativa: que provee información para administrar contenidos tales como cuándo y cómo fue creado, tipos de archivos, información técnica en general y características para su acceso (por ejemplo quién puede y quién no y a qué partes). Dentro de esta categoría está la metadata de administración de derechos y la metadata de preservación, por ejemplo descripción de los procesos de actualización y de backup.

La metadata debe tener siempre un “propósito”: En la figura de abajo se muestra la diferencia entre data primaria o cruda del “planeta real” y data acompañada de su correspondiente metadata consistente en un sistema de coordenadas geográficas “latitud - longitud”.  

 

Metadata es Data con un Propósito, según kcoyle.net

 

Y en la figura de abajo un proyecto de Estudio Interuniversitarios de la Alta Atmósfera en la cual un Centro Universitario A posee una Base de Datos de Geomagnetismo que debería poder ser usada a pleno por el Instituto B dedicado al estudio de las Auroras Boreales y por la Universidad C dedicada al estudio de la Actividad Solar. Resulta evidente, incluso a nivel intuitivo, que para un funcionamiento pleno se necesita de la existencia y concurso de una Base de Datos de Metadada.

 

 

Red IUGonet, MDB, Metadata Data Base

 

Introducción

Este sitio Web trata de aplicaciones de la Inteligencia Artificial a la Web y en particular a la Web Semántica, una Web ordenada por significado hacia la cual marchamos en forma acelerada. Hasta ahora la Web es un gigantesco reservorio al cual hemos denominado también “Océano Web” de contenido semiestructurado. Este contenido está aún menos ordenado que el de las bibliotecas convencionales donde para cada libro se edita generalmente una ‘ficha” que contiene no solo datos descriptivos y estructurales sino un resumen escrito empleando términos muy específicos de la temática general de la obra.

Los viejos y útiles ficheros bibliográficos: Sin éstas fichas sería muy dificultoso y limitado el acceso e incluso la comprensión de los contenidos. Hasta ahora las unidades de contenido de la Web o “páginas Web” tratan de temas específicos pero en su gran mayoría no vienen acompañadas de información equivalente a esas fichas. Ante ésta falencia los buscadores “tratan de hacer lo que pueden” en función de la información proporcionada por los autores y/o administradores de los sitios Web donde las páginas son expuestas: así, solo indexan por palabras y no por conceptos y presuponen que todo es “dato” que forma parte del contenido. “De buena fe” indexarán por ejemplo un índice y las supuestas explicaciones de cada uno de los ítems de ese índice  pero no aseguran que un ítem que diga “prefacio” contenga descripción sobre la obra ni que un ítem que diga “resumen” sea efectivamente un resumen del contenido en cuestión, ni que un ítem que diga “conceptos” contenga conceptos y no una lista arbitraria de palabras con o sin sentido preparadas para atraer o confundir a los usuarios.  

Qué necesita la Web para ser estructurada: La Web está preparada para compartir todo tipo de contenido a modo de TODO conectado con TODO y TODOS conectados con TODOS (un TODO accesible por todos desde cualquier lugar, bajo cualquier lengua nivel tecnológico de soporte) pero para ello debe primero ser “semántica” lo que implica no solo estar semánticamente estructurada sino poseer una base común de razonamiento. Esta base común de razonamiento es una “Ontología”. Para poder hablar con propiedad de Web Semántica y de una Web Global todo contenido hospedado en el Espacio Web debe responder a una Ontología y toda “data” debe estar asociada a su “metadata”. Por ello se habla cada vez más de la terna [Ontología, Data, Metadada] como condición necesaria y suficiente para que un contenido pueda ser considerado estructurado semánticamente.

Conclusión: Un contenido puede estar en la Web bajo forma no estructurada, es decir sin responder a una ontología ni poseer metadata pero como veremos su utilidad será muy limitada y su supervivencia incierta. El concepto de metadata se extiende a todos los “objetos” del contenido tales como imágenes, fotografías, presentaciones audiovisuales, etc., que deberían ir con sus correspondientes metadata. Finalmente la metadata es condición necesaria para la supervivencia de todo patrimonio intelectual y para ser accesible y útil en el futuro.

Usos de la metadata

Multimedia: Una manera práctica de ver el rol de la metadata es imaginar a Internet como una interacción total y continua entre gente, data y metadata. Esta es al menos la visión de la organización Masternewmedia.org que nos muestra el imparable avance de lo multimedial. La conclusión es que el contenido multimedial se presenta como invisible en la medida que no está adecuadamente estructurado. No obstante, ésta conclusión es también válida para el contenido textual que es quizás más sensible al paso del tiempo y de los cambios tecnológicos que lo no textual. Otro hecho es que hay una tendencia a escribir cada vez menos y con menor propiedad lo que hace que los “textos viejos” atesoren contenidos difícilmente replicables.

Los motores de búsqueda convencionales no pueden saber lo que se dice en un vídeo a menos que sus autores se hayan preocupado de brindar relevante metadata. En caso de no hacerlo se corre el peligro de publicar contenido que luego nadie verá. Las figuras quieren destacar la importancia estratégica, cualitativa y estadística, de los vídeos online. Las leyendas y acrónimos significan:

  • Voip: Voz a través del Protocolo IP;
  • P2P: redes “peer to peer” entre computadoras personales;
  • Internet Video to TV: Video Internet a TV;
  • Internet Video to PC: Video Internet a PC;
  • Video Communication: Vídeo Comunicación;
  • Gaming: Juegos;
  • Web/data: Web - data;

Virtualización de Data: Toda forma de abstracción semántica que permita que personas y máquinas, en distintos niveles de formación y lenguas y empleando distintos recursos informáticos, tanto de hardware cuanto de software, puedan compartir recursos. Una forma muy elemental es la de “linked data” o “datos enlazados”  donde los conceptos está asociados a direcciones Web o URI’s a los cuales todo el mundo tiene libre acceso. Recordemos que un URI es un par URL - URN, por “Uniform Resource Locator” - “Uniform Resource Name”, una dirección Web y un nombre respectivamente. En un futuro próximo la Web estará totalmente estructurada de forma tal que cada una de las imágenes mentales, ideas o conceptos de las distintas culturas tendrá su enlace URI universal.

Compatibilización de estándares: los datos estadísticos de poco sirven y hasta confunden de no estar meticulosamente estructurados desde un punto de vista semántico. La Metodología Darwin puede crear para cada estándar un IdeI, Informe de Inteligencia comparado.

Bibliotecología y Ciencia de la Información: en este tipo de aplicaciones se está en una etapa de transición en la cual surgen en la Web iniciativas muchas de ellas un poco caóticas pero que de hecho se van superponiendo y en ciertas temáticas superando los niveles de estandarización logrados en las bibliotecas. Hoy por ejemplo prácticamente todo lo publicado digitalmente en la Web viene acompañado de su correspondiente metadata.

Metadata en La Ley y en la Medicina: el título de ésta sección habla de “descubrimiento” de conocimiento  través de la metadata. Por ejemplo en los litigios adecuadas metadata permiten a las partes ubicar eficientemente documentos que de otra forma solo serían accesibles a los muy experimentados. Una adecuada estructuración semántica vía metadata permite usos avanzados tales como la  “limpieza” de documentos para mitigar posibles efectos de envíos, desvíos y/o filtraciones accidentales y/o involuntarios de contenido.

Metadata en la Empresa: el funcionamiento de la empresa puede ser visto en base a la interacción de dos mega aplicaciones DW, por “Data Warehousing” y BI, por “Business Intelligence”. Para algunos investigadores como  Ralph Kimball la metadata del DW es el equivalente a su DNA. Nuestra Metodología Darwin puede colaborar en la adaptación y optimización de la metadata de estos modelos en sus tres tipos: a) metadata técnico: colaborando en el ajuste de su arquitectura para operar a modo compartido y distribuido; b) metadata de negocios: La Ontología Darwin posibilita la detección de patrones de conducta lo que permite la adaptación del Vocabulario, haciéndolo más comprensible y amigable; c) metadata del proceso: complementando lo necesario para la identificación de los principales patrones de conducta de los usuarios.

Metadata para el contenido Web: esta es una tarea primaria e imprescindible. Por lo pronto sí o sí, sean o no (las metadata) contemplados hoy en forma ideal por los buscadores convencionales lo harán en un futuro próximo que no va más allá de acá a un par de años. Realmente el no hacerlo sería irracional pues el costo/esfuerzo adicional de incluir metadata es relativamente insignificante para la generación de nuevos contenidos. Implica en cambio una módica inversión si se desea incorporar metada al viejo contenido, proporcional a su contenido.

Metadata

ES: [metadata,web semántica,metadata descriptiva,metadata estructural,metadata administrativa,metadata técnico,metadata del proceso,metadata de negocios, DW-BI,metadata en la empresa,ontología Darwin,metadata Web,Ralph Kimball,voip,p2p,dna,uri,unr,url,link data,datos enlazados,océano Web,base de datos de metadata]

EN: [semantic web,web semantic,descriptive metadata,structural metadata,administrative metadata,technical metadata,business metadata,process metadata,data warehouse,business intelligence,web ocean,Darwin ontology,Darwin methodology,metadata DB, metadata database]

Big Data

Big Data

 

 Cromogramas, Ensayos de Visualización dentro de Big Data, Wikipedia

 

 La figura de arriba ilustra un “Cromograma”, o mapa cromático, en este caso creado para visualizar la actividad de los editores de Wikipedia. Hasta ahora los humanos hemos “explotado” casi al límite las posibilidades de conocer vía lectura de textos y debemos recurrir a otras formas tanto o más aptas, por ejemplo a través de visualizaciones haciendo uso de nuestra parte quizás más apta para el aprendizaje y la evolución: la vista. Se sugiere ver: Visualizations, de Infodisiac.com, un proyecto de Wikimedia y una investigación conjunta IBM - MIT sobre Técnicas de Visualización.

 

Introducción

Vivimos abrumados por exceso de contenido: Su visualización: En el mundo de la Informática y particularmente en el mundo de las TIC’s, Tecnologías de la Información y la Comunicación, se experimenta un nuevo boom: Big Data y su amplio espectro de aplicaciones. Si bien es aún un concepto en pleno proceso de transformación a la fecha podríamos definirlo como: generación, detección y administración de grandes masas de datos, estructurados y no estructurados, que a la luz de la tecnología disponible no pueden ser inteligentemente interpretados en tiempo y forma y por lo tanto se recurre a “verlos” y a asimilarlos a través de nuestra mente y de nuestros sentidos con las mejores técnicas disponibles. Por ejemplo arriba se aprecia un “cromograma”, o diagrama cromático.

Ejemplos de Big Data: Ejemplos de su generación son: “redes de sensores climáticos y de funcionamiento de sistemas de alta complejidad en general”, “los contenidos de las redes sociales”, el “detector de colisiones” del “Gran Colisionador de Hadrones” del CERN, Centro de Estudios de Investigación Nuclear de la Unión Europea, cerca de Ginebra, Suiza, las “Redes virtuales de Identificadores de Radio Frecuencia”, los “Monitores de Sistemas de Defensa”, y de “Comercio Electrónico en Gran Escala y Detalle”, etc.

Las 3V y las 4V: En cuanto a sus tamaños como reservorios de datos van de unas pocas decenas de Terabytes a cientos de Petabytes. Las tres variables del universo Big Data actual, aparte del tamaño (“Volumen”) son la “Velocidad” de entrada salida de los datos y su “Variedad”, conformando el acrónimo 3V como identificador de modelo BD. Al respecto y recientemente para algunos modelos y aplicaciones se habla de “Veracidad” como cuarta variable

 

Tabla de cuantía de potencias binaria - decimal

 

Sectores que ya usan Big Data

La lista crece exponencialmente día a día y ya comienzan a sumarse las empresas y organizaciones de mediano porte. Veamos algunos ejemplos: eBay, Amazon, Wal-Mart, Facebook, FICO: el sistema de control mundial de fraudes contra tarjetas de crédito, además de la mayor parte de las agencias de gobierno de Estados Unidos y de países altamente desarrollados, relacionadas fundamentalmente con Ciencia y Tecnología, Salud, Seguridad y Defensa. Estas aplicaciones no difieren en mucho de las de hace medio siglo salvo que lo que hace 50 años se medía en “kilo” bytes ahora, dentro de muy poco serán “peta” bytes creciendo en complejidad a razón de un nivel por década:

[K: Kilo-1961/1970, M: Mega-1971/1980, G: Giga-1981/1990, T: Tera-1991/2000, P: Peta-2001/2010, E: Exa-2011/2020, …..]

Experiencia de Aiware

By default Aiware “ve” la Web como Big Data: Al decir por defecto u omisión en nuestra lengua o “by default” en inglés nos referimos en informática a funcionar o dejar preparado para su funcionamiento un mecanismo, una máquina o un programa, de acuerdo a una forma preestablecida, generalmente una forma simple, frecuente y/o comprensible para la mayoría. Aiware, “by default”, emplea en sus aplicaciones la Metodología Darwin desarrollada por la empresa Intelligent Agents Internet Corp de Estados Unidos, lo que implica de hecho el manejo de Big Data. En efecto, su universo de operaciones es la Web y las grandes redes de datos adonde dirige sus “agentes” o robots para “enterarse” de lo que está sucediendo en el mundo.

La Ontología Darwin opera en una categoría superior a la palabra: Estos agentes, similares a los de los motores de búsqueda, tales como Google y Yahoo, es probable que para averiguar algo deban “inspeccionar” centenares de miles de documentos pero lo hace de una manera más eficiente que los buscadores en la mayoría de los casos por las características de su “Ontología” que dice que nosotros los humanos nos comunicamos en base a ideas y conceptos, no en base a palabras. Las palabras las usamos solo para construir ideas y conceptos pero no pertenecen a ninguna idea o concepto en particular. Así la palabra “límite” puede formar parte de centenares de miles de conceptos totalmente distintos mientras que los conceptos son todos detectables y distintos.

No todo es Big Data: Esto hace a la Metodología Darwin un elemento muy práctico para la resolución de problemas que analizado en base a palabras - hoy por hoy la mayoría -  necesitaría procesar en tiempo real centenares de Gigabytes y disponer de herramientas y quizás hasta de una nueva teoría de Probabilidades y Estadísticas. Ese mismo problema enfocado vía conceptos podría hacer viable la resolución del problema en forma convencional, en tiempo y forma y a costos muy inferiores. Una analogía sería analizar un fenómeno físico químico en base a interacción entre partículas elementales versus analizarlo en base a un modelo atómico o mejor aún molecular.

Un ejemplo de Big Data

Watson:  es una aplicación de IA, Inteligencia Artificial de IBM y designa también a la computadora especialmente diseñada para el procesamiento de interacciones hombre máquina. Estas interacciones o diálogos se realizan en “Lenguaje Natural” dentro de su proyecto DeepQA que hace justamente al aprendizaje humano basado en Q&A, por Questions and Answers, Preguntas y Respuestas.

 

 

Logo del Watson’s Avatar, de IBM

Esta computadora compitió en el año 2011 en el programa de juego por televisión Jeopardy!y venció a los ganadores del año anterior. La Base de Conocimiento de Watson no luce como Big Data en términos actuales de Web: 200 millones de páginas de contenidos en gran parte estructurado, por ejemplo el contenido de Wikipedia (la Web actual tiene 35.000 millones de páginas Web en su inmensa mayoría no estructuradas). Hoy un proyecto similar está siendo aplicado para el diagnóstico de cáncer del pulmón.

Ecosistema Watson: Dentro de una política de apertura hacia la comunidad Web IBM ha lanzado su propio proyecto abierto (“Open Source”) denominado Ecosistema IBM Watson orientado a “procesar en nube” Big Data.

 

 

IBM libera Watson Ecosystem que permitiría al público en general, procesar aplicaciones Big Data

 

Ecosistema está definido como una comunidad de organismos vivos interactuando entre sí y con el medio - viviendo -. Luego el Ecosistema Watson se presenta como una “inteligencia” disponible para la Comunidad Web basada en tres pilares: 1) un lenguaje que permite a los usuarios navegar evitando las ambigüedades y ruidos de los lenguajes corrientes; 2) interactuar con las fuentes más diversas, estructuradas y no estructuradas, analizando y evaluando sus datos; y 3) adaptarse y aprender en forma continua.

Dada la importancia actual de esta mega aplicación iremos agregando una sección con sus avances y que se irá convirtiendo en un Tesauro de Big Data y en Big Data avatar, es decir, un ente multidimensional que lo define y representa en todo momento. Ahora incluimos una primera Semilla Semántica de ese Tesauro, listando los primeros ejes semánticos del avatar y conceptos íntimamente relacionados y que poco a poco van creciendo en presencia estadística en la Web.    

Primera Semilla Semántica de Big Data

Estos temas son una muestra de “ideas” y “conceptos” relevantes que van surgiendo en la Web sobre BD, Big Data A medida que vayan apareciendo sus equivalentes precisos en español los iremos incluyendo. Lo realmente importante es que son a su vez nombres “modales” o estadísticamente significativos sobre BD en la Web tal como está hoy indexada. Es decir, si usted pregunta exactamente por estos nombres el buscador le va a traer información relevante.

Como ejemplo busque en Google a modo exacto por “divide and conquer algorithms” y por uno de sus posibles acepciones en nuestra lengua: “algoritmos divide y conquistarás” y apreciará que el primer es indudablemente un concepto modal y que el segundo está recién en una etapa de formación (o de extinción).

Big Data (Como fenómeno):

  • BI
  • Big Data Analytics
  • Big Data Initiative
  • Big Science
  • Business Analytics
  • Business Intelligence
  • Chaos Theory
  • Cloud Computing
  • Clustering
  • Clustering theory
  • Data Access
  • Data Intensive Computing
  • Data Marts
  • Data mining
  • Data Modeling
  • Data topology
  • Data Warehouse
  • Divide and conquer algorithm
  • DW
  • Enterprise Architecture
  • Enterprise Data Management
  • ETL
  • Extract, Transform, and Load
  • Grid Computing
  • HADOOP
  • Hypertable
  • Inducted Statistics
  • Inference Statistics
  • Map Reduce
  • Shared Computing
  • Smart Computing
  • Social Data Revolution
  • Stream Computing
  • Stream Processing
  • Unstructured Data
  • VVVV: Volume, Velocity, Variety, Veracity
  • Watson Super Computer

Noticias y Conocimiento

Herramientas

  • Apache
  • Data mining tools
  • Databases tools
  • Google knowledge graph
  • HADOOP
  • MapReduce
  • MongoDB
  • NoSQL
  • Watson Super Computer

Agencias y pseudo Agencias

  • Agencia de Seguridad Interna de Estados Unidos
  • DHS
  • DoD
  • Homeland Security
  • IBM
  • Jim Kobelim
  • NASA
  • NIF
  • NIH Health
  • NSF
  • Oficina de Ciencia y Tecnología de la Casa Blanca
  • OSTP

España

  • BBVA
  • Caixabank
  • Cortefiel
  • Día
  • Mapfre
  • Sanitas
  • Santander
  • Telefónica

Consultoras

  • Accenture
  • CACI
  • Cap Gemini
  • IBM
  • Indra
  • KPMG

Apps

  • PremiaT
  • Google Cloud Platform
  • Dashboards (Mobile)
  • Visual analytics (Mobile)

Aplicaciones

  • Actividades masivas
  • Catástrofes
  • Epidemias
  • Evaluación online de grandes proyectos y de investigaciones
  • Explosión de nuevos conceptos o instancias de lo preexistente
  • Frentes de combate
  • Herramientas para combatir el terrorismo y el crimen organizado
  • Prevención de enfermedades
  • Sistemas de monitoreo y alarmas en contextos de alta complejidad
  • Situaciones de tráfico
  • Tendencias de negocios
  • Uso de terapias y medicamentos

 

Subcategorías

  • Creación de Conocimiento

    Experiencia de Detección y Recuperación de Conocimiento

    A partir de Contenido Semánticamente relacionado

    Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. , 24 Febrero 2013

     

    Introducción

     

     

    Grafo de Conocimiento, a partir del contenido de sitios Joomla en base a Node XL

     

    La Web Semántica: En ésta sección iniciaremos una serie de artículos que pretenden ser nodos de un grafo semánticamente relacionado. El objeto es detectar y recuperar conocimiento nuevo disperso acerca de una temática dada que en nuestro caso sería: Tecnologías de Punta para la implementación de una Web Semántica. La idea central es que la Web es un universo cognitivo en el cual TODO está conectado con TODO y TODOS con TODOS.

    Contenido semánticamente estructurado: Dentro del inmenso “Océano Web” subyacen hoy unos 30.000 millones de documentos o páginas Web organizados en “clusters” o aglomeraciones de conocimiento relacionados a su vez entre sí por “temas”, y dentro de ellos por subtemas y los temas agrupados a su vez en “grandes temas”, medicina, filosofía, matemáticas, entretenimientos, etc., constituyendo en su conjunto la Web Semántica.

    Buscadores y navegadores: Para recorrer este universo contamos actualmente con los buscadores y navegadores. Si quisiéramos detectar y recuperar una gran temática, como por ejemplo “Medicina”, podríamos hacerlo en forma personal o mediante agentes. En ambos casos debemos recorrer un muy largo camino de de preguntas y/o de opciones en el que cada respuesta y la lectura de cada opción nos van enriqueciendo en conocimiento y orientando hacia la próxima pregunta y/o la próxima opción.

    Desentrañando la madeja: En síntesis lo que vamos haciendo es desentrañar una “madeja” de conocimiento comenzando por cualquier punta. Llegará un momento en el cual habremos llegado a la conclusión de que ya hemos adquirido el conocimiento suficiente que a lo largo de nuestra exploración hemos ido sumariando en algún documento accesible, por ejemplo en carpetas de nuestra computadora personal y/o en algún lugar de la nube Web. ¿Cómo darnos cuenta de que hemos recorrido prácticamente todo lo necesario para adquirir conocimiento específico en un cierto grado?. Por ahora subjetivamente y de acuerdo al siguiente criterio: De cada “paso”, “eslabón” o “nodo” de nuestro camino formando parte y sumado a la memoria de los pasos anteriores surgirá una imagen mental de duda o de convicción: en respuesta a preguntas que nos vamos haciendo tales como: ¿ha quedado alguna idea, concepto, keyword o palabra no suficientemente aclarada?. Por la negativa deberemos seguir explorando; por la afirmativa deberíamos abocarnos a rever todo lo documentado a fin de corroborar si de ello (lo documentado) podemos extraer el conocimiento buscado.

    La exploración: Hemos planificado realizar una exploración a razón de un nodo (artículo) diario durante un año, con lo cual tendríamos 365 artículos y definidos unos 10.000 conceptos de los cuales aproximadamente 3.000 serían no repetidos. Es decir dentro de un año tendríamos escrito una especie de “ebook” de 365 páginas en base a un Vocabulario Controlado de unos 3.000 conceptos que supuestamente tratará sobre las aplicaciones de punta en Inteligencia Artificial orientada a la Semántica Web.  

    Semantic pill”: Cada página la editaremos como “píldoras” semánticas (“pills”) o nodos de un camino semántico de aprendizaje continuo, desde 001gn al 365gn (gn por “graph node”) con el siguiente formato:

    xxx.gn

    Imagen

    Acrónimo: si lo hubiera

    Referencias Google: nnnn, a fecha tal

    Autoridades:

    1. URL1

    2. URL2

    ………..

    Descripción: en no más de uno a dos párrafos

    Metadada:

    EN: [conceptos y/o keywords separados por coma en inglés]

    ES: [conceptos y/o keywords separados por coma en español]

     

  • Metodologías

    En ésta sección iremos informando sobre la Metodología Darwin y sus derivadas, tales como la Metodología Aiware que opera sobre reservorios de datos previamente estructurados por la Metodología "madre" Darwin. 

Additional information