Metadata

Metadata

Su Creación, Descubrimiento y Organización

Fuentes

  • 1. Semántica Web, según el Consorcio W3C;
  • 2. NISO, Estándares para las actividades de creación de contenidos, bibliotecas, reservorios de datos y software asociado;
  • 3. Metadata, según Wikipedia;
  • 4. Linked Data, según Wikipedia;

 

Definición

Metadata es información estructurada que describe, explica, facilita la ubicación, uso y/o administración de información (contenido). Por ello es también definida como datos acerca de datos. Existen tres tipos de metadata:

1) metadata descriptiva: que describe un contenido para descubrirlo e identificarlo. Incluye elementos tales como título, resumen, autoría y “keywords” (o conceptos destacados dentro del contenido).

2) metadata estructural: que indica cómo organizar contenidos compuestos, por ejemplo cómo ordenar las páginas de un libro en secciones, capítulos, etc.

3)  metadata administrativa: que provee información para administrar contenidos tales como cuándo y cómo fue creado, tipos de archivos, información técnica en general y características para su acceso (por ejemplo quién puede y quién no y a qué partes). Dentro de esta categoría está la metadata de administración de derechos y la metadata de preservación, por ejemplo descripción de los procesos de actualización y de backup.

La metadata debe tener siempre un “propósito”: En la figura de abajo se muestra la diferencia entre data primaria o cruda del “planeta real” y data acompañada de su correspondiente metadata consistente en un sistema de coordenadas geográficas “latitud - longitud”.  

 

Metadata es Data con un Propósito, según kcoyle.net

 

Y en la figura de abajo un proyecto de Estudio Interuniversitarios de la Alta Atmósfera en la cual un Centro Universitario A posee una Base de Datos de Geomagnetismo que debería poder ser usada a pleno por el Instituto B dedicado al estudio de las Auroras Boreales y por la Universidad C dedicada al estudio de la Actividad Solar. Resulta evidente, incluso a nivel intuitivo, que para un funcionamiento pleno se necesita de la existencia y concurso de una Base de Datos de Metadada.

 

 

Red IUGonet, MDB, Metadata Data Base

 

Introducción

Este sitio Web trata de aplicaciones de la Inteligencia Artificial a la Web y en particular a la Web Semántica, una Web ordenada por significado hacia la cual marchamos en forma acelerada. Hasta ahora la Web es un gigantesco reservorio al cual hemos denominado también “Océano Web” de contenido semiestructurado. Este contenido está aún menos ordenado que el de las bibliotecas convencionales donde para cada libro se edita generalmente una ‘ficha” que contiene no solo datos descriptivos y estructurales sino un resumen escrito empleando términos muy específicos de la temática general de la obra.

Los viejos y útiles ficheros bibliográficos: Sin éstas fichas sería muy dificultoso y limitado el acceso e incluso la comprensión de los contenidos. Hasta ahora las unidades de contenido de la Web o “páginas Web” tratan de temas específicos pero en su gran mayoría no vienen acompañadas de información equivalente a esas fichas. Ante ésta falencia los buscadores “tratan de hacer lo que pueden” en función de la información proporcionada por los autores y/o administradores de los sitios Web donde las páginas son expuestas: así, solo indexan por palabras y no por conceptos y presuponen que todo es “dato” que forma parte del contenido. “De buena fe” indexarán por ejemplo un índice y las supuestas explicaciones de cada uno de los ítems de ese índice  pero no aseguran que un ítem que diga “prefacio” contenga descripción sobre la obra ni que un ítem que diga “resumen” sea efectivamente un resumen del contenido en cuestión, ni que un ítem que diga “conceptos” contenga conceptos y no una lista arbitraria de palabras con o sin sentido preparadas para atraer o confundir a los usuarios.  

Qué necesita la Web para ser estructurada: La Web está preparada para compartir todo tipo de contenido a modo de TODO conectado con TODO y TODOS conectados con TODOS (un TODO accesible por todos desde cualquier lugar, bajo cualquier lengua nivel tecnológico de soporte) pero para ello debe primero ser “semántica” lo que implica no solo estar semánticamente estructurada sino poseer una base común de razonamiento. Esta base común de razonamiento es una “Ontología”. Para poder hablar con propiedad de Web Semántica y de una Web Global todo contenido hospedado en el Espacio Web debe responder a una Ontología y toda “data” debe estar asociada a su “metadata”. Por ello se habla cada vez más de la terna [Ontología, Data, Metadada] como condición necesaria y suficiente para que un contenido pueda ser considerado estructurado semánticamente.

Conclusión: Un contenido puede estar en la Web bajo forma no estructurada, es decir sin responder a una ontología ni poseer metadata pero como veremos su utilidad será muy limitada y su supervivencia incierta. El concepto de metadata se extiende a todos los “objetos” del contenido tales como imágenes, fotografías, presentaciones audiovisuales, etc., que deberían ir con sus correspondientes metadata. Finalmente la metadata es condición necesaria para la supervivencia de todo patrimonio intelectual y para ser accesible y útil en el futuro.

Usos de la metadata

Multimedia: Una manera práctica de ver el rol de la metadata es imaginar a Internet como una interacción total y continua entre gente, data y metadata. Esta es al menos la visión de la organización Masternewmedia.org que nos muestra el imparable avance de lo multimedial. La conclusión es que el contenido multimedial se presenta como invisible en la medida que no está adecuadamente estructurado. No obstante, ésta conclusión es también válida para el contenido textual que es quizás más sensible al paso del tiempo y de los cambios tecnológicos que lo no textual. Otro hecho es que hay una tendencia a escribir cada vez menos y con menor propiedad lo que hace que los “textos viejos” atesoren contenidos difícilmente replicables.

Los motores de búsqueda convencionales no pueden saber lo que se dice en un vídeo a menos que sus autores se hayan preocupado de brindar relevante metadata. En caso de no hacerlo se corre el peligro de publicar contenido que luego nadie verá. Las figuras quieren destacar la importancia estratégica, cualitativa y estadística, de los vídeos online. Las leyendas y acrónimos significan:

  • Voip: Voz a través del Protocolo IP;
  • P2P: redes “peer to peer” entre computadoras personales;
  • Internet Video to TV: Video Internet a TV;
  • Internet Video to PC: Video Internet a PC;
  • Video Communication: Vídeo Comunicación;
  • Gaming: Juegos;
  • Web/data: Web - data;

Virtualización de Data: Toda forma de abstracción semántica que permita que personas y máquinas, en distintos niveles de formación y lenguas y empleando distintos recursos informáticos, tanto de hardware cuanto de software, puedan compartir recursos. Una forma muy elemental es la de “linked data” o “datos enlazados”  donde los conceptos está asociados a direcciones Web o URI’s a los cuales todo el mundo tiene libre acceso. Recordemos que un URI es un par URL - URN, por “Uniform Resource Locator” - “Uniform Resource Name”, una dirección Web y un nombre respectivamente. En un futuro próximo la Web estará totalmente estructurada de forma tal que cada una de las imágenes mentales, ideas o conceptos de las distintas culturas tendrá su enlace URI universal.

Compatibilización de estándares: los datos estadísticos de poco sirven y hasta confunden de no estar meticulosamente estructurados desde un punto de vista semántico. La Metodología Darwin puede crear para cada estándar un IdeI, Informe de Inteligencia comparado.

Bibliotecología y Ciencia de la Información: en este tipo de aplicaciones se está en una etapa de transición en la cual surgen en la Web iniciativas muchas de ellas un poco caóticas pero que de hecho se van superponiendo y en ciertas temáticas superando los niveles de estandarización logrados en las bibliotecas. Hoy por ejemplo prácticamente todo lo publicado digitalmente en la Web viene acompañado de su correspondiente metadata.

Metadata en La Ley y en la Medicina: el título de ésta sección habla de “descubrimiento” de conocimiento  través de la metadata. Por ejemplo en los litigios adecuadas metadata permiten a las partes ubicar eficientemente documentos que de otra forma solo serían accesibles a los muy experimentados. Una adecuada estructuración semántica vía metadata permite usos avanzados tales como la  “limpieza” de documentos para mitigar posibles efectos de envíos, desvíos y/o filtraciones accidentales y/o involuntarios de contenido.

Metadata en la Empresa: el funcionamiento de la empresa puede ser visto en base a la interacción de dos mega aplicaciones DW, por “Data Warehousing” y BI, por “Business Intelligence”. Para algunos investigadores como  Ralph Kimball la metadata del DW es el equivalente a su DNA. Nuestra Metodología Darwin puede colaborar en la adaptación y optimización de la metadata de estos modelos en sus tres tipos: a) metadata técnico: colaborando en el ajuste de su arquitectura para operar a modo compartido y distribuido; b) metadata de negocios: La Ontología Darwin posibilita la detección de patrones de conducta lo que permite la adaptación del Vocabulario, haciéndolo más comprensible y amigable; c) metadata del proceso: complementando lo necesario para la identificación de los principales patrones de conducta de los usuarios.

Metadata para el contenido Web: esta es una tarea primaria e imprescindible. Por lo pronto sí o sí, sean o no (las metadata) contemplados hoy en forma ideal por los buscadores convencionales lo harán en un futuro próximo que no va más allá de acá a un par de años. Realmente el no hacerlo sería irracional pues el costo/esfuerzo adicional de incluir metadata es relativamente insignificante para la generación de nuevos contenidos. Implica en cambio una módica inversión si se desea incorporar metada al viejo contenido, proporcional a su contenido.

Metadata

ES: [metadata,web semántica,metadata descriptiva,metadata estructural,metadata administrativa,metadata técnico,metadata del proceso,metadata de negocios, DW-BI,metadata en la empresa,ontología Darwin,metadata Web,Ralph Kimball,voip,p2p,dna,uri,unr,url,link data,datos enlazados,océano Web,base de datos de metadata]

EN: [semantic web,web semantic,descriptive metadata,structural metadata,administrative metadata,technical metadata,business metadata,process metadata,data warehouse,business intelligence,web ocean,Darwin ontology,Darwin methodology,metadata DB, metadata database]

Additional information