Big Data

Big Data

 

 Cromogramas, Ensayos de Visualización dentro de Big Data, Wikipedia

 

 La figura de arriba ilustra un “Cromograma”, o mapa cromático, en este caso creado para visualizar la actividad de los editores de Wikipedia. Hasta ahora los humanos hemos “explotado” casi al límite las posibilidades de conocer vía lectura de textos y debemos recurrir a otras formas tanto o más aptas, por ejemplo a través de visualizaciones haciendo uso de nuestra parte quizás más apta para el aprendizaje y la evolución: la vista. Se sugiere ver: Visualizations, de Infodisiac.com, un proyecto de Wikimedia y una investigación conjunta IBM - MIT sobre Técnicas de Visualización.

 

Introducción

Vivimos abrumados por exceso de contenido: Su visualización: En el mundo de la Informática y particularmente en el mundo de las TIC’s, Tecnologías de la Información y la Comunicación, se experimenta un nuevo boom: Big Data y su amplio espectro de aplicaciones. Si bien es aún un concepto en pleno proceso de transformación a la fecha podríamos definirlo como: generación, detección y administración de grandes masas de datos, estructurados y no estructurados, que a la luz de la tecnología disponible no pueden ser inteligentemente interpretados en tiempo y forma y por lo tanto se recurre a “verlos” y a asimilarlos a través de nuestra mente y de nuestros sentidos con las mejores técnicas disponibles. Por ejemplo arriba se aprecia un “cromograma”, o diagrama cromático.

Ejemplos de Big Data: Ejemplos de su generación son: “redes de sensores climáticos y de funcionamiento de sistemas de alta complejidad en general”, “los contenidos de las redes sociales”, el “detector de colisiones” del “Gran Colisionador de Hadrones” del CERN, Centro de Estudios de Investigación Nuclear de la Unión Europea, cerca de Ginebra, Suiza, las “Redes virtuales de Identificadores de Radio Frecuencia”, los “Monitores de Sistemas de Defensa”, y de “Comercio Electrónico en Gran Escala y Detalle”, etc.

Las 3V y las 4V: En cuanto a sus tamaños como reservorios de datos van de unas pocas decenas de Terabytes a cientos de Petabytes. Las tres variables del universo Big Data actual, aparte del tamaño (“Volumen”) son la “Velocidad” de entrada salida de los datos y su “Variedad”, conformando el acrónimo 3V como identificador de modelo BD. Al respecto y recientemente para algunos modelos y aplicaciones se habla de “Veracidad” como cuarta variable

 

Tabla de cuantía de potencias binaria - decimal

 

Sectores que ya usan Big Data

La lista crece exponencialmente día a día y ya comienzan a sumarse las empresas y organizaciones de mediano porte. Veamos algunos ejemplos: eBay, Amazon, Wal-Mart, Facebook, FICO: el sistema de control mundial de fraudes contra tarjetas de crédito, además de la mayor parte de las agencias de gobierno de Estados Unidos y de países altamente desarrollados, relacionadas fundamentalmente con Ciencia y Tecnología, Salud, Seguridad y Defensa. Estas aplicaciones no difieren en mucho de las de hace medio siglo salvo que lo que hace 50 años se medía en “kilo” bytes ahora, dentro de muy poco serán “peta” bytes creciendo en complejidad a razón de un nivel por década:

[K: Kilo-1961/1970, M: Mega-1971/1980, G: Giga-1981/1990, T: Tera-1991/2000, P: Peta-2001/2010, E: Exa-2011/2020, …..]

Experiencia de Aiware

By default Aiware “ve” la Web como Big Data: Al decir por defecto u omisión en nuestra lengua o “by default” en inglés nos referimos en informática a funcionar o dejar preparado para su funcionamiento un mecanismo, una máquina o un programa, de acuerdo a una forma preestablecida, generalmente una forma simple, frecuente y/o comprensible para la mayoría. Aiware, “by default”, emplea en sus aplicaciones la Metodología Darwin desarrollada por la empresa Intelligent Agents Internet Corp de Estados Unidos, lo que implica de hecho el manejo de Big Data. En efecto, su universo de operaciones es la Web y las grandes redes de datos adonde dirige sus “agentes” o robots para “enterarse” de lo que está sucediendo en el mundo.

La Ontología Darwin opera en una categoría superior a la palabra: Estos agentes, similares a los de los motores de búsqueda, tales como Google y Yahoo, es probable que para averiguar algo deban “inspeccionar” centenares de miles de documentos pero lo hace de una manera más eficiente que los buscadores en la mayoría de los casos por las características de su “Ontología” que dice que nosotros los humanos nos comunicamos en base a ideas y conceptos, no en base a palabras. Las palabras las usamos solo para construir ideas y conceptos pero no pertenecen a ninguna idea o concepto en particular. Así la palabra “límite” puede formar parte de centenares de miles de conceptos totalmente distintos mientras que los conceptos son todos detectables y distintos.

No todo es Big Data: Esto hace a la Metodología Darwin un elemento muy práctico para la resolución de problemas que analizado en base a palabras - hoy por hoy la mayoría -  necesitaría procesar en tiempo real centenares de Gigabytes y disponer de herramientas y quizás hasta de una nueva teoría de Probabilidades y Estadísticas. Ese mismo problema enfocado vía conceptos podría hacer viable la resolución del problema en forma convencional, en tiempo y forma y a costos muy inferiores. Una analogía sería analizar un fenómeno físico químico en base a interacción entre partículas elementales versus analizarlo en base a un modelo atómico o mejor aún molecular.

Un ejemplo de Big Data

Watson:  es una aplicación de IA, Inteligencia Artificial de IBM y designa también a la computadora especialmente diseñada para el procesamiento de interacciones hombre máquina. Estas interacciones o diálogos se realizan en “Lenguaje Natural” dentro de su proyecto DeepQA que hace justamente al aprendizaje humano basado en Q&A, por Questions and Answers, Preguntas y Respuestas.

 

 

Logo del Watson’s Avatar, de IBM

Esta computadora compitió en el año 2011 en el programa de juego por televisión Jeopardy!y venció a los ganadores del año anterior. La Base de Conocimiento de Watson no luce como Big Data en términos actuales de Web: 200 millones de páginas de contenidos en gran parte estructurado, por ejemplo el contenido de Wikipedia (la Web actual tiene 35.000 millones de páginas Web en su inmensa mayoría no estructuradas). Hoy un proyecto similar está siendo aplicado para el diagnóstico de cáncer del pulmón.

Ecosistema Watson: Dentro de una política de apertura hacia la comunidad Web IBM ha lanzado su propio proyecto abierto (“Open Source”) denominado Ecosistema IBM Watson orientado a “procesar en nube” Big Data.

 

 

IBM libera Watson Ecosystem que permitiría al público en general, procesar aplicaciones Big Data

 

Ecosistema está definido como una comunidad de organismos vivos interactuando entre sí y con el medio - viviendo -. Luego el Ecosistema Watson se presenta como una “inteligencia” disponible para la Comunidad Web basada en tres pilares: 1) un lenguaje que permite a los usuarios navegar evitando las ambigüedades y ruidos de los lenguajes corrientes; 2) interactuar con las fuentes más diversas, estructuradas y no estructuradas, analizando y evaluando sus datos; y 3) adaptarse y aprender en forma continua.

Dada la importancia actual de esta mega aplicación iremos agregando una sección con sus avances y que se irá convirtiendo en un Tesauro de Big Data y en Big Data avatar, es decir, un ente multidimensional que lo define y representa en todo momento. Ahora incluimos una primera Semilla Semántica de ese Tesauro, listando los primeros ejes semánticos del avatar y conceptos íntimamente relacionados y que poco a poco van creciendo en presencia estadística en la Web.    

Primera Semilla Semántica de Big Data

Estos temas son una muestra de “ideas” y “conceptos” relevantes que van surgiendo en la Web sobre BD, Big Data A medida que vayan apareciendo sus equivalentes precisos en español los iremos incluyendo. Lo realmente importante es que son a su vez nombres “modales” o estadísticamente significativos sobre BD en la Web tal como está hoy indexada. Es decir, si usted pregunta exactamente por estos nombres el buscador le va a traer información relevante.

Como ejemplo busque en Google a modo exacto por “divide and conquer algorithms” y por uno de sus posibles acepciones en nuestra lengua: “algoritmos divide y conquistarás” y apreciará que el primer es indudablemente un concepto modal y que el segundo está recién en una etapa de formación (o de extinción).

Big Data (Como fenómeno):

  • BI
  • Big Data Analytics
  • Big Data Initiative
  • Big Science
  • Business Analytics
  • Business Intelligence
  • Chaos Theory
  • Cloud Computing
  • Clustering
  • Clustering theory
  • Data Access
  • Data Intensive Computing
  • Data Marts
  • Data mining
  • Data Modeling
  • Data topology
  • Data Warehouse
  • Divide and conquer algorithm
  • DW
  • Enterprise Architecture
  • Enterprise Data Management
  • ETL
  • Extract, Transform, and Load
  • Grid Computing
  • HADOOP
  • Hypertable
  • Inducted Statistics
  • Inference Statistics
  • Map Reduce
  • Shared Computing
  • Smart Computing
  • Social Data Revolution
  • Stream Computing
  • Stream Processing
  • Unstructured Data
  • VVVV: Volume, Velocity, Variety, Veracity
  • Watson Super Computer

Noticias y Conocimiento

Herramientas

  • Apache
  • Data mining tools
  • Databases tools
  • Google knowledge graph
  • HADOOP
  • MapReduce
  • MongoDB
  • NoSQL
  • Watson Super Computer

Agencias y pseudo Agencias

  • Agencia de Seguridad Interna de Estados Unidos
  • DHS
  • DoD
  • Homeland Security
  • IBM
  • Jim Kobelim
  • NASA
  • NIF
  • NIH Health
  • NSF
  • Oficina de Ciencia y Tecnología de la Casa Blanca
  • OSTP

España

  • BBVA
  • Caixabank
  • Cortefiel
  • Día
  • Mapfre
  • Sanitas
  • Santander
  • Telefónica

Consultoras

  • Accenture
  • CACI
  • Cap Gemini
  • IBM
  • Indra
  • KPMG

Apps

  • PremiaT
  • Google Cloud Platform
  • Dashboards (Mobile)
  • Visual analytics (Mobile)

Aplicaciones

  • Actividades masivas
  • Catástrofes
  • Epidemias
  • Evaluación online de grandes proyectos y de investigaciones
  • Explosión de nuevos conceptos o instancias de lo preexistente
  • Frentes de combate
  • Herramientas para combatir el terrorismo y el crimen organizado
  • Prevención de enfermedades
  • Sistemas de monitoreo y alarmas en contextos de alta complejidad
  • Situaciones de tráfico
  • Tendencias de negocios
  • Uso de terapias y medicamentos

 

Additional information