El Big Data avanza con pocas certezas de veracidad

Con distintos problemas por resolver, empresas de telecomunicaciones, retail, finanzas, marketing, salud, Internet y agro, además del sector público, comienzan a plantearse cómo emprender este camino del manejo de grandes datos.

“La explosión de datos catalizada por la digitalización del mundo ha puesto al big data como una herramienta ineludible para todos los segmentos de la sociedad. Mejora de eficiencia y competitividad en el ámbito de los negocios, predicción temprana de enfermedades, y eficiencia y transparencia en la gestión del gobierno, pero también en muchos lamentables casos potenciación de la capacidad de espionaje y control sobre los ciudadanos, son algunos ejemplos del poder del big data”, considera Mat Travizano, CEO de Gran Data, un emprendimiento de tecnología pionero en este segmento que tiene su casa matriz en California, Estados Unidos, y su centro de I+D en Buenos Aires.

Su aplicación tiene múltiples retos. “Big data está en la cúspide de las expectativas, hay muchas promesas y tiene un potencial enorme, pero en la práctica hay pocos casos exitosos y muchos fracasos”, expresa Eduardo Poggi, docente de la maestría en Explotación de Datos y Descubrimiento de Conocimiento de la FCENUBA. Y advierte: “Es preciso ser cautelosos cuando, a partir del análisis y procesamiento de los datos, se realizan inferencias de causalidad y se efectúan conclusiones. Con los datos disponibles se pueden descubrir muchas cosas interesantes, pero no garantizan la verdad, porque la información es incompleta y sesgada. Por eso es clave hacer rigurosas verificaciones, pruebas y elaboración de modelos para ver si lo que estamos diciendo se sustenta con evidencia”.

Claro que esta problemática impacta de manera diferente en cada sector, agrega Poggi. “Hoy, no hay garantía de la verdad de todos los datos; por ejemplo, la información de las redes sociales puede ser manipulada. Por eso hay que aprender a jugar con la variedad y la incertidumbre, con lo no estructurado; distinguir lo auténtico y significativo de lo que no lo es”.

Datos y sectores

La salud es uno de los terrenos más complejos y desafiantes para desplegar estrategias de big data debido a las exigencias de privacidad, confidencialidad y seguridad en el tratamiento de la sensible información sobre pacientes. “Las organizaciones de salud actualmente hacen poco verdadero big data; es decir, procesamiento continuo de información no estructurada de bases de datos distribuidas. Aunque sí hay desarrollos experimentales y académicos. Debido al resguardo de confidencialidad, por ejemplo, no se recurre al almacenamiento en la nube. Lo que se hace, y mucho, es análisis y explotación de los datos estructurados de los sistemas transaccionales propios con herramientas de business intelligence, data mining, analytics y tableros de comando”, comenta Daniel Luna, jefe de Informática Médica del Hospital Italiano.

“Lo que va a cambiar la situación actual es el aluvión de datos de información genómica. A esto se suma el almacenamiento de las señales fisiológicas de los pacientes, que se realiza de manera continua mediante los dispositivos de monitoreo de signos vitales. Con la información de señales se van a poder elaborar y reconocer patrones predictivos de entidades clínicas”, concluye.

Como una suerte de “historia clínica multimedial”, el Hospital Italiano tiene tres repositorios independientes que corren en bases de datos propias: imágenes (100 terabytes en registros de los últimos ocho años), genómica (provienen de los equipos secuenciadores de genes) y señales fisiológicas (se obtienen del monitoreo de pacientes).

Creado en 2008 por Gustavo Arjones y Martín Enríquez, cuando el procesamiento de datos a gran escala en Internet pasaba principalmente por blogs, foros, sitios y contenido creado de manera colaborativa, Socialmetrix tiene oficinas en Estados Unidos, México y Buenos Aires, donde funciona su centro de I+D. El mes pasado, fue adquirida por la empresa visualización de datos GraphPath, que le permitirá ingresar a nuevos segmentos de negocios.

“Big data es un problema para muchas industrias. La mayoría de las empresas saben que tienen una mina de oro en datos, que no ha sido explotada y no saben qué hacer. Hoy es un trabajo artesanal de los científicos de datos. El reto es analizar y poner valor a esa información, que permite conocer al cliente, la red logística, la problemática de los empleados o saber cómo es el tráfico de las comunicaciones”, afirma Enríquez, CEO de Socialmetrix.

Desarrollada por el especialista en informática de Carnegie Mellon, el guatemalteco Luis Von Ahn, la plataforma online de aprendizaje gratuito de idiomas Duolingo tiene 200 millones de usuarios y recibió US$108,3 millones en inversiones. “Todo lo que hacemos en Duolingo está basado en datos —señala Von Ahn—. Es la primera vez en la historia que podemos observar el comportamiento de tantas personas al mismo tiempo. Aprendemos de los comportamientos de nuestros usuarios para optimizar y personalizar la forma de educación que les ofrecemos”.

Asegura que el acceso a estas grandes cantidades de datos le permite mejorar la educación de manera científica y comprobable. Por ejemplo, “tenemos cinco ingenieros con doctorado en machine learning que continuamente crean nuevos modelos estadísticos para medir y optimizar el aprendizaje”, agrega. Con la ayuda de estos modelos estadísticos, la prueba de nivelación que se realiza al empezar Duolingo “se va adaptando a cada usuario de acuerdo con su desempeño a medida que avanza. Así, si un usuario va teniendo muchas respuestas incorrectas, la prueba comenzará a presentar preguntas más sencillas, o viceversa, hasta encontrar el nivel de idioma que maneja el usuario”.

Uno de los mayores problemas que tiene el mecanismo es las dudas sobre la verdad de las informaciones. (Económico, Clarín)