Las siguientes reflexiones tratan de analizar el nacimiento de un concepto que se apoya en, y supera, la estadística y el análisis de datos convencionales, establecidos a lo largo de los siglos, como consecuencia de la actual explosión en la generación de datos e información sobre personas, máquinas y sus relaciones.
Hace algún tiempo que el término Big Data aparece con frecuencia como fenómeno nuevo, a propósito de nuevas herramientas de ayuda al análisis de datos para fines diversos, fundamentalmente comercial, científico, político, criminal, etc.
Ese análisis está dirigido a obtener información sobre una persona, un grupo de personas o una institución, a partir de comportamientos pasados -datos recopilados- de sus situaciones actuales, relaciones ocultas y, lo que es más discutible, comportamientos futuros de la persona, ente o grupo que se estudia.
Todo ello es fundamental en el proceso de toma de decisiones tanto en el ámbito privado corporativo como en el ámbito público.
Pero esto no es nuevo. Tampoco lo son ni el tratamiento de los datos, propiamente dicho, ni la gran cantidad de datos a tratar.
La ciencia ha empleado el análisis de datos y se ha enfrentado al tratamiento de una gran cantidad de datos en complejas simulaciones de procesos físicos -Meteorología, por ejemplo-, en investigaciones relacionadas con procesos biológicos y ambientales, etc. Este mismo fenómeno ha sucedido en diversos sectores empresariales -banca, seguros, tarjetas de crédito, terminales de punto de venta, etc. No se puede dejar de mencionar a las agencias de inteligencia, creadoras de sistemas como ECHELON, ADVISE, NarusInsight, etc.
De igual modo, la Estadística, propiamente dicha, tampoco es una disciplina nueva. De hecho, el término fue acuñado en Alemania -Statistik-, por Gottfried Achenwall en 1749, para referirse al análisis de datos del Estado, es decir, la "ciencia del Estado" (o más bien, de la ciudad-estado), y ya en el siglo XIX el término estadística adquirió su actual significado de recolectar y clasificar datos de la mano del militar británico Sir John Sinclair (1754-1835).
¿Entonces, por qué un nuevo concepto? ¿Dónde reside la novedad?
Lo que actualmente se entiende por Big Data, es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y tratados en un tiempo razonable.
Los tamaños que hoy se señalan para el Big Data se encuentran en una permanente y creciente evolución. Así, en 2012 se citaban tamaños entre la docena de terabytes y varios petabytes de datos en un único data set (conjunto de datos).
Sirvan las siguientes cifras como ilustración de lo afirmado:
· El telescopio de “Sloan Digital Sky Survey” en Nuevo México, que inició su actividad en el 2000, recogió en una década 140 terabytes de información.
· Wal-Mart maneja más de un millón de transacciones de clientes cada hora, alimentando bases de datos estimadas en más de 2.5 petabytes.
· Facebook almacena cuarenta mil millones de fotografías.
· El descifrado del genoma humano implica el análisis de tres mil millones de pares base, lo que inicialmente suponía un esfuerzo de 10 años y ahora se logra en una semana.
Por otro lado, con la llegada de la miniaturización de los sistemas electrónicos que pueden formar parte de cualquier dispositivo, entre ellos sistemas de medida, y, particularmente, de Internet y su poder de comunicación máquina-máquina y persona-máquina, hoy se dispone de recolectores de datos de todas las actividades humanas por todas partes -tarjetas de crédito, dispositivos móviles, ordenadores, cámaras en la calle y en establecimientos, etc-, y de recolectores de datos de máquinas situadas a nuestro alrededor o sensores ambientales.
Unido a todo ello, ha aumentado en órdenes de magnitud la capacidad de computación de los ordenadores. Ahora cualquiera lleva en su bolsillo un smartphone, con una potencia de cómputo superior a la de los ordenadores de la nave Apolo.
Consecuentemente, la novedad del Big Data parece estar, únicamente, en su magnitud y en el desarrollo de las herramientas adecuadas para tratar dichas cantidades de datos de forma que se obtengan resultados en un tiempo útil para su aprovechamiento.
Y no sólo eso, sino que los datos producidos son tanto estructurados como no estructurados, lo que supone un reto de almacenamiento y tratamiento.
Finalmente, está además el reto de intentar protegernos organizativa, tecnológica y regulatoriamente.
Así pues, aquí es donde nos encontramos ahora … ante la necesidad de responder a los retos planteados por ese aluvión de datos de manera tal que su análisis permita extraer un conocimiento que resulte valioso para la ciencia, los gobiernos, las empresas, y en definitiva, para la mejora de la calidad de vida de todos nosotros.
La publicación de este artículo ha coincidido con la inauguración oficial del más grande radiotelescopio construido hasta ahora, el ALMA (Atacama Large Millimeter Array). Su funcionamiento consiste en un proceso de “... canalización, recepción, conversión, trasmisión, combinación y análisis” de datos del Universo, que se iniciará en las sesenta y seis antenas parabólicas que lo conforman, y proseguirá en un entramado de ordenadores, uno de los cuales, El Correlacionador, está dotado de 2.912 circuitos impresos, 5.200 cables de interfaz y más de 20 millones de puntos de soldadura, con el objetivo es estudiar la diversidad de objetos y procesos físicos implicados en la formación estelar.