¿Qué es la ciencia de datos?: Ventajas y limitaciones

Interés en "big data" y "data science", medido en búsquedas de google
Lleva unos años cada en que el término "ciencia de datos" o el de "big data" (en Investigación y Ciencia, Enero 2014, lo traducen como macrodatos, pero no parece ser una traducción generalizada) levantan cada vez más interés.

En resumen: Los datos son la información por la que empresas como google ganan dinero. Alguien dijo, que si en internet te ofrecen algo gratis, es porque el verdadero producto eres tú mismo. Es decir, google o facebook te ofrecen servicios gratuitos para así poder monitorizarte y obtener información de lo que le gusta a la gente para vender publicidad más efectiva (calidad mejor que cantidad).

Pero google y facebook no son más que la portada de algo mucho más amplio. A corto o medio plazo, por pura causalidad si somos capaces de recabar y comprender una gran cantidad de información pasada y presente, seremos capaces de predecir sucesos futuros. En ese sentido, esa capacidad totalmente contemporánea de almacenar y recabar una cantidad casi infinita de datos, es la que ha conseguido que el concepto de "big data" se haya vuelto tan famoso. Pero no hay que ser ingenuos, la capacidad de predicción del análisis de big data es limitada en el mismo sentido que una extrapolar una tendencia desconocida.


Una forma de verlo es cogiendo una función cualquiera, y realizando la expansión en serie polinómica (serie de Taylor). Supongamos que nuestros datos se describen tal y como la función e^x (e es el número de euler, el símbolo ^ indica que elevamos a la x potencia) y nosotros, como científicos de datos, tratamos de describirlo con funciones polinómicas, en nuestro rango de datos parece que nuestra predicción va a ser correcta, así que tratamos de extrapolarlo al futuro.


Cuando vamos a una escala de tiempo mayor, la extrapolación, que tan correcta parecía inicialmente, deja de serlo y puede darnos un resultado totalmente erróneo. Si estuviésemos tratando de analizar la tendencia de suscripción a algún producto, como por ejemplo un juego online, estaríamos subestimando las suscripciones, lo cual podría llevar a una campaña publicitaria orientada en tener más usuarios (expansión de la cuota mercado) en vez de conseguir que los usuarios existentes utilicen más servicios de pago para afianzar una estrategia empresarial. Algo parecido les ha ocurrido a los de google con su estrategia de expansión de google +, con cientos de millones de usuarios y un crecimiento muy rápido, pero con un uso de 3.3 minutos mensuales en promedio, frente a las 7.5 horas en facebook, su principal competidor.

Usuarios de google (en millones) durante los dos primeros años (medido en días)

El análisis de los datos debe de ser algo continuo en toda empresa que maneje datos a gran escala, pensar que las predicciones son correctas es el gran error, porque una predicción no deja de ser eso. Ni siquiera una comprensión perfecta de los datos nos impide que aparezcan a escena nuevos datos que no teníamos en cuenta previamente, como una crisis económica o la aparición de un producto de la competencia exitoso.

Afortunadamente, la ciencia es la que es, los datos están ahí, cada vez más numerosos y más baratos de recopilar. Sólo queda aprender a hacer un buen uso de ellos.


Fuente de las imágenes:

Fuente datos de redes sociales:

Comentarios

BE ha dicho que…
vayaweb.es

La ciencia de datos es como un detective moderno: extrae información valiosa de datos. Usa matemáticas, estadísticas y tecnología para contar historias que los números esconden en el mundo digital.

Entradas populares