viernes, 16 de septiembre de 2016

De las Ciencias Sociales a la Ciencia de los Datos

Hola amigos!!

Desde hace unos años existe una nueva profesión que es el Científico de Datos (Data Sicentist).

Pero, ¿qué es la "Ciencia de los Datos? Para ello recurrimos a https://es.wikipedia.org/wiki/Ciencia_de_datos y a http://www.mastersindatascience.org/.

Básicamente es un campo que aúna varias disciplinas con el beneficio de obtener conocimiento de un conjunto de datos (generalmente Big Data) para la toma de decisiones. Las disciplinas principales son: Matemáticas, Estadística e Informática.

La formación tradicional del data scientist está vinculada a carreras como: matemáticas, estadística,  informática, física, etc. Es decir, carreras relacionadas con ciencias experimentales o ingenierías.  He de reconocer que para un estudiante que va a comenzar sus estudios universitarios y que tiene claro su profesión (cuando yo estudiaba la carrera no se hablaban en los foros normales de éstas cosas...), es normal declinarse por este tipo de carreras que además, a día de hoy, cuentan con especializaciones en Big Data. Pero como antes he dicho, y recalco, ésta es la forma tradicional, existe otra forma de entrar a éste mundo, ya sea por arrepentimiento de lo estudiado en el pasado (no es mi caso), porque la vida laboral evoluciona, hay que adaptarse a los cambios, por su puesto salir de la zona de confort y porque "mola" (mi caso), o porque te apetece estudiar una carrera de Ciencias Sociales y aplicar el data science a este ámbito (si tuviera 18 años sería mi caso, mmm estoy por coger un Delorian y "hacerme" una visita).

Ahora me voy a centrar en este caso, el data scientist con formación no tan tradicional.

Lo primero que debo decir es que se debe tener unos mínimos conocimientos matemáticos (si se viene de carreras de letras, no es imposible, pero el caminos es más difícil y largo). Me voy a centrar en carreras de Ciencias Sociales como son: Economía, Psicología (mejor rama estadística),  ADE (ramas de marketing y finanzas ya que estas suelen llevar más asignaturas de estadística), etc. Como ejemplo de asignaturas voy a basarme en ADE ya que es mi formación de procedencia:

  • Matemáticas: Cálculo y Álgebra
  • Estadística: Descriptiva, Inferencia, Multivariante,...
  • Econometría: Regresión, series temporales,...
  • Informática: (en mi plan de estudios la asignatura no servía para nada y no se tocaba un PC...) mejor si contiene algún software para el análisis de datos
  • Métodos de Decisión: Teoría de juegos y esas cosillas.
  • Investigación de Mercados: aquí haciendo hincapié en el cuantitativo y la presentación de la información. MUY IMPORTANTE!!! Hay cada informe que es para echarse a llorar,

Todas las asignaturas anteriores con alto contenido práctico y por supuesto con el uso de PC.

Ahora lo anterior no es suficiente, ya que "tradicionalmente" la formación necesaria requiere técnicas muy avanzadas en esta materias. Por ello a los que venimos de las Ciencias Sociales se nos requiere un esfuerzo extra ya que tendréis que ampliar conocimientos (machine learning, data mining, bases de datos, programación...) , os expongo alternativas (no excluyentes):

  • Hacer un posgrado, dos posibilidades máster o curso (te lo dan más masticado, programa definido, exámenes y test...), doctorado (más años de estudio, mucha capacidad autoformativa, depende mucho del buen asesoramiento de tu director de tesis, más sacrificio, pierdes visión general pero ganas más expertise en resolver un problema concreto... .).
  • Experiencia laboral: consultoría, industria,... Desde mi punto de vista una de las mejores formas, ya que se aprende en el día a día, desde 0 (si empiezas jovencito y/o asumes un salario bajo), y lo más importante con ejemplos reales (vamos que si fallas en tu resultados, no suspendes, te "cargas" la empresa/negocio/producto/cliente)
  • Autoformación: manuales, libros, MOOC's, Google.... Ésta es esencial y siempre se debe hacer ya que es la más específica.
  • .... lo que se os ocurra no hay barreras al aprendizaje.
Para ir acabando, me gustaría dedicar unas líneas a la programación (en este apartado la autoformación es primordial). Empezad con uno de consultas a bases de datos (SQL sí o sí, ya que muchos otros lenguajes usan librerías que permiten introducir sentencias de SQL), y luego elige UN (empieza por uno y poco a poco) lenguaje de programación matemática/estadística: R, SAS, Python, Matlab, SPSS... Según vuestra profesión y conocimientos se vayan desarrollando aprenderás más lenguajes. También os recomiendo software libre (y así no hay que piratear, SAS ofrece versión gratuita de estudiante). Mi experiencia: empecé por SAS (por es el que usaban en mi trabajo), luego R, y he coqueteado con Python (instalando Anaconda que es más fácil en Windows).

Por último deciros, tenéis que ser: inquietos, audaces, curiosos,  y ¡¡¡nos os pongáis límites!!!!






"¿Por qué esta magnífica tecnología científica, que ahorra trabajo y nos hace la vida mas fácil, nos aporta tan poca felicidad? La repuesta es está, simplemente: porque aún no hemos aprendido a usarla con tino." (Albert Einstein)