Proyecto 2. Análisis exploratorio de datos

Curso Ingeniería de Características

Análisis exploratorio de datos

A partir de los datos en forma tidy que se obtuvieron de proyecto 1, en este proyecto se busca tener un conocimiento más a profundidad de los datos y del problema que se busca resolver. El análisis exploratorio de datos es el inicio de todo trabajo de Ciencia de Datos y ayuda a definir mejor los posibles alcances, los objetivos que se pueden alcanzar en corto, mediano y largo plazo, y a hacer una mejor planeación. También es una actividad que permite conocer mejor al usuario del producto de datos final y sus necesidades.

En esta etapa del proyecto, lo normal es utilizar libretas jupyter para documentar nuestros hallazgos. Aunque es muy posible que en esta etapa se tenga que modificar un poco lo realizado en el proyecto pasado, si es necesario modificar las fuentes de datos (sustituirlas, aumentarlas, etc.).

Se espera lo siguiente en el repositorio de GitHub de cada proyecto:

  1. Una o varias libretas con un auto EDA que permita un primer análisis de los datos de forma rápida y pueda visualizarse como parte de la página del proyecto.

  2. Una o varias libretas de análisis exploratorio que cubran los siguientes aspectos:
    1. Datos faltantes
    2. Anomalías (outliers), usando al menos dos técnicas
    3. Relaciones entre variables por visualización
    4. Correlación entre variables
    5. Uso de métodos de reducción de características para visualización (PCA, t-SNE, …)
    6. Consulta con los usuarios sobre el proceso de exploración
  3. Integrar al final, de forma clara, un reporte (markdown, html, pdf) con los hallazgos más importantes. Este documento tendrá los siguientes puntos (en este orden):
    1. Nombre del proyecto
    2. Nombre del equipo (opcional) y nombres de los integrantes del equipo, con su respectiva información de contacto (correo, linkedin, etc… a su decisión)
    3. Resumen de uno o dos párrafos con los hallazgos más importantes directamente
    4. Una gráfica o imagen representativa del hallazgo más importante
    5. Máximo 3 páginas con el detalle de los hallazgos, incluyendo bibliografía y gráficas.
  4. Realizar una presentación por equipo de los principales hallazgos de menos de 10 minutos y menos de 5 slides.

Como ven, tendrán que seleccionar los temas y los hallazgos que consideren relevantes, así como las gráficas que consideren que mejor representa las ideas.