Limpieza de datos

Curso Ingeniería de Características

Imputación de datos

  1. Presentación Dealing with Missing Data de curso CS109A Introduction to Data Science de Harvard.
  2. Presentación Dealing with Missing Data de Craig Enders de la UCLA. Muy completo.
  3. Una imagen con el resumen del proceso de imputación
  4. Missing value imputation: a review and analysis of the literature
  5. Manejo de valores faltantes en pandas
  6. Imputación con Sci-kit Learn
  7. Libreta de python (Kaggle) sobre imputación
  8. Top Techniques to Handle Missing Values Every Data Scientist Should Know. Blog de DataCamp

Detección de anomalías

  1. Una presentación inicial de detección de anomalías
  2. Otra presentación sobre técnicas específicas de detección de anomalías
  3. Recursos sobre detección de anomalías
  4. Novelty and Outlier Detection (Sci-kit Learn)
  5. PyOD y una breve reseña en TDS.
  6. Una libreta con un ejemplito sobre detección y eliminación de outliers.

Análisis en componentes principales

  1. Notas sobre PCA del curso de Andrew Ng en Stanford
  2. Principal Component Analysis. Libreta de Colab del libro Python Data Science Handbook
  3. Una libreta sobre PCA para visualización de variables.

Métodos no lineales de reducción de características para visualización

  1. Kernel PCA con su respectivo ejemplo en sci-kit learn
  2. El repositorio/curso de GitHub de Stefan Kühn con una presentación aceptable.
  3. El algoritmo más conocido t-distributed stochastic neighbor embedding (t-SNE), con una explicación clara del algoritmo y un muy bonito artículo interactivo para entender como hace las separaciones el método de t-SNE
  4. Manifold learning en sci-kit learn
  5. Libreta de colab sobre Manifold Learning del libro Python Data Science Handbook
  6. Un curso de Manifold Learning a partir de libretas jupyter
  7. El metodo de moda Uniform Manifold Aproximation Proyection (UMAP) y el enlace a la librería en python con ejemplos de aplicación