Imputación de datos
- Presentación Dealing with Missing Data de curso CS109A Introduction to Data Science de Harvard.
- Presentación Dealing with Missing Data de Craig Enders de la UCLA. Muy completo.
- Una imagen con el resumen del proceso de imputación
- Missing value imputation: a review and analysis of the literature
- Manejo de valores faltantes en
pandas
- Imputación con Sci-kit Learn
- Libreta de python (Kaggle) sobre imputación
- Top Techniques to Handle Missing Values Every Data Scientist Should Know. Blog de DataCamp
Detección de anomalías
- Una presentación inicial de detección de anomalías
- Otra presentación sobre técnicas específicas de detección de anomalías
- Recursos sobre detección de anomalías
- Novelty and Outlier Detection (Sci-kit Learn)
- PyOD y una breve reseña en TDS.
- Una libreta con un ejemplito sobre detección y eliminación de outliers.
Análisis en componentes principales
- Notas sobre PCA del curso de Andrew Ng en Stanford
- Principal Component Analysis. Libreta de Colab del libro Python Data Science Handbook
- Una libreta sobre PCA para visualización de variables.
Métodos no lineales de reducción de características para visualización
- Kernel PCA con su respectivo ejemplo en
sci-kit learn
- El repositorio/curso de GitHub de Stefan Kühn con una presentación aceptable.
- El algoritmo más conocido t-distributed stochastic neighbor embedding (t-SNE), con una explicación clara del algoritmo y un muy bonito artículo interactivo para entender como hace las separaciones el método de t-SNE
- Manifold learning en
sci-kit learn
- Libreta de colab sobre Manifold Learning del libro Python Data Science Handbook
- Un curso de Manifold Learning a partir de libretas jupyter
- El metodo de moda Uniform Manifold Aproximation Proyection (UMAP) y el enlace a la librería en python con ejemplos de aplicación