Tipos de archivos, y como leerlos en python
Descargando archivos
Con comandos de UNIX
- Un bonito acordeón de
curl
- Libro gratuito Data Science at the Command Line, 2e
Usando python
- Descargando archivos con las librerías estándar y con Pandas, en forma concisa
- Documentación de Pandas para entrada y salida
- Tutorial para el uso de Rest API en python, y este otro
- Tutorial de Beautiful Soup 4
- Una libreta de ejemplito y otra con el uso de una API mal documentada
- Librería para descargar archivos públicos desde el Google Drive en forma programática (Gracias a Estephanía por compartirlo con todos)
SQL
- Curso SQL for Data Analysis de Udacity
En donde encontrar datos sobre México
- El INEGI y una herramienta de consulta en python
- Plataforma DataMéxico y su interesante API
- El portal de datos abiertos del gobierno de México
- Incidencia delictiva del secretariado ejecutivo nacional y un ejemplo de un explorador de datos delictivos de México desarrollado por Morlan.
- CONEVAL y CONAPO
- El portal de Datamx
- Our World in Data y su repositorio base en GitHub
- 7 portales de datos abiertos. Gracias, Malena, por compartirlo.
- Kaggle
- El UCI Machine Learning Repository (para los viejitos)
- Google Dataset Search
- Listado de algunas APIs abiertas y otro de APIs gratuitas
Calidad de datos
Aseguramiento de la calidad de los datos
- Una presentación sobre calidad de los datos.
- Great Expectations, una librería en python para asegurar la calidad de los datos. Y una libreta con un sobrevuelo rápido para su uso.
- Pandera, una librería basada en evaluar directamente los DataFrames, con una documentación bastante completa.
Auditabilidad de los datos
- DVC o Data Version Control, una presentacioncita y un ejemplito de la documentación
- Deltalake, el libro de O’Relly sobre Deltalake, y un acordeón para SQL y para python
- Hopsworks, otro Lakehouse como Deltalake, versión sin costo y empresarial, siempre en la nube.