Ingesta de datos

Curso Ingeniería de Características

Tipos de archivos, y como leerlos en python

  1. Archivos CSV
  2. Archivos JSON
  3. Archivos XML
  4. Archivos HDF
  5. Archivos Excel
  6. Archivos Parquet

Descargando archivos

Con comandos de UNIX

Usando python

SQL

En donde encontrar datos sobre México

  1. El INEGI y una herramienta de consulta en python
  2. Plataforma DataMéxico y su interesante API
  3. El portal de datos abiertos del gobierno de México
  4. Incidencia delictiva del secretariado ejecutivo nacional y un ejemplo de un explorador de datos delictivos de México desarrollado por Morlan.
  5. CONEVAL y CONAPO
  6. El portal de Datamx
  7. Our World in Data y su repositorio base en GitHub
  8. 7 portales de datos abiertos. Gracias, Malena, por compartirlo.
  9. Kaggle
  10. El UCI Machine Learning Repository (para los viejitos)
  11. Google Dataset Search
  12. Listado de algunas APIs abiertas y otro de APIs gratuitas

Calidad de datos

Aseguramiento de la calidad de los datos

  1. Una presentación sobre calidad de los datos.
  2. Great Expectations, una librería en python para asegurar la calidad de los datos. Y una libreta con un sobrevuelo rápido para su uso.
  3. Pandera, una librería basada en evaluar directamente los DataFrames, con una documentación bastante completa.

Auditabilidad de los datos

  1. DVC o Data Version Control, una presentacioncita y un ejemplito de la documentación
  2. Deltalake, el libro de O’Relly sobre Deltalake, y un acordeón para SQL y para python
  3. Hopsworks, otro Lakehouse como Deltalake, versión sin costo y empresarial, siempre en la nube.