Ingesta de datos

Curso Ingeniería de Características

Tipos de archivos, y como leerlos en python

  1. Archivos CSV
  2. Archivos JSON
  3. Archivos XML
  4. Archivos HDF
  5. Archivos Excel
  6. Archivos Parquet

Descargando archivos

Con comandos de UNIX

Usando python

SQL

En donde encontrar datos sobre México

  1. El INEGI y una herramienta de consulta en python
  2. Plataforma DataMéxico y su interesante API
  3. El portal de datos abiertos del gobierno de México
  4. El portel de datos abiertos del gobierno de Sonora
  5. Incidencia delictiva del secretariado ejecutivo nacional y un ejemplo de un explorador de datos delictivos de México desarrollado por Morlan.
  6. CONEVAL y CONAPO
  7. El portal de Datamx
  8. Our World in Data y su repositorio base en GitHub
  9. 7 portales de datos abiertos. Gracias, Malena, por compartirlo.
  10. Kaggle
  11. El UCI Machine Learning Repository (para los viejitos)
  12. Google Dataset Search
  13. Listado de algunas APIs abiertas y otro de APIs gratuitas

Calidad de datos

Aseguramiento de la calidad de los datos

  1. Una presentación sobre calidad de los datos.
  2. Pydantic, una librería para validar y serializar datos en Python; y su versión para datos en DataFramesde pandas, Pandantic.
  3. Pandera, una librería basada en evaluar directamente los DataFrames, con una documentación bastante completa.
  4. Great Expectations, una librería en python para asegurar la calidad de los datos. Y una libreta con un sobrevuelo rápido para su uso.

Auditabilidad de los datos

  1. DVC o Data Version Control, una presentacioncita y un ejemplito de la documentación
  2. Deltalake, el libro de O’Relly sobre Deltalake, y un acordeón para SQL y para python
  3. Hopsworks, otro Lakehouse como Deltalake, versión sin costo y empresarial, siempre en la nube.