Week 7 #DataEngineering Zoomcamp 🏎️
Streamed 4.4M records via #Redpanda & #PySpark on my James-T-850. Speed is nothing without logic!
Results: 📍
📏 Dist: 9506
🏙️ Zone: 74
⏳ Session: 31m
💰 Peak Tip: 10-16 18:00
Progress: github.com/CodingJhames...
#Streaming #Python #BigData #DataTalksClub
Lidiando con datos sucios (Outliers)
Procesando datos reales en el #dezoomcamp te das cuenta de lo sucios que pueden estar.
Calculando la duración máxima de un viaje en taxi con F.unix_timestamp(), me topé con un viaje que duró ¡134.5 horas! Los outliers son el pan de cada día.
#DataTalksClub
Parquet y Reparticionado
¿Sabías que en Apache Spark puedes controlar exactamente cómo se dividen tus datos? Hoy aprendí a usar .repartition() para dividir un dataset masivo en 4 archivos Parquet de 25MB cada uno, optimizando el procesamiento en paralelo.
#dezoomcamp #DataTalksClub
On February 26, Anthropic’s Claude Code mistakenly erased DataTalks.Club's production database.
Read Full Article: deccanfounders.com/2026/09/n...
#DeccanFounders #AI #Anthropic #DatatalksClub #Claude #ClaudeCode #Terraform #DatabaseDelete
Completada la tarea del workshop de dlt. 🚀 Construir pipelines modulares desde cero integrando herramientas AI me da muchísimas ideas para armar la arquitectura de datos de futuros proyectos de startups. ¡A seguir construyendo en público! 💡💻 #dezoomcamp #DataTalksClub
Configurar el Model Context Protocol (MCP) en Cursor cambia las reglas del juego. Mi agente de IA leyó la docu de dlt y construyó el pipeline de datos de NYC Taxis conectando los sistemas casi solo. ¡Pura ingeniería y automatización!
#dezoomcamp #DataTalksClub
Lidiar con APIs paginadas siempre quita tiempo. Con dlt, la paginación, los reintentos y los rate limits se manejan automáticamente. Solo configuras el source y listo. Menos código repetitivo, más enfoque en la lógica del negocio.
#dezoomcamp #DataTalksClub
Para inicializar esquemas en bases de datos nuevas (ej. DuckDB), el comando bruin run --full-refresh es esencial. Esta bandera anula temporalmente las estrategias incrementales para forzar sentencias DROP y CREATE TABLE desde cero. #dezoomcamp #DataTalksClub
Bruin permite integrar pruebas de calidad de datos directamente en la definición YAML del asset. Reglas predefinidas como not_null se configuran a nivel de columna, deteniendo la ejecución del pipeline si se detectan anomalías estructurales. #dezoomcamp #DataTalksClub
La arquitectura en Bruin es estricta: .bruin.yml en la raíz maneja conexiones y entornos globales. Los flujos se aíslan en carpetas pipeline/ con su propio pipeline.yml, y los scripts de ejecución residen obligatoriamente en /assets/. #dezoomcamp #DataTalksClub
Módulo 5 del #DataEngineeringZoomcamp sobre plataformas de datos. Aprendiendo a usar Bruin, una herramienta end-to-end que unifica ingesta, transformación, orquestación, calidad de datos y linaje en un solo entorno de proyecto. #dezoomcamp #DataTalksClub
🔄 dlt Workshop of Data Engineering Zoomcamp done!
✅ REST API pipeline with @dltHub
✅ Paginated JSON → DuckDB
✅ 10K NYC taxi trips loaded & analyzed
AI-assisted data engineering is the future! 🦆
github.com/HighviewOne/...
#DataEngineering #dlt #DataTalksClub
📊 Week 6 of Data Engineering Zoomcamp done!
✅ PySpark setup & Spark sessions
✅ Parquet files at scale
✅ 4.18M NYC taxi trips analyzed
Solution:
github.com/HighviewOne/...
Distributed computing is a game changer! 🔥
#DataEngineering #Spark #DataTalksClub
DataTalksClub: github.com/DataTalksClu...
📊 Module 5 of Data Engineering Zoomcamp done!
✅ End-to-end ELT with Bruin CLI
✅ Incremental loads with time_interval
✅ Data quality checks & lineage built-in
One CLI tool, no vendor lock-in. 🔥
github.com/HighviewOne/...
#DataEngineering #DataTalksClub
Ecosistema y Paquetes
No hace falta reinventar la rueda. El Hub de dbt permite instalar paquetes como librerías:
dbt-utils: Macros SQL cross-database.
codegen: Genera el YAML base automáticamente.
dbt-expectations: Tests avanzados de calidad de datos.
#dezoomcamp #DataTalksClub
La magia de potenciar SQL con Jinja.
{{ ref() }}: Maneja dependencias automáticamente.
{{ source() }}: Abstrae el origen de los datos.
Macros: Funciones reutilizables para no escribir el mismo código 10 veces (DRY: Don't Repeat Yourself).
SQL dinámico > SQL estático
#dezoomcamp #DataTalksClub
¿Machine Learning en SQL?
Con BigQuery ML en el #DataEngineeringZoomcamp de #DataTalksClub aprendimos a crear, entrenar y ejecutar modelos directamente en el Data Warehouse.
No tuvimos que mover terabytes de datos a Python.
Podemos entrenar un modelo con CREATE MODEL y predecir con ML.PREDICT.
¿Cómo optimizar tablas en BigQuery?
Partitioning: Divide la tabla en segmentos (ej. por día). Reduce costos al ignorar particiones enteras
Clustering: Ordena los datos dentro de la partición. Acelera filtros y sorts
Úsalos juntos para máximo rendimiento
#dezoomcamp #DataTalksClub
Subimos algunos puestos pero los primeros lugares están ampliando su ventaja.
#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp
ELT (extract-load-transform)
Proceso que aprendimos para manejar datos:
1. Extraemos datos
2. Los cargamos en nuestro Data Lake (repositorio/bucket para datos crudos)
3. Transformamos con SQL (BigQuery)
Todo orquestado por @kestra.io
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
IA en el curso #DataEngineeringZoomcamp
1. Generación de código usando Copilot
2. Ingeniería de contexto. Copilot tiene acceso a la estructura de nuestro proyecto por lo que facilita la corrección de errores y actializaciones
3. RAG para "leer" documentación
#dezoomcamp #DataTalksClub @kestra.io
Imagen hecha con IA
Data Pipeline (tubería de datos)
Serie de procesos automatizados que mueven datos desde un origen hasta un destino.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
Kestra
Es nuestro "director de orquesta" que nos ayudará a que todas nuestras herramientas y plataformas (python, código, bases de datos, cloud, etc.) trabajen juntas.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra
Entendí el "Workflow Orchestration" así:
Usamos YAML (el lenguaje) para escribir un Workflow (la secuencia de tareas) dentro de Kestra (la herramienta), la cual se encarga del Workflow Orchestration (ejecutarlo y gestionarlo).
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub
No esperaba estar en los primeros puestos pero a ver hasta donde llegamos en el #DataEngineeringZoomcamp de #DataTalksClub
#dezoomcamp
Peer review AI Dev Tools Zoomcamp 2025
github.com/rosa-lpz/django-react-pdf-summarizer
Upload scientific PDF, summary, follow-up questions via RAG w/ Google Gemini & FAISS search
Django w/ LangChain
React, chat, & citations
Docker w/ nginx
Score 15/26
#AIDevTools #DataTalksClub #Zoomcamp2025 #RAG
Peer review for AI Dev Tools Zoomcamp 2025
github.com/devnovikov/qdrant-web-backup
Fills gap: no built-in UI for Qdrant
Dashboard w/ 1-click backups
Kotlin/Spring, React 19, API endpoints, E2E tests, Docker builds, & 4 CI/CD workflows
Score 24/26
#AIDevTools #DataTalksClub #Zoomcamp2025