#DataTalksClub — Bluesky Posts

5 days ago

💪🏼

#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp

1 0 0 0

6 days ago

Lidiando con datos sucios (Outliers)

Procesando datos reales en el #dezoomcamp te das cuenta de lo sucios que pueden estar.

Calculando la duración máxima de un viaje en taxi con F.unix_timestamp(), me topé con un viaje que duró ¡134.5 horas! Los outliers son el pan de cada día.

#DataTalksClub

0 0 0 0

6 days ago

Parquet y Reparticionado

¿Sabías que en Apache Spark puedes controlar exactamente cómo se dividen tus datos? Hoy aprendí a usar .repartition() para dividir un dataset masivo en 4 archivos Parquet de 25MB cada uno, optimizando el procesamiento en paralelo.

#dezoomcamp #DataTalksClub

0 0 0 0

Deccan Founders

@deccanfounders.com

1 week ago

On February 26, Anthropic’s Claude Code mistakenly erased DataTalks.Club's production database.

Read Full Article: deccanfounders.com/2026/09/n...

#DeccanFounders #AI #Anthropic #DatatalksClub #Claude #ClaudeCode #Terraform #DatabaseDelete

0 0 0 0

1 week ago

Completada la tarea del workshop de dlt. 🚀 Construir pipelines modulares desde cero integrando herramientas AI me da muchísimas ideas para armar la arquitectura de datos de futuros proyectos de startups. ¡A seguir construyendo en público! 💡💻 #dezoomcamp #DataTalksClub

0 0 0 0

1 week ago

Configurar el Model Context Protocol (MCP) en Cursor cambia las reglas del juego. Mi agente de IA leyó la docu de dlt y construyó el pipeline de datos de NYC Taxis conectando los sistemas casi solo. ¡Pura ingeniería y automatización!

#dezoomcamp #DataTalksClub

0 0 0 0

1 week ago

Lidiar con APIs paginadas siempre quita tiempo. Con dlt, la paginación, los reintentos y los rate limits se manejan automáticamente. Solo configuras el source y listo. Menos código repetitivo, más enfoque en la lógica del negocio.

#dezoomcamp #DataTalksClub

0 0 0 0

2 weeks ago

Para inicializar esquemas en bases de datos nuevas (ej. DuckDB), el comando bruin run --full-refresh es esencial. Esta bandera anula temporalmente las estrategias incrementales para forzar sentencias DROP y CREATE TABLE desde cero. #dezoomcamp #DataTalksClub

0 0 0 0

2 weeks ago

Bruin permite integrar pruebas de calidad de datos directamente en la definición YAML del asset. Reglas predefinidas como not_null se configuran a nivel de columna, deteniendo la ejecución del pipeline si se detectan anomalías estructurales. #dezoomcamp #DataTalksClub

1 0 0 0

2 weeks ago

La arquitectura en Bruin es estricta: .bruin.yml en la raíz maneja conexiones y entornos globales. Los flujos se aíslan en carpetas pipeline/ con su propio pipeline.yml, y los scripts de ejecución residen obligatoriamente en /assets/. #dezoomcamp #DataTalksClub

0 0 0 0

2 weeks ago

Módulo 5 del #DataEngineeringZoomcamp sobre plataformas de datos. Aprendiendo a usar Bruin, una herramienta end-to-end que unifica ingesta, transformación, orquestación, calidad de datos y linaje en un solo entorno de proyecto. #dezoomcamp #DataTalksClub

0 0 0 0

2 weeks ago

🚀

#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp

0 0 0 0

2 weeks ago

🔄 dlt Workshop of Data Engineering Zoomcamp done!

✅ REST API pipeline with @dltHub
✅ Paginated JSON → DuckDB
✅ 10K NYC taxi trips loaded & analyzed

AI-assisted data engineering is the future! 🦆
github.com/HighviewOne/...

#DataEngineering #dlt #DataTalksClub

1 0 1 0

2 weeks ago

📊 Week 6 of Data Engineering Zoomcamp done!
✅ PySpark setup & Spark sessions
✅ Parquet files at scale
✅ 4.18M NYC taxi trips analyzed

Solution:
github.com/HighviewOne/...

Distributed computing is a game changer! 🔥
#DataEngineering #Spark #DataTalksClub

DataTalksClub: github.com/DataTalksClu...

0 0 1 0

3 weeks ago

📊 Module 5 of Data Engineering Zoomcamp done!

✅ End-to-end ELT with Bruin CLI
✅ Incremental loads with time_interval
✅ Data quality checks & lineage built-in

One CLI tool, no vendor lock-in. 🔥

github.com/HighviewOne/...

#DataEngineering #DataTalksClub

0 0 4 0

3 weeks ago

Ecosistema y Paquetes

No hace falta reinventar la rueda. El Hub de dbt permite instalar paquetes como librerías:

dbt-utils: Macros SQL cross-database.
codegen: Genera el YAML base automáticamente.
dbt-expectations: Tests avanzados de calidad de datos.

#dezoomcamp #DataTalksClub

1 0 0 0

3 weeks ago

La magia de potenciar SQL con Jinja.

{{ ref() }}: Maneja dependencias automáticamente.

{{ source() }}: Abstrae el origen de los datos.

Macros: Funciones reutilizables para no escribir el mismo código 10 veces (DRY: Don't Repeat Yourself).

SQL dinámico > SQL estático

#dezoomcamp #DataTalksClub

0 0 0 0

3 weeks ago

🚀

#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp

0 0 0 0

1 month ago

¿Machine Learning en SQL?

Con BigQuery ML en el #DataEngineeringZoomcamp de #DataTalksClub aprendimos a crear, entrenar y ejecutar modelos directamente en el Data Warehouse.

No tuvimos que mover terabytes de datos a Python.

Podemos entrenar un modelo con CREATE MODEL y predecir con ML.PREDICT.

1 0 0 0

1 month ago

¿Cómo optimizar tablas en BigQuery?

Partitioning: Divide la tabla en segmentos (ej. por día). Reduce costos al ignorar particiones enteras

Clustering: Ordena los datos dentro de la partición. Acelera filtros y sorts

Úsalos juntos para máximo rendimiento

#dezoomcamp #DataTalksClub

0 0 0 0

1 month ago

Subimos algunos puestos pero los primeros lugares están ampliando su ventaja.

#DataEngineeringZoomcamp #DataTalksClub #dezoomcamp

0 1 0 0

1 month ago

ELT (extract-load-transform)

Proceso que aprendimos para manejar datos:

1. Extraemos datos
2. Los cargamos en nuestro Data Lake (repositorio/bucket para datos crudos)
3. Transformamos con SQL (BigQuery)

Todo orquestado por @kestra.io

#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra

0 0 0 0

1 month ago

IA en el curso #DataEngineeringZoomcamp

1. Generación de código usando Copilot
2. Ingeniería de contexto. Copilot tiene acceso a la estructura de nuestro proyecto por lo que facilita la corrección de errores y actializaciones
3. RAG para "leer" documentación

#dezoomcamp #DataTalksClub @kestra.io

0 0 0 0

1 month ago

Imagen hecha con IA

Data Pipeline (tubería de datos)

Serie de procesos automatizados que mueven datos desde un origen hasta un destino.
#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub

0 0 0 0

1 month ago

Kestra

Es nuestro "director de orquesta" que nos ayudará a que todas nuestras herramientas y plataformas (python, código, bases de datos, cloud, etc.) trabajen juntas.

#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub #Kestra

0 0 0 0

1 month ago

Entendí el "Workflow Orchestration" así:

Usamos YAML (el lenguaje) para escribir un Workflow (la secuencia de tareas) dentro de Kestra (la herramienta), la cual se encarga del Workflow Orchestration (ejecutarlo y gestionarlo).

#dezoomcamp #DataEngineeringZoomcamp #DataTalksClub

0 0 0 0

1 month ago

No esperaba estar en los primeros puestos pero a ver hasta donde llegamos en el #DataEngineeringZoomcamp de #DataTalksClub

#dezoomcamp

0 0 0 0

GitHub - rosa-lpz/django-react-pdf-summarizer: Capstone project as part of AI Dev Tools Zoomcamp by DataTalksClub Capstone project as part of AI Dev Tools Zoomcamp by DataTalksClub - rosa-lpz/django-react-pdf-summarizer

1 month ago

Peer review AI Dev Tools Zoomcamp 2025
github.com/rosa-lpz/django-react-pdf-summarizer

Upload scientific PDF, summary, follow-up questions via RAG w/ Google Gemini & FAISS search

Django w/ LangChain
React, chat, & citations
Docker w/ nginx

Score 15/26
#AIDevTools #DataTalksClub #Zoomcamp2025 #RAG

0 0 0 0