Sistemas en Producción

Construyo infraestructura de datos que opera 24/7

Data Engineer. Diseño y despliego arquitecturas multi-cloud reales. Ingesta de alta frecuencia, separación de cargas transaccionales/analíticas y orquestación de contenedores. Fierros de verdad, corriendo en vivo.

2,400+
Símbolos en vivo
<1ms
Latencia por tick
24/7
Uptime
Leonardo Vila

Trayectoria Profesional

💼

Data Ingestion Engineer — Wealth Reader

Extracción de datos financieros y bancarios
2 años y medio de experiencia · Fintech · España (remoto)

Empresa española de agregación de datos bancarios y financieros, donde me desempeñé en el desarrollo de sistemas de scraping para extracción sistemática de datos. Diseño de pipelines de ingesta, limpieza y normalización desde fuentes heterogéneas. Manejo de anti-bot, rate limiting, sesiones concurrentes y parsing de formatos propietarios en entornos de producción.

Experiencia en Fintech Datos financieros & bancarios Sistemas en producción
🌐

Data Engineer

Freelancer
Septiembre 2025 — Presente

Operación de infraestructura propia que opera 24/7, montada en AWS. Suministro de datasets financieros en Fiverr con clientes recurrentes y valoración de 5 estrellas. Desarrollo de plataformas web para clientes particulares.

Data Ingestion ETL Automation AWS

Sistemas Vivos, No Mockups

Cada proyecto es una plataforma operativa desplegada en produccion. Hacé click y explorá los datos en tiempo real.

Plataforma de Datos Financieros

Plataforma corporativa full-stack sobre AWS (ECS Fargate, RDS, S3, Lambda, EventBridge, CloudFront, ALB) con CI/CD vía GitHub Actions + OIDC. ETL distribuido con capacidad para 2,425 símbolos vía WebSocket, cómputo vectorizado de métricas derivadas (volatilidad, performance, momentum) y persistencia dual OLTP/OLAP: RDS PostgreSQL para serving operacional, BigQuery como data warehouse modelado en arquitectura medallion (bronze → silver → gold) con DBT y star schema de Kimball. Orquestación programada vía EventBridge + Lambda; una API FastAPI recomputa métricas en memoria y las transmite por WebSocket con latencia sub-milisegundo.

EN VIVO
AWS (Fargate + RDS + S3 + Lambda + EventBridge) BigQuery DBT (Medallion) Star Schema (Kimball) PostgreSQL 16 Python (asyncio) FastAPI Pandas (Vectorizado) WebSocket React 19 Docker GitHub Actions (OIDC) CloudFront + ALB
ETL Distribuido (Fargate) RDS PostgreSQL (OLTP) S3 → BigQuery (OLAP) DBT Medallion (Bronze / Silver / Gold) Star Schema FastAPI (Live WS)
2,425
Capacidad de símbolos rastreados
1.2M+
Filas en data warehouse
1994
Profundidad histórica
<1ms
Latencia de cómputo live

Inteligencia de Precios y Analíticas de Marca — Carrefour AR

Plataforma cloud-native que ingiere todo el catálogo online de Carrefour Argentina (~20k productos disponibles por día, 444 categorías hoja, 1,900+ marcas) y lo expone como inteligencia comercial de consumo. Pipeline asíncrono corriendo en VPS con TLS impersonation vía curl_cffi para atravesar Cloudflare, escritura streaming a Parquet con compresión zstd y Hive partitioning para no morir de OOM en 1 GB de RAM. Sync diario a S3 + AWS Glue Data Catalog; consultas vía Athena sobre un modelo en estrella (silver con tipos limpios, dimensiones marca/categoría/fecha, fact por día y 6 marts narrativos). Auto-registro de particiones nuevas con MSCK REPAIR post-ingest y retención local de 7 días. Cron a las 03:30 ART corre solo, sin intervención. El frontend React traduce la BI en lenguaje doméstico — "qué bajó esta semana", "cuánto te ahorrás con marca propia", "ofertas reales del día" — en lugar de jerga de data engineer.

EN VIVO
Python (asyncio + curl_cffi) PyArrow + Parquet (zstd) AWS S3 + Glue Catalog Athena (Star Schema) DuckDB FastAPI React 19 + Vite Tailwind CSS Terraform (IaC) VPS DigitalOcean + nginx
Discovery (444 categorías) TLS Impersonation Parquet Streaming Write S3 + Glue Catalog Athena Star Schema FastAPI + React Dashboard
~20k
SKUs disponibles por día
1,924
Marcas activas en góndola
107k
Observaciones diarias
03:30 ART
Cron diario autónomo

Arbitraje de Precio y Explorador de Catálogo — Costco US

Pipeline full-stack de price intelligence corriendo en VPS que scrapea el catálogo completo de Costco.com (~10,000 SKUs en 1,000+ categorías) diariamente con Python asíncrono, concurrencia throttleada por semáforo y delays anti-detección. Base SQLite con modelo snapshot — rebuild completo en cada ejecución, sin migraciones ni drift. Motor de deltas que compara estado previo vs. actual para surfear caídas de precio, nuevos ingresos y bajas, con reconciliación semántica que detecta rotaciones de SKU y elimina falsos positivos. FastAPI sirve 7 endpoints read-only detrás de Nginx; un dashboard React 19 con charts Tremor expone un Catalog Explorer y una pestaña de Business Intelligence con tablas de arbitraje ordenables. Safety stop aborta el pipeline si el conteo de productos cae por debajo del umbral, protegiendo la base de scrapes parciales.

EN VIVO
Python FastAPI aiohttp asyncio SQLite React 19 Zustand Tremor Tailwind CSS
Extracción Asíncrona Limpieza & Parsing Árbol de Categorías SQLite + Delta Detección de Arbitraje API REST Dashboard
1,274
Categorías mapeadas
Async
Fan-out concurrente
Delta
Tracking de precios

Herramientas & Competencias

Pipelines & ETL

Diseño y construcción de pipelines de datos end-to-end: ingesta, transformación, persistencia y orquestación de stages con observabilidad integrada.

Infraestructura montada en la nube

Sistema montado en AWS. ETL operando como ECS task. API montada como ECS Service. Frontend servido desde S3 + Cloudfront. Base de datos en PostgreSQL montada en RDS

🛠

APIs & Sistemas de Streaming

Desarrollo de microservicios stateless de alto rendimiento con FastAPI y Python asíncrono (asyncio). Orquestación de conexiones WebSocket concurrentes para transmisión de datos con latencia sub-milisegundo. Gestión de connection pooling optimizado para RDS, rate limiting estricto y diseño preparado para balanceo de carga en entornos auto-escalables.

📊

Data Ingestion

Data ingestion asíncrono con aiohttp y asyncio.gather para concurrencia masiva. Parsing de protocolos propietarios, manejo de rate-limits y detección de deltas. Charles proxy y escaneo de endpoints para ingesta de data de difícil acceso. Capacidad para superar cifrados y captchas.

🗃

Almacenamiento y Analítica

Separación estricta de dominios: PostgreSQL para serving operacional de baja latencia y BigQuery como Data Warehouse masivo. Orquestación de transformaciones complejas con dbt (Arquitectura Medallion), garantizando escalabilidad y consultas analíticas sin impacto en producción.

🌐

Frontend & Visualización

React 19, TypeScript, Zustand, Tailwind CSS. Interfaces responsive con actualización en tiempo real vía WebSocket.

Hablemos

¿Te interesa lo que hago? Te escucho.

Email
leonardolevil96@gmail.com
WhatsApp
+54 11 2654 2270
👥
LinkedIn
Leonardo Vila
💻
GitHub
leonardovila

Certificaciones Oficiales

Certificaciones verificables emitidas por Coursera y otras plataformas, vinculadas a mi perfil de LinkedIn.

🎓

Ver todas mis certificaciones en LinkedIn →

Certificaciones de Coursera en Python, Data Engineering, SQL, y más. Todas verificables.