Los datos que tu empresa necesita ya existen, pero están dispersos en decenas de fuentes públicas: catastros, registros, portales y boletines oficiales. Revisarlos a mano es lento, propenso a errores y se vuelve imposible cuando hablamos de millones de registros que cambian todos los días. El web scraping a escala resuelve ese problema: convierte fuentes desordenadas en un flujo de datos estructurado, actualizado y consultable.
En Just Dev It llevamos esta disciplina al extremo con nuestro producto propio, Data Inmobiliaria, que indexa 9,5 millones de propiedades de Chile a partir de fuentes públicas. En este artículo explicamos cómo funciona una arquitectura de extracción seria, qué dice la ley chilena y cuánto cuesta un proyecto real.
El problema: datos públicos que nadie puede usar
En Chile hay una cantidad enorme de información pública y legítima de consultar: el catastro del Servicio de Impuestos Internos, los Conservadores de Bienes Raíces, el Diario Oficial, las compras públicas y los registros financieros de la Comisión para el Mercado Financiero (CMF), entre muchas otras.
El problema no es la disponibilidad, sino el formato. Cada fuente tiene su propia estructura, sus propias trabas de navegación y sus propios cambios de maquetación sin aviso. Para un equipo comercial, legal o de inversión, eso significa horas de copiar y pegar, planillas que quedan obsoletas en días y decisiones tomadas con información incompleta.
- Volumen: revisar manualmente millones de registros es inviable.
- Frecuencia: los datos cambian a diario y una foto estática pierde valor rápido.
- Heterogeneidad: cada fuente exige una lógica de extracción distinta.
El web scraping a escala existe para eliminar ese trabajo repetitivo y dejar la información lista para analizar.
Cómo se resuelve: extracción distribuida y datos limpios
Un proyecto de scraping serio no es un script que corre en un computador. Es una canalización (pipeline) de datos diseñada para operar de forma continua y resistir cambios. En la práctica trabajamos con tres principios.
Extracción distribuida. En lugar de un solo proceso, repartimos la carga entre varios trabajadores coordinados por un orquestador de flujos. Así se cubren muchas fuentes en paralelo sin saturar ninguna.
Control de tasa y buenas prácticas. Aplicamos límites de frecuencia (rate limiting) para no sobrecargar los sitios de origen, respetamos el archivo robots.txt y los términos de uso, e identificamos nuestro tráfico de forma responsable. Extraer no significa abusar.
Datos limpios desde el origen. Antes de guardar nada, deduplicamos los registros mediante un hash del contenido, de modo que el mismo dato visto en dos fuentes no se cuente dos veces. Luego usamos ingesta incremental: en cada corrida solo procesamos lo nuevo o lo que cambió, en vez de volver a bajar todo. Eso reduce costos y mantiene la base al día.
El web scraping a escala convierte fuentes públicas dispersas (SII, Conservadores, Diario Oficial, CMF, compras públicas) en una base de datos estructurada, deduplicada y actualizada a diario.
La arquitectura por dentro: cómo funciona
El stack que sostiene un proyecto a escala combina componentes probados. Esta es la columna vertebral típica:
- Procesamiento en Python. Es el lenguaje base para la extracción, la limpieza y la transformación de los datos.
- Dos modos de extracción. Los sitios estáticos se resuelven con parseo HTTP directo, que es rápido y liviano. Los sitios con JavaScript dinámico (contenido que se arma en el navegador) se resuelven con automatización de navegador headless, que simula la navegación real para capturar lo que el usuario vería.
- Almacenamiento en la nube. Los datos consolidados viven en un data warehouse sobre AWS, Azure o Google Cloud, consultable con SQL y preparado para escalar a millones de filas.
- Resiliencia a cambios de maquetación. Cuando una fuente cambia su HTML, el sistema detecta la anomalía y aísla el componente afectado, de modo que un cambio en un sitio no rompe toda la canalización.
Sobre esa base de datos limpia se puede construir lo que el negocio necesite: dashboards de BI, alertas, integraciones con tu ERP/CRM, o capas de IA. Hoy es común sumar agentes y copilotos basados en LLM (con asistentes como Claude o ChatGPT) que consultan el data warehouse mediante patrones como RAG o el Model Context Protocol (MCP), para que un usuario no técnico pregunte en lenguaje natural sobre los datos extraídos.
Resultados: de fuentes dispersas a una base consultable
El caso más demostrativo es nuestro propio producto. Data Inmobiliaria indexa 9,5 millones de propiedades de Chile a partir de fuentes públicas como el catastro del SII, los Conservadores de Bienes Raíces y el Diario Oficial. Eso no se logra a mano: es el resultado de una arquitectura de extracción que corre de forma continua y se mantiene sola la mayor parte del tiempo.
El patrón se repite en proyectos a medida para distintos sectores. Una administradora de fondos (AGF) puede monitorear registros financieros de la CMF; un grupo empresarial multi-sociedad puede consolidar información de compras públicas; un estudio de cobranza judicial puede seguir publicaciones del Diario Oficial. En todos los casos, el resultado es el mismo: tareas que antes tomaban horas pasan a minutos, y la información llega estructurada y al día.
Legalidad en Chile: orientación general
Esta sección es orientación general y no constituye asesoría legal; cada proyecto debe revisarse con sus propios abogados. Dicho eso, hay criterios razonables y ampliamente aceptados.
Extraer datos públicos —los que cualquier persona puede consultar legítimamente en una fuente abierta— suele ser admisible. La práctica responsable implica:
- Respetar los términos de uso de cada sitio y el archivo robots.txt.
- No sobrecargar los servidores de origen (de ahí el control de tasa).
- Tratar con especial cuidado los datos personales: extraerlos sin una base de licitud es riesgoso.
- Considerar la Ley 21.719 de protección de datos personales y su marco de cumplimiento.
La regla práctica: datos públicos y agregados, con buenas prácticas técnicas, es terreno sólido; datos personales sin justificación legal, no. Diseñamos cada proyecto para mantenerse del lado correcto de esa línea.
Costos y cómo empezar
No existe un precio único, porque el esfuerzo depende de variables concretas:
- Número de fuentes a integrar y su diversidad.
- Volumen de registros y su crecimiento esperado.
- Frecuencia de actualización requerida (diaria, horaria, en tiempo casi real).
- Complejidad anti-bot de los sitios de origen y la dificultad de su maquetación.
Como referencia, abordamos proyectos de web scraping desde UF 75 según el alcance. La mejor forma de tener una cifra realista es conversar tu caso: qué fuentes, qué volumen y para qué se usará la data. Cuéntanos qué necesitas extraer y te preparamos una propuesta con la arquitectura adecuada. Todos nuestros entregables incluyen 30 días de garantía post-entrega.