Just Dev It

Inicio / Blog

Web scraping · Datos

Web scraping a escala en Chile: arquitectura, legalidad y costos

Web scraping a escala en Chile: arquitectura, legalidad y costos reales. Cómo extraer datos públicos de forma resiliente. Cotiza tu proyecto desde UF 75.

2026-06-17 7 min de lectura Just Dev It
Ilustración del artículo: Web scraping · Datos

Los datos que tu empresa necesita ya existen, pero están dispersos en decenas de fuentes públicas: catastros, registros, portales y boletines oficiales. Revisarlos a mano es lento, propenso a errores y se vuelve imposible cuando hablamos de millones de registros que cambian todos los días. El web scraping a escala resuelve ese problema: convierte fuentes desordenadas en un flujo de datos estructurado, actualizado y consultable.

En Just Dev It llevamos esta disciplina al extremo con nuestro producto propio, Data Inmobiliaria, que indexa 9,5 millones de propiedades de Chile a partir de fuentes públicas. En este artículo explicamos cómo funciona una arquitectura de extracción seria, qué dice la ley chilena y cuánto cuesta un proyecto real.

El problema: datos públicos que nadie puede usar

En Chile hay una cantidad enorme de información pública y legítima de consultar: el catastro del Servicio de Impuestos Internos, los Conservadores de Bienes Raíces, el Diario Oficial, las compras públicas y los registros financieros de la Comisión para el Mercado Financiero (CMF), entre muchas otras.

El problema no es la disponibilidad, sino el formato. Cada fuente tiene su propia estructura, sus propias trabas de navegación y sus propios cambios de maquetación sin aviso. Para un equipo comercial, legal o de inversión, eso significa horas de copiar y pegar, planillas que quedan obsoletas en días y decisiones tomadas con información incompleta.

  • Volumen: revisar manualmente millones de registros es inviable.
  • Frecuencia: los datos cambian a diario y una foto estática pierde valor rápido.
  • Heterogeneidad: cada fuente exige una lógica de extracción distinta.

El web scraping a escala existe para eliminar ese trabajo repetitivo y dejar la información lista para analizar.

Cómo se resuelve: extracción distribuida y datos limpios

Un proyecto de scraping serio no es un script que corre en un computador. Es una canalización (pipeline) de datos diseñada para operar de forma continua y resistir cambios. En la práctica trabajamos con tres principios.

Extracción distribuida. En lugar de un solo proceso, repartimos la carga entre varios trabajadores coordinados por un orquestador de flujos. Así se cubren muchas fuentes en paralelo sin saturar ninguna.

Control de tasa y buenas prácticas. Aplicamos límites de frecuencia (rate limiting) para no sobrecargar los sitios de origen, respetamos el archivo robots.txt y los términos de uso, e identificamos nuestro tráfico de forma responsable. Extraer no significa abusar.

Datos limpios desde el origen. Antes de guardar nada, deduplicamos los registros mediante un hash del contenido, de modo que el mismo dato visto en dos fuentes no se cuente dos veces. Luego usamos ingesta incremental: en cada corrida solo procesamos lo nuevo o lo que cambió, en vez de volver a bajar todo. Eso reduce costos y mantiene la base al día.

El web scraping a escala convierte fuentes públicas dispersas (SII, Conservadores, Diario Oficial, CMF, compras públicas) en una base de datos estructurada, deduplicada y actualizada a diario.

La arquitectura por dentro: cómo funciona

El stack que sostiene un proyecto a escala combina componentes probados. Esta es la columna vertebral típica:

  • Procesamiento en Python. Es el lenguaje base para la extracción, la limpieza y la transformación de los datos.
  • Dos modos de extracción. Los sitios estáticos se resuelven con parseo HTTP directo, que es rápido y liviano. Los sitios con JavaScript dinámico (contenido que se arma en el navegador) se resuelven con automatización de navegador headless, que simula la navegación real para capturar lo que el usuario vería.
  • Almacenamiento en la nube. Los datos consolidados viven en un data warehouse sobre AWS, Azure o Google Cloud, consultable con SQL y preparado para escalar a millones de filas.
  • Resiliencia a cambios de maquetación. Cuando una fuente cambia su HTML, el sistema detecta la anomalía y aísla el componente afectado, de modo que un cambio en un sitio no rompe toda la canalización.

Sobre esa base de datos limpia se puede construir lo que el negocio necesite: dashboards de BI, alertas, integraciones con tu ERP/CRM, o capas de IA. Hoy es común sumar agentes y copilotos basados en LLM (con asistentes como Claude o ChatGPT) que consultan el data warehouse mediante patrones como RAG o el Model Context Protocol (MCP), para que un usuario no técnico pregunte en lenguaje natural sobre los datos extraídos.

Resultados: de fuentes dispersas a una base consultable

El caso más demostrativo es nuestro propio producto. Data Inmobiliaria indexa 9,5 millones de propiedades de Chile a partir de fuentes públicas como el catastro del SII, los Conservadores de Bienes Raíces y el Diario Oficial. Eso no se logra a mano: es el resultado de una arquitectura de extracción que corre de forma continua y se mantiene sola la mayor parte del tiempo.

El patrón se repite en proyectos a medida para distintos sectores. Una administradora de fondos (AGF) puede monitorear registros financieros de la CMF; un grupo empresarial multi-sociedad puede consolidar información de compras públicas; un estudio de cobranza judicial puede seguir publicaciones del Diario Oficial. En todos los casos, el resultado es el mismo: tareas que antes tomaban horas pasan a minutos, y la información llega estructurada y al día.

Legalidad en Chile: orientación general

Esta sección es orientación general y no constituye asesoría legal; cada proyecto debe revisarse con sus propios abogados. Dicho eso, hay criterios razonables y ampliamente aceptados.

Extraer datos públicos —los que cualquier persona puede consultar legítimamente en una fuente abierta— suele ser admisible. La práctica responsable implica:

  • Respetar los términos de uso de cada sitio y el archivo robots.txt.
  • No sobrecargar los servidores de origen (de ahí el control de tasa).
  • Tratar con especial cuidado los datos personales: extraerlos sin una base de licitud es riesgoso.
  • Considerar la Ley 21.719 de protección de datos personales y su marco de cumplimiento.

La regla práctica: datos públicos y agregados, con buenas prácticas técnicas, es terreno sólido; datos personales sin justificación legal, no. Diseñamos cada proyecto para mantenerse del lado correcto de esa línea.

Costos y cómo empezar

No existe un precio único, porque el esfuerzo depende de variables concretas:

  • Número de fuentes a integrar y su diversidad.
  • Volumen de registros y su crecimiento esperado.
  • Frecuencia de actualización requerida (diaria, horaria, en tiempo casi real).
  • Complejidad anti-bot de los sitios de origen y la dificultad de su maquetación.

Como referencia, abordamos proyectos de web scraping desde UF 75 según el alcance. La mejor forma de tener una cifra realista es conversar tu caso: qué fuentes, qué volumen y para qué se usará la data. Cuéntanos qué necesitas extraer y te preparamos una propuesta con la arquitectura adecuada. Todos nuestros entregables incluyen 30 días de garantía post-entrega.

En resumen
FAQ

Preguntas frecuentes

¿Es legal hacer web scraping en Chile?

Como orientación general (no asesoría legal): extraer datos públicos suele ser admisible si se respetan los términos de uso del sitio y su robots.txt, no se sobrecargan los servidores y no se abusa de datos personales. La extracción de datos personales sin una base de licitud es riesgosa, y hay que considerar la Ley 21.719 de protección de datos. Cada proyecto conviene revisarlo con abogados.

¿Qué datos públicos se pueden extraer en Chile?

Hay muchas fuentes abiertas y legítimas de consultar: el catastro del Servicio de Impuestos Internos (SII), los Conservadores de Bienes Raíces, el Diario Oficial, las compras públicas (Mercado Público) y los registros financieros de la CMF, entre otras. La clave está en distinguir datos públicos y agregados de datos personales, que tienen un tratamiento legal más estricto.

¿Cuánto cuesta un proyecto de web scraping?

Depende del número de fuentes, el volumen de datos, la frecuencia de actualización y la complejidad anti-bot de los sitios de origen. Como referencia, abordamos proyectos desde UF 75 según el alcance. Para una cifra realista conviene conversar el caso concreto: qué fuentes, qué volumen y con qué uso final.

¿Cómo se mantiene un scraper cuando el sitio web cambia?

Una arquitectura seria se diseña para resistir cambios de maquetación: cuando una fuente modifica su HTML, el sistema detecta la anomalía y aísla el componente afectado para que no se caiga toda la canalización. A eso se suman extracción modular por fuente y monitoreo continuo, de modo que arreglar un cambio sea acotado y no requiera rehacer el proyecto.

¿Conviene hacer scraping o usar una API oficial?

Si la fuente ofrece una API oficial estable y con los datos que necesitas, casi siempre es preferible: es más confiable y menos frágil ante cambios. El scraping tiene sentido cuando no existe API, cuando la API no expone toda la información pública disponible, o cuando hay que consolidar muchas fuentes heterogéneas. A menudo lo óptimo es combinar ambos: API donde exista y scraping donde no.

¿Cómo se evita que bloqueen el scraper?

Sobre todo comportándose de forma responsable: aplicar control de tasa (rate limiting) para no saturar el sitio, respetar robots.txt y los términos de uso, e identificar el tráfico de manera transparente. Técnicamente, los sitios estáticos se resuelven con parseo HTTP y los dinámicos con automatización de navegador headless que simula navegación real. La meta no es 'engañar', sino extraer de forma sostenible y sin perjudicar la fuente.

¿Para qué sirve tener los datos extraídos en un data warehouse?

Una vez que los datos están limpios, deduplicados y centralizados en un data warehouse en la nube (AWS, Azure o Google Cloud), se vuelven consultables con SQL y se pueden conectar a dashboards de BI, alertas, tu ERP/CRM o capas de IA. Incluso es posible sumar copilotos basados en LLM (con asistentes como Claude o ChatGPT) para que un usuario no técnico pregunte sobre los datos en lenguaje natural.

¿Tienes un caso parecido en tu empresa?

Cuéntanos qué necesitas automatizar, consolidar o consultar con IA. Te entregamos una propuesta con alcance, precio y plazo cerrados, desde UF 75 según alcance.

Cotizar proyecto Hablar por WhatsApp