La información que necesitas para tasar, hacer due diligence o analizar un mercado inmobiliario en Chile existe, pero está dispersa y en formatos que no conversan entre sí: el avalúo fiscal vive en el catastro del Servicio de Impuestos Internos (SII), la historia de dominio y las ventas están en los Conservadores de Bienes Raíces (CBR), y el precio de oferta aparece en los avisos publicados del mercado. Cruzar las tres a mano, propiedad por propiedad, es inviable a escala.
Un pipeline de datos a medida resuelve exactamente ese problema: extrae, deduplica y unifica esas fuentes en una sola base consultable por rol, comuna y predio. Es la misma arquitectura detrás de Data Inmobiliaria, nuestro producto propio que indexa 9,5 millones de propiedades de Chile. Acá explicamos cómo funciona, para qué sirve y qué hay que considerar antes de construirlo.
El problema: tres fuentes que no conversan
Quien trabaja con propiedades en Chile vive el mismo dolor: los datos que importan están repartidos en silos públicos con identificadores, granularidad y actualización distintos.
- Catastro del SII: avalúo fiscal, contribuciones, superficie de terreno y construcción, materialidad, destino (habitacional, comercial, industrial) y geolocalización por rol, comuna y manzana.
- Conservador de Bienes Raíces (CBR): inscripciones de dominio, historia de transferencias, hipotecas, gravámenes y prohibiciones, y las ventas que dan precios de transacción reales.
- Oferta publicada (avisos de venta y arriendo): precios de oferta, características publicadas y disponibilidad de mercado en tiempo casi real.
El SII te dice cuánto vale fiscalmente y qué es la propiedad; el CBR, quién es el dueño y a cuánto se transó; la oferta publicada, a cuánto se está ofreciendo hoy. Por separado, cada fuente cuenta media historia. Juntarlas a mano para un edificio, una comuna o una cartera completa consume días de trabajo manual y se desactualiza apenas terminas.
La solución: un pipeline que unifica por rol, comuna y predio
Construimos un pipeline de datos a medida que convierte esas fuentes dispersas en una sola base coherente. El eje del modelo es el rol del SII como identificador del predio, complementado con comuna y geolocalización, de modo que un mismo inmueble queda enlazado a su avalúo, su historia en el CBR y la oferta publicada del mercado.
El flujo tiene cuatro etapas:
- Extracción: obtención de las fuentes públicas y de acceso público mediante procesos automatizados (web scraping y automatización de navegación donde corresponde), respetando el uso para el que están dispuestas.
- Deduplicación: identificación de registros repetidos por hash de contenido, para que una misma propiedad publicada en varios avisos no infle la base.
- Ingesta incremental: cada corrida agrega solo lo nuevo o lo que cambió, en vez de reprocesar todo, lo que mantiene los costos y los tiempos bajo control.
- Modelo unificado: un esquema por rol, comuna y predio con geolocalización, almacenado en un data warehouse en la nube (AWS, Azure o Google Cloud) y consultable con SQL.
Todo se construye con Python y SQL. El resultado no es un archivo estático: es una base viva que se conecta a tus sistemas o se interroga directamente.
El catastro del SII (avalúo, superficies, destino, geolocalización), el CBR (dominio, ventas, gravámenes) y la oferta publicada del mercado son fuentes complementarias que por separado cuentan media historia.
Cómo funciona en la práctica
Una vez cargada la base, el equipo deja de pelear con planillas y empieza a hacer preguntas. Hay dos formas de consumir el pipeline:
- Consulta directa por SQL o dashboards de BI: para analistas que ya trabajan con datos, el data warehouse en la nube queda disponible para reportería, exploración y modelos de tasación.
- Consulta con IA en lenguaje natural: conectamos la base a un modelo de lenguaje (LLM) mediante el estándar MCP (Model Context Protocol), de modo que un usuario sin SQL pregunte en español —por ejemplo, "propiedades comerciales en esta comuna con avalúo sobre cierto monto"— y reciba la respuesta consultada sobre datos reales, no inventada. Es el patrón de copilotos y agentes que ya usamos sobre Data Inmobiliaria.
El impacto operativo es directo: consultas cruzadas que antes tomaban horas de recopilación manual pasan a resolverse en torno a un par de minutos. La diferencia no es solo velocidad, es poder repetir el análisis sobre miles de propiedades de forma consistente.
Para qué sirve: tasación, due diligence, fondos y PropTech
El mismo pipeline habilita usos distintos según el negocio:
- Tasación masiva: contrastar avalúo fiscal, transacciones del CBR y la oferta publicada del mercado para estimar valores comparables a escala de comuna o cartera, en lugar de propiedad por propiedad.
- Due diligence: verificar historia de dominio, gravámenes y consistencia entre lo declarado y lo inscrito antes de cerrar una operación. Un estudio jurídico o un equipo de cobranza puede revisar fundamentos sobre datos consolidados.
- Fondos de inversión y AGF: dimensionar mercados, monitorear stock y precios por zona, y alimentar modelos de inversión inmobiliaria con datos actualizados.
- PropTech: alimentar productos y plataformas con una capa de datos confiable de propiedades chilenas, sin tener que construir la infraestructura de extracción desde cero.
Data Inmobiliaria, con 9,5 millones de propiedades indexadas, es la prueba pública de que esta arquitectura escala a nivel país. El mismo enfoque se adapta al alcance que cada cliente necesite: una comuna, una vertical o el universo completo.
Integración con tus sistemas
Una base de datos aislada sirve de poco si no llega a donde se toman las decisiones. El pipeline se integra con tu ERP o CRM para que la información cruzada aparezca en las herramientas que tu equipo ya usa, o se expone como una capa de consulta que tus aplicaciones internas y modelos de tasación pueden llamar.
Como todo es a medida y construido con tecnologías estándar (Python, SQL, JavaScript y nube AWS, Azure o Google Cloud), no quedas amarrado a una plataforma cerrada. Si mañana cambias de CRM o de sistema de tasación, la base sigue siendo tuya y la integración se reconfigura. La entrega incluye 30 días de soporte post-entrega para ajustes.
Consideraciones legales y de mantenimiento
Dos preguntas aparecen siempre antes de construir un pipeline así: la legalidad y la actualización.
Sobre legalidad: el catastro del SII, las inscripciones del CBR y la oferta publicada del mercado es de acceso público. Trabajamos sobre datos disponibles públicamente y respetando el uso para el que están dispuestos. Dicho esto, lo anterior es orientación general y no constituye asesoría legal: cada proyecto, según su uso final y el tratamiento de datos personales involucrado, debe revisarse con un abogado o asesor jurídico. Recomendamos validar el alcance con asesoría especializada antes de poner el pipeline en producción.
Sobre mantenimiento: las fuentes cambian (nuevas inscripciones, reavalúos, publicaciones que aparecen y desaparecen). Por eso el pipeline usa ingesta incremental y deduplicación por hash, de modo que las corridas programadas incorporen solo lo nuevo y la base se mantenga vigente sin reprocesar todo cada vez.