Just Dev It

Inicio / Blog

Datos · Ingeniería

Pipeline de datos a medida: integrar SII, Conservador de Bienes Raíces y oferta de mercado

Integra el catastro del SII, el Conservador de Bienes Raíces y la oferta de mercado en una sola base consultable con IA. Pipeline a medida desde UF 75.

2026-06-17 6 min de lectura Just Dev It
Ilustración del artículo: Datos · Ingeniería

La información que necesitas para tasar, hacer due diligence o analizar un mercado inmobiliario en Chile existe, pero está dispersa y en formatos que no conversan entre sí: el avalúo fiscal vive en el catastro del Servicio de Impuestos Internos (SII), la historia de dominio y las ventas están en los Conservadores de Bienes Raíces (CBR), y el precio de oferta aparece en los avisos publicados del mercado. Cruzar las tres a mano, propiedad por propiedad, es inviable a escala.

Un pipeline de datos a medida resuelve exactamente ese problema: extrae, deduplica y unifica esas fuentes en una sola base consultable por rol, comuna y predio. Es la misma arquitectura detrás de Data Inmobiliaria, nuestro producto propio que indexa 9,5 millones de propiedades de Chile. Acá explicamos cómo funciona, para qué sirve y qué hay que considerar antes de construirlo.

El problema: tres fuentes que no conversan

Quien trabaja con propiedades en Chile vive el mismo dolor: los datos que importan están repartidos en silos públicos con identificadores, granularidad y actualización distintos.

  • Catastro del SII: avalúo fiscal, contribuciones, superficie de terreno y construcción, materialidad, destino (habitacional, comercial, industrial) y geolocalización por rol, comuna y manzana.
  • Conservador de Bienes Raíces (CBR): inscripciones de dominio, historia de transferencias, hipotecas, gravámenes y prohibiciones, y las ventas que dan precios de transacción reales.
  • Oferta publicada (avisos de venta y arriendo): precios de oferta, características publicadas y disponibilidad de mercado en tiempo casi real.

El SII te dice cuánto vale fiscalmente y qué es la propiedad; el CBR, quién es el dueño y a cuánto se transó; la oferta publicada, a cuánto se está ofreciendo hoy. Por separado, cada fuente cuenta media historia. Juntarlas a mano para un edificio, una comuna o una cartera completa consume días de trabajo manual y se desactualiza apenas terminas.

La solución: un pipeline que unifica por rol, comuna y predio

Construimos un pipeline de datos a medida que convierte esas fuentes dispersas en una sola base coherente. El eje del modelo es el rol del SII como identificador del predio, complementado con comuna y geolocalización, de modo que un mismo inmueble queda enlazado a su avalúo, su historia en el CBR y la oferta publicada del mercado.

El flujo tiene cuatro etapas:

  • Extracción: obtención de las fuentes públicas y de acceso público mediante procesos automatizados (web scraping y automatización de navegación donde corresponde), respetando el uso para el que están dispuestas.
  • Deduplicación: identificación de registros repetidos por hash de contenido, para que una misma propiedad publicada en varios avisos no infle la base.
  • Ingesta incremental: cada corrida agrega solo lo nuevo o lo que cambió, en vez de reprocesar todo, lo que mantiene los costos y los tiempos bajo control.
  • Modelo unificado: un esquema por rol, comuna y predio con geolocalización, almacenado en un data warehouse en la nube (AWS, Azure o Google Cloud) y consultable con SQL.

Todo se construye con Python y SQL. El resultado no es un archivo estático: es una base viva que se conecta a tus sistemas o se interroga directamente.

El catastro del SII (avalúo, superficies, destino, geolocalización), el CBR (dominio, ventas, gravámenes) y la oferta publicada del mercado son fuentes complementarias que por separado cuentan media historia.

Cómo funciona en la práctica

Una vez cargada la base, el equipo deja de pelear con planillas y empieza a hacer preguntas. Hay dos formas de consumir el pipeline:

  • Consulta directa por SQL o dashboards de BI: para analistas que ya trabajan con datos, el data warehouse en la nube queda disponible para reportería, exploración y modelos de tasación.
  • Consulta con IA en lenguaje natural: conectamos la base a un modelo de lenguaje (LLM) mediante el estándar MCP (Model Context Protocol), de modo que un usuario sin SQL pregunte en español —por ejemplo, "propiedades comerciales en esta comuna con avalúo sobre cierto monto"— y reciba la respuesta consultada sobre datos reales, no inventada. Es el patrón de copilotos y agentes que ya usamos sobre Data Inmobiliaria.

El impacto operativo es directo: consultas cruzadas que antes tomaban horas de recopilación manual pasan a resolverse en torno a un par de minutos. La diferencia no es solo velocidad, es poder repetir el análisis sobre miles de propiedades de forma consistente.

Para qué sirve: tasación, due diligence, fondos y PropTech

El mismo pipeline habilita usos distintos según el negocio:

  • Tasación masiva: contrastar avalúo fiscal, transacciones del CBR y la oferta publicada del mercado para estimar valores comparables a escala de comuna o cartera, en lugar de propiedad por propiedad.
  • Due diligence: verificar historia de dominio, gravámenes y consistencia entre lo declarado y lo inscrito antes de cerrar una operación. Un estudio jurídico o un equipo de cobranza puede revisar fundamentos sobre datos consolidados.
  • Fondos de inversión y AGF: dimensionar mercados, monitorear stock y precios por zona, y alimentar modelos de inversión inmobiliaria con datos actualizados.
  • PropTech: alimentar productos y plataformas con una capa de datos confiable de propiedades chilenas, sin tener que construir la infraestructura de extracción desde cero.

Data Inmobiliaria, con 9,5 millones de propiedades indexadas, es la prueba pública de que esta arquitectura escala a nivel país. El mismo enfoque se adapta al alcance que cada cliente necesite: una comuna, una vertical o el universo completo.

Integración con tus sistemas

Una base de datos aislada sirve de poco si no llega a donde se toman las decisiones. El pipeline se integra con tu ERP o CRM para que la información cruzada aparezca en las herramientas que tu equipo ya usa, o se expone como una capa de consulta que tus aplicaciones internas y modelos de tasación pueden llamar.

Como todo es a medida y construido con tecnologías estándar (Python, SQL, JavaScript y nube AWS, Azure o Google Cloud), no quedas amarrado a una plataforma cerrada. Si mañana cambias de CRM o de sistema de tasación, la base sigue siendo tuya y la integración se reconfigura. La entrega incluye 30 días de soporte post-entrega para ajustes.

Consideraciones legales y de mantenimiento

Dos preguntas aparecen siempre antes de construir un pipeline así: la legalidad y la actualización.

Sobre legalidad: el catastro del SII, las inscripciones del CBR y la oferta publicada del mercado es de acceso público. Trabajamos sobre datos disponibles públicamente y respetando el uso para el que están dispuestos. Dicho esto, lo anterior es orientación general y no constituye asesoría legal: cada proyecto, según su uso final y el tratamiento de datos personales involucrado, debe revisarse con un abogado o asesor jurídico. Recomendamos validar el alcance con asesoría especializada antes de poner el pipeline en producción.

Sobre mantenimiento: las fuentes cambian (nuevas inscripciones, reavalúos, publicaciones que aparecen y desaparecen). Por eso el pipeline usa ingesta incremental y deduplicación por hash, de modo que las corridas programadas incorporen solo lo nuevo y la base se mantenga vigente sin reprocesar todo cada vez.

En resumen
FAQ

Preguntas frecuentes

¿Qué datos tiene el catastro del SII y el Conservador de Bienes Raíces?

El catastro del SII contiene el avalúo fiscal, las contribuciones, la superficie de terreno y construcción, la materialidad, el destino del inmueble (habitacional, comercial, industrial) y la geolocalización por rol, comuna y manzana. El Conservador de Bienes Raíces (CBR) guarda las inscripciones de dominio: quién es el dueño, la historia de transferencias, hipotecas, gravámenes y prohibiciones, además de las ventas que reflejan precios de transacción reales. Son fuentes complementarias: el SII dice cuánto vale fiscalmente y qué es la propiedad; el CBR dice quién la tiene y a cuánto se transó.

¿Se pueden cruzar el SII, el CBR y la oferta de mercado en una sola base?

Sí. Es justamente lo que hace un pipeline de datos a medida: extrae cada fuente, deduplica los registros repetidos y los unifica en un modelo común usando el rol del SII, la comuna y la geolocalización como llaves. El resultado es una base donde cada propiedad queda enlazada a su avalúo fiscal, su historia en el CBR y la oferta publicada del mercado. Es la misma arquitectura que sostiene Data Inmobiliaria, con 9,5 millones de propiedades indexadas en Chile.

¿Cómo se mantiene actualizado el pipeline?

Con ingesta incremental: cada corrida programada incorpora solo los registros nuevos o los que cambiaron, en vez de reprocesar toda la base. La deduplicación por hash de contenido evita que una misma propiedad publicada en varios avisos se cuente varias veces. Así la base se mantiene vigente a medida que aparecen nuevas inscripciones, reavalúos y publicaciones, manteniendo acotados los costos y los tiempos de procesamiento.

¿Para qué sirve un pipeline que cruza estas fuentes?

Para tasación masiva (contrastar avalúo, transacciones y oferta a escala de comuna o cartera), due diligence (verificar dominio, gravámenes y consistencia antes de una operación), análisis de mercado para fondos de inversión y AGF (dimensionar mercados y monitorear precios por zona), y para alimentar productos PropTech con una capa de datos confiable de propiedades chilenas sin construir la infraestructura de extracción desde cero.

¿Se integra con mi CRM o sistema de tasación?

Sí. El pipeline se conecta con tu ERP o CRM para que los datos cruzados aparezcan en las herramientas que tu equipo ya usa, o se expone como una capa de consulta que tus aplicaciones y modelos de tasación pueden llamar. Al estar construido con tecnologías estándar (Python, SQL y nube AWS, Azure o Google Cloud), la base es tuya y la integración se reconfigura si cambias de plataforma. La entrega incluye 30 días de soporte post-entrega.

¿Se puede consultar la base sin saber SQL?

Sí. Además de la consulta directa por SQL o dashboards de BI para analistas, conectamos la base a un modelo de lenguaje (LLM) mediante el estándar MCP, de modo que cualquier persona pregunte en español natural y reciba respuestas consultadas sobre los datos reales, no generadas de la nada. Es el mismo patrón de copilotos y agentes con IA que aplicamos sobre Data Inmobiliaria, donde una consulta cruzada que tomaba horas se resuelve en torno a un par de minutos.

¿Es legal usar estos datos?

El catastro del SII, las inscripciones del CBR y la oferta publicada del mercado es de acceso público, y trabajamos sobre datos disponibles públicamente respetando el uso para el que están dispuestos. Importante: esto es orientación general y no constituye asesoría legal. Cada proyecto debe revisarse con un abogado según su uso final y el tratamiento de datos personales involucrado; recomendamos validar el alcance con asesoría especializada antes de llevar el pipeline a producción.

¿Tienes un caso parecido en tu empresa?

Cuéntanos qué necesitas automatizar, consolidar o consultar con IA. Te entregamos una propuesta con alcance, precio y plazo cerrados, desde UF 75 según alcance.

Cotizar proyecto Hablar por WhatsApp