Salta al contenuto principale
ai Live 2026

Ames Housing Price Pipeline

Pipeline ML end-to-end per la valutazione automatica di immobili

Pipeline ML production-ready per la previsione dei prezzi immobiliari Ames (2.930 vendite, 80+ feature). XGBoost con R² 0.947 e RMSE $18.350, K-fold tuning e API di inferenza.

ClienteProject Work — DataMasters Machine Learning Engineer
RuoloData scientist e ML engineer (pipeline end-to-end + documentazione tecnica)
Anno2026

Highlights

  • XGBoost campione: RMSE $18.350, MAE $11.939, R² 0.9471, MAPE 7.19% sul test set
  • Preprocessing modulare con transformer separati per feature numeriche, ordinali e nominali
  • TransformedTargetRegressor per training in spazio log e mitigare la skew dei prezzi
  • K-fold cross-validation (K=5) con tuning iperparametri riproducibile
  • 5 guide teoriche su regressione, regolarizzazione, alberi, metriche e prevenzione data leakage
  • API di inferenza `predict_price()` + CLI (`ames-train --quick`)
  • Ogni decisione di design giustificata in documentazione (Jekyll site)

Cosa è il progetto

Pipeline ML end-to-end per la previsione dei prezzi delle case nel dataset Ames (Iowa, USA): 2.930 vendite immobiliari con oltre 80 feature strutturali e di contesto. Il progetto risolve il problema dell'automazione della valutazione immobiliare, abilitando stime istantanee con incertezza quantificata utili per agenzie immobiliari, mutui e analisi di mercato. Repo: github.com/fedcal/ames-housing-price-pipeline.

Architettura della pipeline

  1. Data ingestion: 2.930 vendite × 80+ feature da Ames Housing Dataset
  2. Preprocessing modulare: ColumnTransformer separati per feature numeriche/ordinali/nominali
  3. Target log-transform: TransformedTargetRegressor con log1p per ridurre skew prezzi
  4. K-fold CV (K=5) con tuning iperparametri
  5. Confronto modelli: XGBoost vs Ridge vs Random Forest
  6. API di inferenza: funzione predict_price() + CLI ames-train --quick

Risultati sul test set

ModelloRMSEMAEMAPE
XGBoost$18.350$11.9390.94717.19%
Ridge Regression$18.509$12.4700.94617.59%
Random Forest$20.825$13.2650.93187.90%

XGBoost è il modello migliore con un errore medio percentuale (MAPE) inferiore al 7.2% — un livello di accuratezza spendibile in scenari di pre-screening per perizie immobiliari.

Use case business

Sistema di valutazione automatizzata per agenzie immobiliari, banche e fintech che effettuano underwriting mutui. Permette di generare istantaneamente una stima di prezzo con bande di confidenza documentate, riducendo il tempo di pre-screening da ore a millisecondi e fornendo un baseline oggettivo confrontabile con le perizie umane.

Materiale didattico incluso

Il repository include 5 guide teoriche complete che coprono regressione e log-target, regolarizzazione (Ridge/Lasso/ElasticNet), modelli ad albero e boosting, metriche di regressione (RMSE/MAE/R²/MAPE) e prevenzione del data leakage nel design di pipeline ML. È pensato per essere riproducibile e utilizzato come template per altri progetti di previsione su dati tabulari.

Stack tecnologico completo

LayerTecnologiaNote
LinguaggioPython 3.11–3.13
ML corescikit-learn (Pipeline, ColumnTransformer, K-fold CV)
ModelliXGBoost (champion), Ridge (baseline), Random Forest
Target transformTransformedTargetRegressor con log1p (gestione skew prezzi)
NotebookJupyter (5 quaderni teorici sequenziali)
DocumentazioneJekyll + Just-the-Docs (GitHub Pages)
CI/CDGitHub Actions (test + deploy docs)

Tecnologie principali

Python 3.13scikit-learnXGBoostpandas / NumPyJupyterJekyll Just-the-DocsGitHub Actions

Link al progetto

Altri progetti