Bună! Sunt

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

Contactează-mă

Despre Mine

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

Competențele Mele

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

Automatizarea Proceselor

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

Sisteme Personalizate

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

Misiunea Mea

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

Democratizarea Tehnologiei

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

Unirea IT și Economiei

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

Crearea de Soluții Personalizate

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

Transformă-ți Afacerea cu Tehnologia

Che tu gestisca un negozio, uno studio professionale o un'azienda, posso aiutarti a sfruttare le potenzialità dell'informatica per lavorare meglio, più velocemente e in modo più intelligente.

Hai să Vorbim →

Unisciti alla Community

Entra nella community di sviluppatori dove discutiamo di software, AI, architettura e DevOps. Condividi idee, fai domande e cresci insieme a noi.

Canale

FC Dev Blog

Ricevi notifiche su nuovi articoli, serie complete, tips settimanali e tool in evidenza. Contenuti bilingui IT/EN direttamente nel tuo Telegram.

Nuovi articoli appena pubblicati
Tips e code snippets settimanali
Sondaggi sugli argomenti futuri

Iscriviti al Canale

Gruppo

FC Dev Community

Una community bilingue IT/EN per sviluppatori. Discussioni, Q&A, aiuto reciproco e networking con altri professionisti del settore.

Discussioni su articoli e tecnologie
Help coding e code review
Opportunità di lavoro e collaborazione

Unisciti al Gruppo

Topic di Discussione

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

Linguaggi & Tecnologie

Java

Python

JavaScript

Angular

React

TypeScript

SQL

PHP

CSS/SCSS

Node.js

Docker

Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

Contactează-mă

Ai un proiect în minte? Hai să vorbim! Completează formularul și îți voi răspunde curând.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

Monitorizarea NLP în producție: detectarea derivei și reinstruire

Un model NLP care este excelent la implementare poate deveni rapid învechit. Limbajul evoluează, modelele se schimbă, datele reale se abat de la setul de antrenament. Acest fenomen se numește deriva de date și, dacă nu sunt monitorizate, cauzele a degradare silențioasă a performanței care este adesea descoperită prea târziu — când clienții se plâng sau KPI-urile companiei scad.

În acest articol vom construi un sistem complet de monitorizare pentru modelele NLP în producție: de la urmărirea predicțiilor în timp real la detectarea automată de derive, de la alertă la reantrenare automată cu MLflow și Airflow. Acest articol închide seria NLP modern: de la BERT la LLM cu un accent avansat pe operațiuni.

Ce vei învăța

Tipuri de derivă: deriva de date, deriva de concept, deriva de etichetă, deriva de caracteristică
Valori de monitorizat pentru modelele NLP în producție
Detectarea derivării textului: încorporarea derivei cu Indicele de stabilitate a populației (PSI)
Monitorizarea calității predicțiilor fără etichete (valori proxy)
Sistem de alertă cu praguri și notificări
Înregistrare structurată a predicțiilor NLP
Conductă de reinstruire automată cu declanșatoare bazate pe deriva
Testare A/B pentru noile versiuni de șablon
Tabloul de bord de monitorizare cu Grafana și Prometheus
Implementare în umbră pentru a valida noi modele fără impact

1. Tipuri de deriva în modelele NLP

„Deriva” într-un model NLP se poate manifesta în moduri diferite, fiecare având cauze si solutii diferite.

Taxonomie de deriva

Tip	Definiţie	Exemplu de NLP	Soluţie
Data Drift	Distribuția intrărilor se modifică	Argo nou pe Twitter	Reantrenați-vă cu date noi
Concept Drift	Relația intrare-ieșire se modifică	„Trump” = politică vs persoană	Recalificare frecventă
Etichetă Drift	Distribuția ieșirii se modifică	Mai multe predicții negative în criză	Monitorizarea distribuției ieșirii
Deriva caracteristică	Statisticile caracteristicilor se modifică	Lungimea medie a textului crește	Monitorizare caracteristică + alertă

2. Sistem de înregistrare a predicțiilor

Baza oricărui sistem de monitorizare este înregistrarea structurată a fiecărei predicții. Trebuie să captăm suficiente informații pentru a analiza comportamentul modelului de-a lungul timpului.

import json
import time
import hashlib
import logging
from dataclasses import dataclass, asdict, field
from typing import Optional, List, Dict, Any
from datetime import datetime
import uuid

@dataclass
class NLPPredictionLog:
    """Schema di logging per predizioni NLP."""
    prediction_id: str
    timestamp: str
    model_version: str
    input_text: str
    input_hash: str        # hash del testo (non il testo per privacy)
    input_length_chars: int
    input_length_tokens: int
    predicted_label: str
    predicted_label_id: int
    confidence_score: float
    all_class_scores: Dict[str, float]
    inference_latency_ms: float
    true_label: Optional[str] = None   # None se non disponibile
    feedback: Optional[str] = None      # feedback utente se disponibile
    metadata: Dict[str, Any] = field(default_factory=dict)

class NLPPredictionLogger:
    """Logger strutturato per predizioni NLP."""

    def __init__(self, model_version: str, log_path: str = "./prediction_logs"):
        self.model_version = model_version
        self.log_path = log_path
        self.logger = logging.getLogger("nlp_predictions")

        # Handler per file JSON Lines (JSONL)
        handler = logging.FileHandler(f"{log_path}/predictions.jsonl")
        handler.setFormatter(logging.Formatter('%(message)s'))
        self.logger.addHandler(handler)
        self.logger.setLevel(logging.INFO)

    def log_prediction(self,
                       text: str,
                       predicted_label: str,
                       predicted_label_id: int,
                       confidence: float,
                       all_scores: Dict[str, float],
                       latency_ms: float,
                       num_tokens: int,
                       true_label: Optional[str] = None,
                       metadata: Optional[dict] = None) -> str:
        """Logga una singola predizione. Restituisce prediction_id."""

        # Hash dell'input (non salvare il testo originale per GDPR)
        input_hash = hashlib.sha256(text.encode()).hexdigest()[:16]

        prediction_id = str(uuid.uuid4())
        log_entry = NLPPredictionLog(
            prediction_id=prediction_id,
            timestamp=datetime.utcnow().isoformat(),
            model_version=self.model_version,
            input_text=text[:500],    # troncato per storage
            input_hash=input_hash,
            input_length_chars=len(text),
            input_length_tokens=num_tokens,
            predicted_label=predicted_label,
            predicted_label_id=predicted_label_id,
            confidence_score=confidence,
            all_class_scores=all_scores,
            inference_latency_ms=latency_ms,
            true_label=true_label,
            metadata=metadata or {}
        )

        self.logger.info(json.dumps(asdict(log_entry)))
        return prediction_id

# Uso nella pipeline di inferenza
class MonitoredSentimentClassifier:
    def __init__(self, model_path: str, model_version: str):
        from transformers import pipeline, AutoTokenizer
        self.pipeline = pipeline("text-classification", model=model_path)
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        self.logger = NLPPredictionLogger(model_version)
        self.model_version = model_version

    def predict(self, text: str, metadata: dict = None) -> dict:
        start = time.time()

        # Inferenza
        result = self.pipeline(text)[0]

        # Calcola numero di token
        num_tokens = len(self.tokenizer.tokenize(text)[:128])
        latency_ms = (time.time() - start) * 1000

        # Log
        pred_id = self.logger.log_prediction(
            text=text,
            predicted_label=result['label'],
            predicted_label_id=0 if result['label'] == 'NEGATIVE' else 1,
            confidence=result['score'],
            all_scores={result['label']: result['score']},
            latency_ms=latency_ms,
            num_tokens=num_tokens,
            metadata=metadata or {}
        )

        return {
            "prediction_id": pred_id,
            "label": result['label'],
            "confidence": result['score'],
            "latency_ms": latency_ms
        }

3. Detectarea derivei: Abordarea de încorporare a textului

Cea mai robustă metodă de a detecta deriva de date în text și de a compara distribuirea de încorporarea propoziției în setul de antrenament cu cei aflati in productie.

import numpy as np
from sentence_transformers import SentenceTransformer
from scipy.stats import ks_2samp
from scipy.spatial.distance import jensenshannon
import warnings

class EmbeddingDriftDetector:
    """
    Rileva data drift confrontando la distribuzione degli embedding.
    Usa il test di Kolmogorov-Smirnov (KS) per ogni dimensione dell'embedding.
    """

    def __init__(self, embedding_model: str = 'all-MiniLM-L6-v2',
                 ks_threshold: float = 0.1,
                 psi_threshold: float = 0.2):
        self.model = SentenceTransformer(embedding_model)
        self.ks_threshold = ks_threshold      # soglia test KS
        self.psi_threshold = psi_threshold    # soglia PSI
        self.reference_embeddings = None
        self.reference_stats = None

    def fit(self, reference_texts: List[str], batch_size: int = 64):
        """Calcola statistiche di riferimento dal training set."""
        print(f"Computing reference embeddings for {len(reference_texts)} texts...")
        self.reference_embeddings = self.model.encode(
            reference_texts, batch_size=batch_size, show_progress_bar=True
        )
        self.reference_stats = {
            'mean': self.reference_embeddings.mean(axis=0),
            'std': self.reference_embeddings.std(axis=0),
            'n': len(reference_texts)
        }
        print(f"Reference embeddings computed: shape={self.reference_embeddings.shape}")

    def detect_drift(self, production_texts: List[str],
                     batch_size: int = 64) -> Dict[str, Any]:
        """Rileva drift confrontando produzione con riferimento."""
        if self.reference_embeddings is None:
            raise ValueError("Call fit() first with reference data")

        prod_embeddings = self.model.encode(
            production_texts, batch_size=batch_size, show_progress_bar=False
        )

        # Metodo 1: KS test per ogni dimensione dell'embedding
        ks_stats = []
        ks_pvalues = []
        for dim in range(self.reference_embeddings.shape[1]):
            stat, pvalue = ks_2samp(
                self.reference_embeddings[:, dim],
                prod_embeddings[:, dim]
            )
            ks_stats.append(stat)
            ks_pvalues.append(pvalue)

        avg_ks = np.mean(ks_stats)
        max_ks = np.max(ks_stats)

        # Metodo 2: Cosine distance media tra centroidi
        ref_centroid = self.reference_embeddings.mean(axis=0)
        prod_centroid = prod_embeddings.mean(axis=0)
        centroid_distance = 1 - np.dot(ref_centroid, prod_centroid) / (
            np.linalg.norm(ref_centroid) * np.linalg.norm(prod_centroid)
        )

        # Metodo 3: PSI (Population Stability Index)
        psi = self._compute_psi(
            self.reference_embeddings[:, :10],  # prime 10 dim per PSI
            prod_embeddings[:, :10]
        )

        drift_detected = (avg_ks > self.ks_threshold or
                         centroid_distance > 0.05)

        return {
            "drift_detected": drift_detected,
            "avg_ks_statistic": float(avg_ks),
            "max_ks_statistic": float(max_ks),
            "centroid_cosine_distance": float(centroid_distance),
            "psi": float(psi),
            "n_production": len(production_texts),
            "alert_level": "HIGH" if avg_ks > self.ks_threshold * 2
                          else "MEDIUM" if drift_detected
                          else "LOW"
        }

    def _compute_psi(self, reference: np.ndarray, production: np.ndarray,
                     n_bins: int = 10) -> float:
        """Population Stability Index: misura lo shift della distribuzione."""
        psi_values = []
        for dim in range(reference.shape[1]):
            ref = reference[:, dim]
            prod = production[:, dim]
            bins = np.percentile(ref, np.linspace(0, 100, n_bins + 1))
            bins[0] -= 0.001
            bins[-1] += 0.001

            ref_counts, _ = np.histogram(ref, bins=bins)
            prod_counts, _ = np.histogram(prod, bins=bins)

            ref_pct = (ref_counts / ref_counts.sum()) + 1e-10
            prod_pct = (prod_counts / prod_counts.sum()) + 1e-10

            psi = np.sum((prod_pct - ref_pct) * np.log(prod_pct / ref_pct))
            psi_values.append(psi)

        return float(np.mean(psi_values))

4. Valori proxy: Monitor fără etichete

În producție, adesea nu avem etichetele reale pentru a calcula acuratețea. Să folosim valorile proxy care se corelează cu calitatea modelului.

import numpy as np
from collections import defaultdict
from datetime import datetime, timedelta
import pandas as pd

class NLPProxyMetricsMonitor:
    """
    Monitora metriche proxy per modelli NLP senza label.
    """

    def __init__(self, window_hours: int = 24):
        self.window_hours = window_hours
        self.predictions = []

    def add_prediction(self, prediction: dict):
        """Aggiunge una predizione al log."""
        prediction['timestamp'] = datetime.utcnow()
        self.predictions.append(prediction)

    def compute_proxy_metrics(self) -> dict:
        """Calcola metriche proxy dalla finestra temporale corrente."""
        cutoff = datetime.utcnow() - timedelta(hours=self.window_hours)
        recent = [p for p in self.predictions if p['timestamp'] > cutoff]

        if not recent:
            return {"error": "Nessuna predizione nella finestra temporale"}

        confidences = [p['confidence'] for p in recent]
        latencies = [p['latency_ms'] for p in recent]
        labels = [p['predicted_label'] for p in recent]

        # 1. Confidence distribution (bassa confidenza = modello incerto)
        low_conf_pct = sum(1 for c in confidences if c < 0.7) / len(confidences)
        avg_confidence = np.mean(confidences)
        confidence_entropy = -np.sum(
            [(c * np.log(c) + (1-c) * np.log(1-c + 1e-10)) for c in confidences]
        ) / len(confidences)

        # 2. Label distribution (drift nelle predizioni)
        label_counts = defaultdict(int)
        for l in labels:
            label_counts[l] += 1
        label_distribution = {k: v/len(labels) for k, v in label_counts.items()}

        # 3. Latency percentiles
        p50 = np.percentile(latencies, 50)
        p95 = np.percentile(latencies, 95)
        p99 = np.percentile(latencies, 99)

        # 4. Text length statistics
        lengths = [p.get('input_length_chars', 0) for p in recent]

        # 5. Refusal rate (se il modello ritorna "UNCERTAIN")
        uncertain_pct = sum(1 for l in labels if l == 'UNCERTAIN') / len(labels)

        return {
            "window_hours": self.window_hours,
            "n_predictions": len(recent),
            "avg_confidence": round(avg_confidence, 4),
            "low_confidence_pct": round(low_conf_pct, 4),
            "confidence_entropy": round(float(confidence_entropy), 4),
            "label_distribution": label_distribution,
            "latency_p50_ms": round(p50, 1),
            "latency_p95_ms": round(p95, 1),
            "latency_p99_ms": round(p99, 1),
            "avg_input_length": round(np.mean(lengths), 1),
            "uncertain_pct": round(uncertain_pct, 4)
        }

    def check_alerts(self, thresholds: dict) -> list:
        """Verifica se le metriche proxy superano le soglie di alert."""
        metrics = self.compute_proxy_metrics()
        alerts = []

        checks = {
            "avg_confidence": ("<", thresholds.get("min_confidence", 0.75)),
            "low_confidence_pct": (">", thresholds.get("max_low_conf_pct", 0.20)),
            "latency_p95_ms": (">", thresholds.get("max_p95_latency_ms", 500)),
            "uncertain_pct": (">", thresholds.get("max_uncertain_pct", 0.10)),
        }

        for metric_name, (op, threshold) in checks.items():
            value = metrics.get(metric_name)
            if value is None:
                continue
            triggered = (value < threshold if op == "<" else value > threshold)
            if triggered:
                alerts.append({
                    "metric": metric_name,
                    "value": value,
                    "threshold": threshold,
                    "severity": "HIGH" if abs(value - threshold) / threshold > 0.5 else "MEDIUM"
                })

        return alerts

5. Conducta de recalificare automată

import subprocess
from pathlib import Path
import json
from datetime import datetime

class AutoRetrainingPipeline:
    """
    Pipeline di retraining automatico triggered dal drift detection.
    """

    def __init__(self,
                 drift_detector: EmbeddingDriftDetector,
                 proxy_monitor: NLPProxyMetricsMonitor,
                 base_model_path: str,
                 data_path: str,
                 output_path: str):
        self.drift_detector = drift_detector
        self.proxy_monitor = proxy_monitor
        self.base_model_path = base_model_path
        self.data_path = data_path
        self.output_path = output_path
        self.retraining_history = []

    def should_retrain(self,
                      production_texts: list,
                      drift_threshold: float = 0.1,
                      confidence_threshold: float = 0.75) -> dict:
        """
        Determina se e necessario il retraining.
        Ritorna {should_retrain: bool, reason: str, severity: str}
        """
        # Check 1: Embedding drift
        drift_report = self.drift_detector.detect_drift(production_texts)
        if drift_report['drift_detected']:
            return {
                "should_retrain": True,
                "reason": f"Embedding drift rilevato: KS={drift_report['avg_ks_statistic']:.4f}",
                "severity": drift_report['alert_level'],
                "drift_report": drift_report
            }

        # Check 2: Proxy metrics
        metrics = self.proxy_monitor.compute_proxy_metrics()
        alerts = self.proxy_monitor.check_alerts({
            "min_confidence": confidence_threshold,
            "max_low_conf_pct": 0.25
        })

        if any(a['severity'] == 'HIGH' for a in alerts):
            return {
                "should_retrain": True,
                "reason": f"Metriche proxy critiche: {alerts}",
                "severity": "HIGH",
                "alerts": alerts
            }

        return {
            "should_retrain": False,
            "reason": "Tutte le metriche nella norma",
            "severity": "LOW"
        }

    def trigger_retraining(self, trigger_reason: str, new_data_path: str):
        """Avvia il retraining con i nuovi dati."""
        timestamp = datetime.utcnow().strftime("%Y%m%d_%H%M%S")
        new_model_path = f"{self.output_path}/model_v{timestamp}"

        print(f"Avvio retraining: {trigger_reason}")
        print(f"Nuovo modello: {new_model_path}")

        # Log del retraining
        self.retraining_history.append({
            "timestamp": timestamp,
            "trigger_reason": trigger_reason,
            "base_model": self.base_model_path,
            "new_data": new_data_path,
            "output_model": new_model_path,
            "status": "started"
        })

        # In produzione: trigghera una pipeline CI/CD (Airflow, GitHub Actions, Kubeflow)
        # Esempio con subprocess:
        # subprocess.Popen([
        #     "python", "train.py",
        #     "--base-model", self.base_model_path,
        #     "--train-data", new_data_path,
        #     "--output", new_model_path,
        # ])

        return {
            "retraining_id": timestamp,
            "new_model_path": new_model_path,
            "status": "triggered"
        }

6. Testare A/B pentru noile versiuni de model

import random
from typing import Callable

class ABTestingRouter:
    """
    Router per A/B testing tra versioni del modello.
    Splitta il traffico tra il modello corrente (A) e il nuovo (B).
    """

    def __init__(self,
                 model_a: Callable,
                 model_b: Callable,
                 traffic_split_b: float = 0.1,
                 experiment_id: str = "exp_001"):
        self.model_a = model_a
        self.model_b = model_b
        self.traffic_split_b = traffic_split_b
        self.experiment_id = experiment_id
        self.results = {"a": [], "b": []}

    def predict(self, text: str, user_id: str = None) -> dict:
        """Instrada la richiesta al modello A o B in base al traffic split."""
        # Instradamento deterministico basato su user_id (per coerenza)
        if user_id:
            use_b = int(hashlib.md5(user_id.encode()).hexdigest(), 16) % 100 < (self.traffic_split_b * 100)
        else:
            use_b = random.random() < self.traffic_split_b

        model_variant = "b" if use_b else "a"
        model_fn = self.model_b if use_b else self.model_a

        result = model_fn(text)
        result["model_variant"] = model_variant
        result["experiment_id"] = self.experiment_id

        self.results[model_variant].append({
            "confidence": result.get("confidence", 0),
            "latency_ms": result.get("latency_ms", 0),
        })

        return result

    def get_experiment_stats(self) -> dict:
        """Calcola statistiche dell'esperimento A/B."""
        stats = {}
        for variant in ["a", "b"]:
            if self.results[variant]:
                confs = [r["confidence"] for r in self.results[variant]]
                lats = [r["latency_ms"] for r in self.results[variant]]
                stats[variant] = {
                    "n_requests": len(self.results[variant]),
                    "avg_confidence": round(np.mean(confs), 4),
                    "avg_latency_ms": round(np.mean(lats), 1),
                }
        return {"experiment_id": self.experiment_id, "variants": stats}

7. Tabloul de bord cu Prometheus și Grafana

# monitoring_api.py
from fastapi import FastAPI
from prometheus_client import Counter, Histogram, Gauge, generate_latest, CONTENT_TYPE_LATEST
from starlette.responses import Response
import time

app = FastAPI()

# Metriche Prometheus per modelli NLP
PREDICTIONS_TOTAL = Counter(
    "nlp_predictions_total",
    "Numero totale di predizioni NLP",
    ["model_version", "predicted_label"]
)

CONFIDENCE_HISTOGRAM = Histogram(
    "nlp_prediction_confidence",
    "Distribuzione del confidence score",
    ["model_version"],
    buckets=[0.5, 0.6, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, 0.99, 1.0]
)

LATENCY_HISTOGRAM = Histogram(
    "nlp_inference_latency_seconds",
    "Latenza dell'inferenza NLP",
    ["model_version"],
    buckets=[0.01, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0, 5.0]
)

DRIFT_SCORE = Gauge(
    "nlp_embedding_drift_score",
    "Score del drift degli embedding (0=no drift, 1=drift massimo)",
    ["model_version"]
)

INPUT_LENGTH_HISTOGRAM = Histogram(
    "nlp_input_length_chars",
    "Lunghezza dell'input in caratteri",
    ["model_version"],
    buckets=[50, 100, 200, 500, 1000, 2000, 5000]
)

MODEL_VERSION = "v2.1.0"

@app.post("/predict")
def predict_with_monitoring(request: dict):
    text = request["text"]
    start = time.time()

    # ... Inferenza ...
    result = {"label": "POSITIVE", "score": 0.92}

    latency = time.time() - start

    # Aggiorna metriche Prometheus
    PREDICTIONS_TOTAL.labels(
        model_version=MODEL_VERSION,
        predicted_label=result["label"]
    ).inc()

    CONFIDENCE_HISTOGRAM.labels(model_version=MODEL_VERSION).observe(result["score"])
    LATENCY_HISTOGRAM.labels(model_version=MODEL_VERSION).observe(latency)
    INPUT_LENGTH_HISTOGRAM.labels(model_version=MODEL_VERSION).observe(len(text))

    return {**result, "latency_ms": latency * 1000}

@app.get("/metrics")
def metrics():
    """Endpoint Prometheus per il scraping delle metriche."""
    return Response(generate_latest(), media_type=CONTENT_TYPE_LATEST)

# docker-compose.yml per Prometheus + Grafana:
# services:
#   prometheus:
#     image: prom/prometheus
#     volumes:
#       - ./prometheus.yml:/etc/prometheus/prometheus.yml
#   grafana:
#     image: grafana/grafana
#     ports:
#       - "3000:3000"

8. Implementarea în umbră și lansarea treptată

Înainte de a expune un nou model la trafic real, desfășurare în umbră vă permite să validați latența și comportamentul fără niciun risc pentru utilizatori. Modelul umbră primește aceleași solicitări ca și modelul de producție, dar proprii predicțiile sunt eliminate - sunt folosite doar pentru monitorizare.

import asyncio
import time
from typing import Callable, Dict, Any

class ShadowDeploymentManager:
    """
    Gestisce il shadow deployment di un nuovo modello NLP.
    Il modello shadow riceve tutto il traffico ma non risponde agli utenti.
    """

    def __init__(self,
                 production_model: Callable,
                 shadow_model: Callable,
                 shadow_name: str = "shadow_v2"):
        self.production_model = production_model
        self.shadow_model = shadow_model
        self.shadow_name = shadow_name
        self.comparison_log: list = []

    def predict(self, text: str, user_id: str = None) -> Dict[str, Any]:
        """
        Esegue la predizione in produzione e in background quella shadow.
        Restituisce solo il risultato del modello di produzione.
        """
        # Predizione produzione (sincrona)
        prod_start = time.time()
        prod_result = self.production_model(text)
        prod_latency = (time.time() - prod_start) * 1000

        # Predizione shadow (asincrona, non blocca la risposta)
        shadow_start = time.time()
        try:
            shadow_result = self.shadow_model(text)
            shadow_latency = (time.time() - shadow_start) * 1000
            shadow_error = None
        except Exception as e:
            shadow_result = None
            shadow_latency = None
            shadow_error = str(e)

        # Log del confronto
        self.comparison_log.append({
            "text_hash": hash(text),
            "prod_label": prod_result.get("label"),
            "prod_confidence": prod_result.get("confidence"),
            "prod_latency_ms": prod_latency,
            "shadow_label": shadow_result.get("label") if shadow_result else None,
            "shadow_confidence": shadow_result.get("confidence") if shadow_result else None,
            "shadow_latency_ms": shadow_latency,
            "shadow_error": shadow_error,
            "agreement": prod_result.get("label") == (shadow_result or {}).get("label")
        })

        # Restituisce SOLO il risultato del modello di produzione
        return prod_result

    def get_shadow_stats(self) -> Dict[str, Any]:
        """Calcola statistiche di confronto tra produzione e shadow."""
        if not self.comparison_log:
            return {"error": "Nessun dato di confronto disponibile"}

        agreement_rate = sum(1 for r in self.comparison_log if r["agreement"]) / len(self.comparison_log)
        prod_latencies = [r["prod_latency_ms"] for r in self.comparison_log if r["prod_latency_ms"]]
        shadow_latencies = [r["shadow_latency_ms"] for r in self.comparison_log if r["shadow_latency_ms"]]
        error_rate = sum(1 for r in self.comparison_log if r["shadow_error"]) / len(self.comparison_log)

        import numpy as np
        return {
            "n_requests": len(self.comparison_log),
            "agreement_rate": round(agreement_rate, 4),
            "prod_p95_latency_ms": round(np.percentile(prod_latencies, 95), 1) if prod_latencies else None,
            "shadow_p95_latency_ms": round(np.percentile(shadow_latencies, 95), 1) if shadow_latencies else None,
            "shadow_error_rate": round(error_rate, 4),
            "ready_for_promotion": agreement_rate >= 0.95 and error_rate < 0.01
        }


# Strategia di rollout graduale: 1% → 10% → 50% → 100%
ROLLOUT_STAGES = [
    {"traffic_pct": 0.01, "min_requests": 500,  "min_agreement": 0.95},
    {"traffic_pct": 0.10, "min_requests": 2000, "min_agreement": 0.96},
    {"traffic_pct": 0.50, "min_requests": 5000, "min_agreement": 0.97},
    {"traffic_pct": 1.00, "min_requests": None, "min_agreement": None},  # full rollout
]

9. Anti-modele comune în monitorizarea NLP

Anti-modele de evitat

Monitorizați doar latența: latența și o metrică a infrastructurii, nu calitatea modelului. Un model rapid, dar greșit și mai rău decât unul corect lent.
Fără distribuție de referință: detectarea derivei este lipsită de sens fără o distribuție de referință solidă calculată pe date de formare/validare.
Alertă oboseală: Praguri prea sensibile inundă echipa de gardă cu rezultate false pozitive. Începeți cu praguri conservatoare și calibrați pe baza modelelor observate.
Deciziile pe un singur semnal: Nu declanșați niciodată recalificarea bazată pe pe un singur indicator. Necesită cel puțin două semnale independente, concordante.
Ignorați calitatea datelor din amonte: Urmăriți modelul fără monitorizarea conductei de date și incompletă. Schemă validă și actualitatea datelor de intrare.
Recalificare fără validare offline: Un model retras automat trebuie să treacă un set de testare offline înainte de a fi implementat, chiar dacă declanșarea a fost automată.

10. Lista completă de verificare pentru monitorizarea NLP

Lista de verificare a monitorizării NLP în producție

Înregistrare: înregistrați fiecare predicție cu text (sau hash), încredere, latență, versiunea modelului și marcajul de timp în format JSONL
Detectarea derivei: Verificați săptămânal derivea de încorporare pe ferestre de 1.000 de mostre; alertă imediată dacă KS > 0,15 sau PSI > 0,2
Valori proxy: monitorizați distribuția încrederii, distribuția etichetelor și latență în timp real prin Prometheus
Colecția Ground Truth: colectați etichete reale prin feedbackul utilizatorului, echipa de adnotări sau eșantionare aleatorie (1-5% din trafic)
Trigger de reantrenare: Definiți praguri clare pentru reinstruire automată (de exemplu, scor de deriva > 0,2 sau precizie estimată < 0,85); cere 2+ semnale concordante
Desfăşurare în umbră: Înainte de testarea A/B, validați noul model în modul umbră timp de cel puțin 24 de ore
Testare A/B: validează fiecare nouă versiune a modelului cu 10% de trafic timp de cel puțin 48 de ore înainte de lansarea completă
Alertarea: configurați notificări (Slack, PagerDuty) pentru alerte de mare severitate cu link-uri către runbook-uri de răspuns
Păstrarea datelor: Păstrați jurnalele cel puțin 90 de zile pentru analiza istorică
GDPR: anonimizează sau hash textele utilizatorilor în jurnalele de producție; Nu stocați niciodată PII fără consimțământul explicit și criptare

Concluzii: Sfârșitul seriei

Cu acest articol încheiem seria NLP modern: de la BERT la LLM. Am fost într-o călătorie completă: de la fundamentele tokenizării și înglobărilor, la arhitectura BERT, de la analiza sentimentelor pentru italiană până la reglarea fină a LLM-urilor locale, de la asemănarea semantică la monitorizarea în producţie.

Rezumatul seriei

#	Articol	Concepte cheie
1	Fundamentele NLP	Tokenizare, Word2Vec, GloVe, pipeline
2	BERT și Transformers	Arhitectură, MLM, NSP, reglaj fin
3	Analiza sentimentelor	VADER, BERT, producție, FastAPI
4	NLP italian	simt-o, Alberto, spaCy, dialecte
5	Recunoașterea entității numite	Format BIO, spaCy, BERT NER, seqeval
6	Clasificarea textului	Multi-etichetă, zero-shot, SetFit
7	HuggingFace Transformers	AutoClass, Trainer, PEFT, Accelerate
8	Reglaj local	LoRA, QLoRA, DAPT, uitare catastrofală
9	Similaritate semantică	SBERT, FAISS, bi-encoder, cross-encoder
10	Monitorizare NLP	Detectarea derivă, valori proxy, reinstruire

Serii similare de explorat

AI Engineering / RAG: Construiți sisteme RAG complete cu încorporare și tehnici de căutare semantică din această serie
Învățare profundă avansată: aflați mai multe despre cuantizare, tăiere și tehnici de optimizare pentru modele mari
MLOps: automatizați monitorizarea și recalificarea cu MLflow, Conducte DVC și CI/CD pentru modelele ML
Viziune pe computer: multe dintre tehnicile din această serie (Arhitecturi asemănătoare BERT, ViT, reglaj fin) se aplică și CV-ului