Bună! Sunt

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

Contactează-mă

Despre Mine

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

Competențele Mele

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

Automatizarea Proceselor

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

Sisteme Personalizate

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

Misiunea Mea

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

Democratizarea Tehnologiei

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

Unirea IT și Economiei

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

Crearea de Soluții Personalizate

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

Transformă-ți Afacerea cu Tehnologia

Che tu gestisca un negozio, uno studio professionale o un'azienda, posso aiutarti a sfruttare le potenzialità dell'informatica per lavorare meglio, più velocemente e in modo più intelligente.

Hai să Vorbim →

Unisciti alla Community

Entra nella community di sviluppatori dove discutiamo di software, AI, architettura e DevOps. Condividi idee, fai domande e cresci insieme a noi.

Canale

FC Dev Blog

Ricevi notifiche su nuovi articoli, serie complete, tips settimanali e tool in evidenza. Contenuti bilingui IT/EN direttamente nel tuo Telegram.

Nuovi articoli appena pubblicati
Tips e code snippets settimanali
Sondaggi sugli argomenti futuri

Iscriviti al Canale

Gruppo

FC Dev Community

Una community bilingue IT/EN per sviluppatori. Discussioni, Q&A, aiuto reciproco e networking con altri professionisti del settore.

Discussioni su articoli e tecnologie
Help coding e code review
Opportunità di lavoro e collaborazione

Unisciti al Gruppo

Topic di Discussione

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

Linguaggi & Tecnologie

Java

Python

JavaScript

Angular

React

TypeScript

SQL

PHP

CSS/SCSS

Node.js

Docker

Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

Contactează-mă

Ai un proiect în minte? Hai să vorbim! Completează formularul și îți voi răspunde curând.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

Baza de date vectorială: selecție și optimizare pentru inginerie AI

Când construiți o conductă RAG în producție, alegerea bazei de date vectoriale nu este un detaliu implementare: este o decizie arhitecturală care influențează latența, costurile de operare, acuratețea retragerii și scalabilitatea sistemului. În 2025, piața bazelor de date vectoriale va valora mai mult 2,65 miliarde de dolari iar numărul de soluții disponibile a crescut drastic, făcând selecția din ce în ce mai complexă.

Acest articol nu este o prezentare generală de marketing a caracteristicilor comerciale. Este o scufundare tehnică profundă cum funcționează intern bazele de date vectoriale, ce algoritmi de indexare folosesc, modul în care sunt configurate și optimizate pentru sarcinile de lucru reale. Vom analiza Qdrant, Pinecone, Milvus și Weaviate comparându-le pe dimensiuni concrete: arhitectura HNSW, strategii de cuantizare, căutare filtrată, DiskANN vs în memorie și reglarea parametrilor pentru a atinge ținta reamintire/latență definită de aplicația dvs.

Dacă construiți un sistem RAG care trebuie să gestioneze milioane de documente cu o latență sub 50 ms și amintiți-vă peste 95% sau dacă optimizați un sistem existent care consumă prea multă memorie, Acest articol vă oferă instrumentele conceptuale și practice pentru a lua decizii informate.

Ce vei învăța

Arhitectura internă a bazelor de date vectoriale: cum funcționează HNSW la nivel algoritmic
Comparație IVF vs HNSW vs DiskANN: când să folosiți care și de ce
Cuantificare scalară, de produs și binară: compromis memorie/acuratețe
Căutare vectorială filtrată: pre-filtrare, post-filtrare și problema filtrelor înguste
Configurație practică a Qdrant, Milvus și Pinecone cu exemple de cod
Benchmarking și tuning în producție: cum să măsurați și să îmbunătățiți QPS și rechemare

Arhitectură internă: cum funcționează o bază de date vectorială

O bază de date vectorială diferă de o bază de date relațională nu numai prin datele pe care le gestionează, dar pentru tipul de operație fundamentală pe care trebuie să o optimizeze: în loc de căutări exacte pe taste discrete, execută Căutare aproximativă a celui mai apropiat vecin (ANN). pe spații cu dimensiuni mari, de obicei 768-4096 dimensiuni pentru înglobările LLM moderne.

Căutarea exactă pentru k vecini cei mai apropiați (kNN) are complexitatea O(n*d) unde n este numărul de vectori şi d dimensiunile. Cu 10 milioane de vectori în 1536 de dimensiuni (dimensiune standard OpenAI ada-002), o interogare exactă ar necesita ~15 miliarde de operații în virgulă mobilă: complet inacceptabil pentru un sistem în timp real. Toate bazele de date vectoriale moderne folosesc prin urmare, algoritmi ANN care sacrifică unele reamintiri pentru a câștiga ordine de mărime în viteză.

Stiva internă a unei baze de date vectoriale este împărțită în mai multe niveluri:

Straturi de depozitare: gestionarea vectorilor comprimați pe disc sau în memorie, cu suport mmap pentru acces eficient
Straturi index: Structura de date ANN (HNSW, IVF, DiskANN) pentru a naviga în spațiul vectorial
Stratul de sarcină utilă/metadate: atribute scalare asociate vectorilor pentru filtrare
Planificator de interogări: decide strategia optimă combinând căutarea vectorială și filtrarea sarcinii utile
Strat de replicare/sharding: pentru sisteme distribuite precum Milvus sau Pinecone

HNSW: Algorithmic Deep Dive

Lumea mică navigabilă ierarhică (HNSW) este algoritmul ANN dominant în 2025, utilizat implicit de Qdrant, Weaviate este disponibil în Milvus. Înțelegeți cum funcționează intern este esențial pentru a-l configura corect.

HNSW construiește un grafic ierarhic cu mai multe niveluri. La cel mai înalt nivel sunt puține noduri puternic conectate între ele („buțurile”), în timp ce coborî nivelul densitatea crește la nivelul 0 care contine toti vectorii. La căutare, algoritmul începe de sus și coboară prin niveluri, rafinând progresiv candidatura celor mai asemănători vecini. Această abordare este inspirată de fenomenul „lumii mici” al graficelor sociale: din orice nod, puteți ajunge la oricare altul în câteva sărituri datorită conexiunilor la distanță lungă.

Cei trei parametri fundamentali ai HNSW sunt:

M (implicit 16): numărul maxim de muchii bidirecționale pe nod. Valori tipice: 8-64. Creșterea M îmbunătățește reamintirea, dar crește memoria și timpul de construcție. Pentru seturile de date cu dimensiuni mari (1536+), M=32-64 dă rezultate bune.
efConstruction (implicit 100-200): dimensiunea listei de candidați în timpul construcției indexului. Nu afectează dimensiunea finală a indexului, dar determină calitatea conexiunilor. Valori mai mari = indice mai bun, dar construcție mai lentă. Gama recomandată: 200-400 pentru calitate înaltă.
ef (sau efSearch, configurabil la runtime): dimensiunea listei de candidați în timpul interogării. Trebuie să fie >= k (numărul de rezultate solicitate). Creșterea ef se îmbunătățește reamintire, dar crește latența. De obicei 50-500.

Compensația fundamentală: M și efConstruction determina calitatea indicelui (operare unică costisitoare), în timp ce ef echilibru amintirea vs latența la momentul interogării (poate fi schimbat dinamic).

# Configurazione HNSW in Qdrant - esempio pratico con tradeoff espliciti

from qdrant_client import QdrantClient
from qdrant_client.models import (
    VectorParams, Distance,
    HnswConfigDiff, OptimizersConfigDiff,
    CollectionConfig
)

client = QdrantClient(url="http://localhost:6333")

# --- Configurazione HIGH-RECALL per RAG critico ---
# Target: recall >= 0.98, latency accettabile fino a 50ms
# Costo: ~4x memoria rispetto a configurazione base
client.recreate_collection(
    collection_name="rag_high_recall",
    vectors_config=VectorParams(
        size=1536,          # OpenAI text-embedding-3-small
        distance=Distance.COSINE
    ),
    hnsw_config=HnswConfigDiff(
        m=64,               # Alta connettivita: migliore recall ma +memoria
        ef_construct=400,   # Build lento ma indice di alta qualità
        full_scan_threshold=10000,  # Sotto 10k vettori usa brute force
        on_disk=False       # In-memory per latenza minima
    ),
    optimizers_config=OptimizersConfigDiff(
        default_segment_number=4,
        indexing_threshold=20000
    )
)

# --- Configurazione BALANCED per produzione tipica ---
# Target: recall >= 0.95, latency < 20ms, memoria ottimizzata
client.recreate_collection(
    collection_name="rag_balanced",
    vectors_config=VectorParams(
        size=1536,
        distance=Distance.COSINE
    ),
    hnsw_config=HnswConfigDiff(
        m=32,               # Buon bilanciamento recall/memoria
        ef_construct=200,   # Build ragionevole
        full_scan_threshold=5000,
        on_disk=False
    )
)

# --- Configurazione LOW-LATENCY per real-time ---
# Target: latency < 5ms, recall accettabile >= 0.90
client.recreate_collection(
    collection_name="rag_fast",
    vectors_config=VectorParams(
        size=768,           # Embeddings compatti (all-MiniLM-L6-v2)
        distance=Distance.COSINE
    ),
    hnsw_config=HnswConfigDiff(
        m=16,               # Meno connessioni = query più veloci
        ef_construct=128,
        full_scan_threshold=1000,
        on_disk=False
    )
)

# Configurare ef a query time (più flessibile)
results = client.search(
    collection_name="rag_balanced",
    query_vector=query_embedding,
    limit=10,
    search_params={
        "hnsw_ef": 128,     # Aumenta recall senza rebuild indice
        "exact": False
    }
)

print(f"Trovati {len(results)} risultati")
for hit in results:
    print(f"Score: {hit.score:.4f} | ID: {hit.id}")

IVF vs HNSW vs DiskANN: Ce algoritm să alegi

HNSW nu este singurul algoritm de indexare disponibil. Alegerea depinde foarte mult de constrângerile de memorie, dimensiunea setului de date și modelul de actualizare.

FIV (index de fișier inversat)

FIV împarte spațiul vectorial în nlist clustering prin k-means. Când interogați, căutați numai nsondă clusterele cele mai apropiate de vectorul de interogare. Parametrii cheie sunt nlist (numărul grupului) e nprobe (câte clustere să inspecteze). Formula empirică recomandată: nlist = 4 * sqrt(n_vectors).

Pro FIV: Construire rapidă, memorie moderată, bună pentru seturi de date statice. Împotriva FIV: necesită re-clustering dacă datele se modifică foarte mult, reamintim mai mic decât HNSW pentru același buget de calcul, pornire la rece pentru colecții noi.

HNSW (Lumea mică ierarhică navigabilă)

După cum este descris mai sus, acesta construiește un grafic cu mai multe straturi. Este cel mai versatil algoritm și utilizat implicit în majoritatea bazelor de date vectoriale.

Pro HNSW: compromis excelent cu viteza de rechemare, suport nativ pentru actualizare incremental, parametri configurabili la momentul interogării. Contra HNSW: necesită ca întregul index să se potrivească în RAM, devine prohibitiv peste 50-100 de milioane de purtători pe hardware standard.

DiskANN

Dezvoltat de Microsoft Research, DiskANN este conceput pentru seturi de date care nu se potrivesc în RAM. Păstrează în memorie doar o structură grafică compactă (graf comprimat), în timp ce vectorii complete sunt pe SSD NVMe. Cu hardware PCIe Gen5, menține reamintirea >95% și latența de 10 ms pe miliarde de purtători, cu costul DRAM de 10-20 ori mai mic decât HNSW echivalent.

Pro DiskANN: scala la miliarde de operatori pe hardware de bază, cost funcționare redusă. Contra DiskANN: necesită SSD-uri NVMe rapide, latență mai mare decât HNSW în memorie, implementarea de bază este imuabilă (FreshDiskANN se ocupă de actualizări). Disponibil în Milvus, Azure PostgreSQL cu pgvector extins și în previzualizare pe alte sisteme.

Atenție la anti-modelul „HNSW pentru orice”.

Multe echipe configurează HNSW în memorie pentru seturi de date vectoriale de peste 50 de milioane, apoi se regăsesc cu instanțe RAM de 256 GB la costuri nesustenabile. Regula generală: dacă setul dvs. de date depășește 10-20 de milioane de purtători și nu aveți cerințe de latență ultra-scăzută (<5ms), evaluați serios DiskANN sau cuantizare agresivă înainte de a mări hardware-ul.

# Configurazione IVF_FLAT e HNSW in Milvus - confronto pratico

from pymilvus import (
    connections, Collection, CollectionSchema,
    FieldSchema, DataType, utility
)

connections.connect("default", host="localhost", port="19530")

# Schema comune per entrambi i test
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="category", dtype=DataType.VARCHAR, max_length=100),
    FieldSchema(name="timestamp", dtype=DataType.INT64),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1536)
]
schema = CollectionSchema(fields, description="RAG document collection")

# Crea collezione
collection = Collection("rag_docs", schema)

# --- Indice IVF_FLAT: per dataset statici o quasi-statici ---
# nlist = 4 * sqrt(n_vectors) regola empirica
# Per 1M vettori: nlist = 4000
ivf_index_params = {
    "metric_type": "COSINE",
    "index_type": "IVF_FLAT",
    "params": {
        "nlist": 4096   # Numero di cluster Voronoi
    }
}

# --- Indice HNSW: per dataset con update frequenti ---
hnsw_index_params = {
    "metric_type": "COSINE",
    "index_type": "HNSW",
    "params": {
        "M": 32,
        "efConstruction": 256
    }
}

# --- Indice DiskANN: per dataset >50M vettori ---
diskann_index_params = {
    "metric_type": "L2",
    "index_type": "DISKANN",
    "params": {
        "search_list": 100  # Candidati durante la ricerca
    }
}

# Build dell'indice prescelto
collection.create_index(
    field_name="embedding",
    index_params=hnsw_index_params  # Scegliere in base al caso d'uso
)
collection.load()

# Query con parametri specifici per HNSW
search_params_hnsw = {
    "metric_type": "COSINE",
    "params": {
        "ef": 256  # Aumentare per più recall, diminuire per più velocità
    }
}

# Query con parametri per IVF
search_params_ivf = {
    "metric_type": "COSINE",
    "params": {
        "nprobe": 64  # nprobe/nlist = fraction di cluster ispezionati
    }                # 64/4096 = 1.5% - bilancio recall/speed
}

results = collection.search(
    data=[query_embedding],
    anns_field="embedding",
    param=search_params_hnsw,
    limit=10,
    output_fields=["content", "category", "timestamp"]
)

for hit in results[0]:
    print(f"Distance: {hit.distance:.4f} | Category: {hit.entity.get('category')}")

Cuantizare vectorială: comprimați fără a pierde amintirea

Cuantizarea este cea mai puternică tehnică pentru reducerea utilizării memoriei bazelor de date vectoriale, cu impact controlabil asupra calităţii cercetării. Un vector float32 cu 1536 dimensiuni ocupă 6144 de octeți (6KB). Cu cuantificare, îl putem reduce la 384 de octeți sau mai puțin.

Cuantificare scalară (SQ)

Mapează fiecare valoare float32 (4 octeți) la un int8 (1 octet), rezultând o compresie de 4x. Algoritmul analizează distribuția valorilor în fiecare dimensiune și determină un interval optim pentru cuantizare. Distanțele sunt calculate direct pe int8, mai eficient din punct de vedere computațional. Pierderea tipică de reamintire este de 1-3% în comparație cu float32.

Când să-l folosești: punct de plecare recomandat pentru orice implementare, Reducere de 4 ori cu impact minim asupra calității. Sprijinit de Qdrant, Milvus (IVF_SQ8), Weaviate (PQ cu fallback scalar).

Cuantificarea produsului (PQ)

Împarte vectorul în m subvectori și cuantifică fiecare într-o carte de coduri de 2^nbiți intrare. Compresie tipică: 16-64x. Cu PQ fiecare transportator este reprezentat ca o secvență de indici în cartea de coduri. Distantele aproximative acestea sunt calculate prin precalcularea tabelului de căutare (ADC - Asymmetric Distance Computation).

Compensații PQ: compresie agresivă (10-50MB în loc de 10GB) dar pierderi semnificative de reamintire (5-15%). Necesită instruire în cartea de coduri pe setul de date. Bun pentru seturi uriașe de date în care memoria este principala constrângere.

Cuantizare binară (BQ)

Riduce ogni dimensione a 1 bit: il valore più compresso possibile. Un vettore a 1536 dimensioni diventa 192 byte (32x compressione rispetto a float32). La distanza si calcola con Hamming distance (XOR + popcount), operazione estremamente veloce sulle CPU moderne. Qdrant riporta speedup fino a 40x sulle operazioni di distance calculation.

Tuttavia Binary Quantization funziona bene solo su embedding con proprietà specifiche: i valori devono essere distribuiti simmetricamente attorno a zero (proprietà soddisfatta da OpenAI ada-002, Cohere embed-v3, e-5 models). Per embedding con distribuzioni asimmetriche, il recall drop può essere severo (15-30%).

Qdrant ha introdotto nel 2025 anche quantizzazioni intermedie a 1.5-bit e 2-bit, offrendo un punto di equilibrio tra scalar (4x) e binary (32x).

# Configurazione quantizzazione in Qdrant - tutti i tipi

from qdrant_client import QdrantClient
from qdrant_client.models import (
    VectorParams, Distance,
    ScalarQuantizationConfig, ScalarType,
    ProductQuantizationConfig, CompressionRatio,
    BinaryQuantizationConfig,
    QuantizationConfig
)

client = QdrantClient(url="http://localhost:6333")

# --- 1. Scalar Quantization (SQ8) ---
# Compressione 4x, recall loss ~1-3%
# CONSIGLIATO: miglior punto di partenza
client.recreate_collection(
    collection_name="rag_sq8",
    vectors_config=VectorParams(
        size=1536,
        distance=Distance.COSINE
    ),
    quantization_config=ScalarQuantizationConfig(
        scalar=QuantizationConfig(
            type=ScalarType.INT8,
            quantile=0.99,      # Usa il 99° percentile per definire il range
            always_ram=True     # Tieni quantized vectors in RAM (+ velocità)
        )
    )
)

# --- 2. Product Quantization (PQ) ---
# Compressione 16-64x, recall loss 5-15%
# PER dataset enormi (>100M vettori) con vincoli di memoria severi
client.recreate_collection(
    collection_name="rag_pq",
    vectors_config=VectorParams(
        size=1536,
        distance=Distance.COSINE
    ),
    quantization_config=ProductQuantizationConfig(
        product=QuantizationConfig(
            compression=CompressionRatio.X16,  # 16x compressione
            always_ram=True
        )
    )
)

# --- 3. Binary Quantization (BQ) ---
# Compressione 32x, speedup 40x, recall loss variabile
# SOLO per embedding con distribuzione simmetrica (OpenAI, Cohere)
client.recreate_collection(
    collection_name="rag_binary",
    vectors_config=VectorParams(
        size=1536,
        distance=Distance.COSINE
    ),
    quantization_config=BinaryQuantizationConfig(
        binary=QuantizationConfig(
            always_ram=True
        )
    )
)

# Verifica dell'impatto sulla qualità a query time
# Con rescore=True, i candidati BQ vengono rirankinati con float32
def search_with_rescore(client, collection_name, query_vector, limit=10):
    """
    rescore=True: usa BQ per candidate generation, poi
    ricalcola distanze esatte con float32 sui top-k candidati.
    Bilancia la velocità di BQ con la precisione di float32.
    """
    return client.search(
        collection_name=collection_name,
        query_vector=query_vector,
        limit=limit,
        search_params={
            "quantization": {
                "ignore": False,    # Usa quantizzazione
                "rescore": True,    # Rescore finale con float32
                "oversampling": 3.0 # Preleva 3x candidati per il rescore
            }
        }
    )

# Benchmark comparativo: misura recall vs latency
import time
import numpy as np

def benchmark_collection(client, collection_name, test_queries, ground_truth, k=10):
    recalls = []
    latencies = []

    for query, gt in zip(test_queries, ground_truth):
        start = time.perf_counter()
        results = client.search(
            collection_name=collection_name,
            query_vector=query.tolist(),
            limit=k
        )
        elapsed_ms = (time.perf_counter() - start) * 1000
        latencies.append(elapsed_ms)

        # Calcola recall@k
        retrieved_ids = {hit.id for hit in results}
        true_ids = set(gt[:k])
        recall = len(retrieved_ids & true_ids) / k
        recalls.append(recall)

    return {
        "mean_recall": np.mean(recalls),
        "p95_latency_ms": np.percentile(latencies, 95),
        "p99_latency_ms": np.percentile(latencies, 99)
    }

# Confronto risultati tipici (su hardware commodity, 1M vettori 1536-dim)
# float32: recall=1.00, p95_latency=45ms, memory=6.1GB
# SQ8:     recall=0.98, p95_latency=18ms, memory=1.6GB  ← sweet spot
# PQ16:    recall=0.91, p95_latency=8ms,  memory=0.4GB
# Binary:  recall=0.93, p95_latency=3ms,  memory=0.2GB (con rescore)

Regola Pratica: Scegliere la Quantizzazione

Dataset <10M vettori, recall critico: float32 nativo (nessuna quantizzazione)
Dataset 10-100M vettori: Scalar Quantization INT8, sweet spot qualità/memoria
Dataset >100M vettori, memoria limitata: Product Quantization con rescore
Latency ultra-bassa con OpenAI/Cohere embeddings: Binary Quantization + rescore

Filtered Vector Search: Il Problema dei Filtri Stretti

Nella pratica, la maggior parte delle query RAG non è una ricerca vettoriale pura: si vuole trovare i documenti semanticamente simili e appartenenti a un certo utente, data range, categoria o tenant. Il filtered vector search è uno dei problemi algoritmicamente più difficili nei vector database.

Il problema fondamentale: con filtri molto selettivi (es. "solo documenti dell'ultimo mese" che matchano 0.1% del dataset), i k vicini più prossimi nello spazio vettoriale potrebbero essere tutti esclusi dal filtro, forzando la ricerca a esplorare una porzione molto ampia del grafo HNSW prima di trovare k risultati validi. Questo può aumentare la latency di 10-100x rispetto a una ricerca non filtrata.

Strategie di Filtering

Post-filtering: esegui la ricerca ANN normalmente, poi filtra i risultati. Funziona se il filtro è poco selettivo (esclude meno del 50% dei risultati). Problema: se il filtro esclude il 99% dei vettori, devi recuperare 100x più candidati.

Pre-filtering: prima identifica i punti che soddisfano il filtro, poi esegui la ricerca ANN solo su quell'insieme. Richiede un indice scalare efficiente sul campo filtrato. Funziona bene con filtri ad alta selettivita ma richiede payload indexing.

Filterable HNSW (Qdrant): Qdrant implementa un'estensione sofisticata di HNSW che aggiunge edges aggiuntivi al grafo basati sui valori del payload indicizzato. Il query planner stima la cardinalita del filtro e sceglie dinamicamente la strategia: se il filtro è molto selettivo usa l'indice payload, altrimenti usa il filterable HNSW.

Per casi con combinazioni di filtri multipli e stretti, Qdrant raccomanda l'uso dell'algoritmo ACORN (Adaptive Component-Overlap Routing Network), che gestisce meglio i grafi disconnessi causati da filtri aggressivi.

# Filtered vector search in Qdrant - best practices

from qdrant_client import QdrantClient
from qdrant_client.models import (
    Filter, FieldCondition, MatchValue, Range,
    MatchAny, SearchRequest
)
import datetime

client = QdrantClient(url="http://localhost:6333")

# STEP 1: Crea indici payload per i campi filtrati frequentemente
# CRITICO: senza payload index, il filtering scansiona tutti i punti

# Indice per filtri di uguaglianza (tenant_id, category)
client.create_payload_index(
    collection_name="rag_docs",
    field_name="tenant_id",
    field_schema="keyword"  # Per valori categorici
)

client.create_payload_index(
    collection_name="rag_docs",
    field_name="category",
    field_schema="keyword"
)

# Indice per filtri di range (timestamp, score)
client.create_payload_index(
    collection_name="rag_docs",
    field_name="created_at",
    field_schema="integer"  # UNIX timestamp per range queries
)

client.create_payload_index(
    collection_name="rag_docs",
    field_name="relevance_score",
    field_schema="float"
)

# STEP 2: Query con filtri - da semplice a complesso

# Filtro singolo (alta cardinalita): efficiente con keyword index
def search_by_tenant(query_vector, tenant_id, limit=10):
    return client.search(
        collection_name="rag_docs",
        query_vector=query_vector,
        query_filter=Filter(
            must=[
                FieldCondition(
                    key="tenant_id",
                    match=MatchValue(value=tenant_id)
                )
            ]
        ),
        limit=limit
    )

# Filtro combinato (filtro stretto): usa HNSW filterable
def search_recent_high_quality(query_vector, tenant_id, days_back=7, limit=10):
    cutoff = int((datetime.datetime.now() -
                  datetime.timedelta(days=days_back)).timestamp())

    return client.search(
        collection_name="rag_docs",
        query_vector=query_vector,
        query_filter=Filter(
            must=[
                FieldCondition(
                    key="tenant_id",
                    match=MatchValue(value=tenant_id)
                ),
                FieldCondition(
                    key="created_at",
                    range=Range(gte=cutoff)     # >= cutoff timestamp
                ),
                FieldCondition(
                    key="relevance_score",
                    range=Range(gte=0.7)        # Solo documenti di qualità
                )
            ]
        ),
        limit=limit,
        search_params={
            "hnsw_ef": 256,   # Aumenta ef per filtri stretti
            "exact": False
        }
    )

# Filtro con OR (MatchAny): utile per multi-category search
def search_multi_category(query_vector, categories, limit=10):
    return client.search(
        collection_name="rag_docs",
        query_vector=query_vector,
        query_filter=Filter(
            must=[
                FieldCondition(
                    key="category",
                    match=MatchAny(any=categories)  # OR sui valori
                )
            ]
        ),
        limit=limit
    )

# STEP 3: Batch search per performance (evita N query singole)
def batch_search(query_vectors, tenant_id, limit=10):
    """
    Usa search_batch per ridurre overhead di N query indipendenti.
    Throughput tipico: 3-5x rispetto a query sequenziali.
    """
    requests = [
        SearchRequest(
            vector=qv,
            filter=Filter(
                must=[FieldCondition(
                    key="tenant_id",
                    match=MatchValue(value=tenant_id)
                )]
            ),
            limit=limit
        )
        for qv in query_vectors
    ]

    return client.search_batch(
        collection_name="rag_docs",
        requests=requests
    )

Confronto Database: Qdrant vs Pinecone vs Milvus vs Weaviate

Ogni database ha un profilo di forza diverso. Non esiste una scelta universalmente ottima: la decisione dipende da vincoli di deployment, team capability, e requisiti specifici.

Qdrant

Scritto in Rust, è il database con il miglior rapporto performance/complessità operativa nel 2025. Supporta filtering sofisticato con payload indexes e filterable HNSW, scalar/product/binary quantization, multi-vector per named vectors, sparse vectors per hybrid search nativo. Il deployment più semplice: single binary, Docker, o cloud managed. Ottimo per team che vogliono controllo senza overhead operativo massiccio.

Ideale per: RAG enterprise, multi-tenant systems, deployment on-premise, team con esperienza Python ma non infrastrutture Kubernetes complesse.

Pinecone

Fully managed, serverless, zero ops. Il prezzo è più alto delle alternative self-hosted ma elimina completamente il costo operativo di infrastruttura. Eccellente per team che preferiscono focus sul prodotto senza gestire cluster. Supporta serverless pods con autoscaling trasparente e multi-region replication. La latency è consistentemente bassa grazie all'infrastruttura ottimizzata.

Ideale per: startup early-stage, team piccoli, workload variabile, proof of concept che diventano produzione senza rework.

Milvus / Zilliz Cloud

Il sistema distribuito più maturo e feature-completo. Supporta tutti gli index types (HNSW, IVF, DiskANN, ScaNN, GPU-accelerated), sharding automatico su Kubernetes, separazione compute/storage. La versione cloud (Zilliz) vince i benchmark di throughput su dataset >100M vettori. Overhead operativo significativo su Kubernetes.

Ideale per: dataset >50M vettori, team con infrastruttura Kubernetes esistente, requisiti di throughput massimo, GPU acceleration.

Weaviate

Posizionato tra vector database puro e knowledge graph. Supporta moduli integrati per generazione automatica di embedding (text2vec-openai, text2vec-cohere), GraphQL query interface, e ibridazione con BM25 nativa. Richiede più memoria rispetto agli altri a parita di dataset. Ottimo per team che vogliono integrare retrieval e knowledge graph.

Ideale per: semantic search con knowledge graph, team che usano GraphQL, integrazione diretta con model providers senza gestire embedding pipeline.

Decision Matrix: Come Scegliere
Team piccolo, velocità di sviluppo: Pinecone (zero operațiuni) sau Qdrant (simplitate)
Set de date > 50 de milioane de vectori, debit mare: Milvus cu index DiskANN sau GPU
RAG multi-locatari cu filtre complexe: Qdrant (HNSW filtrabil)
Grafic de cunoștințe + căutare semantică: Weaviate
Deja pe PostgreSQL, volum moderat: pgvector (evită infrastructura suplimentară)
Căutare hibridă nativă fără costuri generale: Qdrant vectori rari sau Weaviate BM25

Pinecone: Configurare și Optimizare

Pinecone și-a simplificat și mai mult SDK-ul cu arhitectura serverless în 2024-2025. Nu mai configurați în mod explicit algoritmul de indexare: Pinecone îl gestionează intern alegerea indexului pe baza dimensiunii setului de date.

# Pinecone - setup e ottimizzazione con SDK v3+

from pinecone import Pinecone, ServerlessSpec, PodSpec
import os

pc = Pinecone(api_key=os.environ["PINECONE_API_KEY"])

# --- Serverless Index (consigliato per la maggior parte dei casi) ---
# Autoscaling trasparente, pay-per-query
pc.create_index(
    name="rag-serverless",
    dimension=1536,     # Deve matchare il modello di embedding
    metric="cosine",    # oppure "dotproduct" per modelli ottimizzati per IP
    spec=ServerlessSpec(
        cloud="aws",
        region="us-east-1"
    )
)

# --- Pod Index (per latency garantita e throughput alto) ---
# Scegliere il tipo di pod in base al profilo workload
pc.create_index(
    name="rag-pod-optimized",
    dimension=1536,
    metric="cosine",
    spec=PodSpec(
        environment="us-east1-gcp",
        pod_type="p2.x1",  # p1=storage, p2=speed, s1=storage-optimized
        pods=1,
        replicas=2,         # 2 replicas per HA
        shards=1
    )
)

index = pc.Index("rag-serverless")

# Upsert con metadata ricchi per filtering
def upsert_documents(documents, embeddings):
    vectors = [
        {
            "id": doc["id"],
            "values": emb.tolist(),
            "metadata": {
                "text": doc["text"][:1000],  # Pinecone limit: 40KB per vector
                "source": doc["source"],
                "tenant_id": doc["tenant_id"],
                "created_at": doc["created_at"],  # ISO string o epoch int
                "category": doc["category"],
                "language": doc.get("language", "it")
            }
        }
        for doc, emb in zip(documents, embeddings)
    ]

    # Batch upsert: max 100 vectors per request, max 2MB
    batch_size = 100
    for i in range(0, len(vectors), batch_size):
        batch = vectors[i:i + batch_size]
        index.upsert(vectors=batch)

# Query con metadata filtering
def query_pinecone(query_embedding, tenant_id, limit=10, category=None):
    filter_dict = {"tenant_id": {"$eq": tenant_id}}

    if category:
        filter_dict["category"] = {"$in": category if isinstance(category, list) else [category]}

    return index.query(
        vector=query_embedding.tolist(),
        top_k=limit,
        filter=filter_dict,
        include_metadata=True
    )

# Fetch statistiche indice per monitoring
stats = index.describe_index_stats()
print(f"Totale vettori: {stats['total_vector_count']}")
print(f"Dimensione: {stats['dimension']}")
print(f"Namespace breakdown: {stats.get('namespaces', {})}")

# Pinecone Namespaces: isolamento logico multi-tenant senza costi extra
# Inserimento in namespace specifico
index.upsert(
    vectors=[{"id": "doc1", "values": embedding}],
    namespace="tenant-acme-corp"
)

# Query nel namespace
index.query(
    vector=query_embedding,
    top_k=10,
    namespace="tenant-acme-corp"
)

Optimizarea memoriei și reglarea producției

O bază de date vectorială în producție necesită atenție la mai multe dimensiuni: nu doar reamintirea și latența, dar și utilizarea memoriei, debitul, comportamentul la sarcină, și costurile de exploatare pe termen lung.

Estimarea amprentei memoriei

Formula de bază pentru estimarea memoriei necesare (float32, fără cuantizare):

Vectori bruti: n_vectors * dim * 4 octeți
Graficul HNSW: n_vectors * M * 2 * 8 octeți (aproximativ, depinde de implementare)
Sarcină utilă/metadate: variabilă, de obicei 100-500 de octeți per vector
Suprafața sistemului: ~20-30% din total

Exemplu: 5 milioane de vectori la 1536 dim cu HNSW M=32: Vectori: 5M * 1536 * 4 = ~29GB. Grafic HNSW: 5M * 32 * 2 * 8 = ~2,5 GB. Total estimat cu supraîncărcare: ~38 GB RAM. Cu SQ8: ~11 GB. Cu binar: ~1,5 GB.

Ajustarea performanței Qdrant în producție

# Qdrant - ottimizzazioni avanzate per produzione

from qdrant_client import QdrantClient
from qdrant_client.models import (
    OptimizersConfigDiff, WalConfigDiff,
    HnswConfigDiff, QuantizationConfig,
    ScalarQuantizationConfig, ScalarType
)

client = QdrantClient(
    url="http://localhost:6333",
    # Connection pool per high-throughput
    timeout=30
)

# Configurazione ottimizers per bulk ingestion
# Durante l'ingestion massiva, disabilita temporaneamente il reindexing
client.update_collection(
    collection_name="rag_docs",
    optimizers_config=OptimizersConfigDiff(
        # Aumenta la soglia per ritardare il reindexing
        # durante bulk insert (es. 200k invece di default 20k)
        indexing_threshold=200000,
        # Numero di segmenti ottimali per la collection
        # più segmenti = parallelismo migliore in lettura
        default_segment_number=8,
        # Max dimensione segmento prima di merge
        max_segment_size=500000,
        # Delay prima di ottimizzare (evita ottimizzazioni inutili su dati transienti)
        flush_interval_sec=5,
    )
)

# Dopo il bulk insert, forza l'ottimizzazione
# e ripristina configurazione normale
client.update_collection(
    collection_name="rag_docs",
    optimizers_config=OptimizersConfigDiff(
        indexing_threshold=20000,   # Ripristina default
        default_segment_number=4
    )
)

# Monitoring della collection: verifica stato di ottimizzazione
collection_info = client.get_collection("rag_docs")
print(f"Stato: {collection_info.status}")
print(f"Vettori totali: {collection_info.vectors_count}")
print(f"Segmenti: {collection_info.segments_count}")
print(f"Dimensione disco: {collection_info.disk_data_size} bytes")
print(f"Dimensione RAM: {collection_info.ram_data_size} bytes")

# Check se l'indice è aggiornato (indexed_vectors_count == vectors_count)
if collection_info.indexed_vectors_count < collection_info.vectors_count:
    not_indexed = collection_info.vectors_count - collection_info.indexed_vectors_count
    print(f"ATTENZIONE: {not_indexed} vettori non ancora indicizzati (query meno efficienti)")

# Configurazione WAL per durability vs performance
# Per ambienti in cui un crash è accettabile (risincronizzazione possibile)
client.update_collection(
    collection_name="rag_docs",
    wal_config=WalConfigDiff(
        wal_capacity_mb=256,
        wal_segments_ahead=0  # 0 = massima velocità, meno durability
    )
)

# Snapshot per backup
snapshot_info = client.create_snapshot(collection_name="rag_docs")
print(f"Snapshot creato: {snapshot_info.name}")

# Scroll per esportare o processare tutti i vettori
# (evita di usare search per questo scopo)
def export_all_vectors(client, collection_name, batch_size=1000):
    offset = None
    all_points = []

    while True:
        batch, next_offset = client.scroll(
            collection_name=collection_name,
            offset=offset,
            limit=batch_size,
            with_vectors=True,
            with_payload=True
        )
        all_points.extend(batch)

        if next_offset is None:
            break
        offset = next_offset

    return all_points

Benchmarking și măsurarea retragerii

Nicio optimizare nu este valabilă fără măsurare riguroasă. Cadrul standard evaluarea bazelor de date vectoriale se bazează pe trei metrici fundamentale:

Recall@k: procentul de k adevărați cei mai apropiați vecini găsiți printre k rezultate întors. Este cea mai importantă măsură pentru calitate. Formula: |recuperat ∩ adevărat| /k
QPS (Interogări pe secundă): debitul sistemului sub sarcină. De obicei, este măsurată cu o țintă de rechemare fixă (de exemplu, „QPS @ recall=0,95”).
Percentile de latență (p50, p95, p99): latența medie este înșelătoare. În producție, p99 contează: 99% dintre interogări trebuie finalizate în SLA.

Benchmark-ul de referință pentru bazele de date vectoriale este ann-benchmarks.com, care măsoară toate sistemele majore pe seturi de date standardizate (SIFT1M, GIST1M, GloVe-100-unghiular). Rezultatele 2024-2025 arată Qdrant și Milvus printre lideri pentru compensare rechemare-debit, cu Pinecone excelent pentru consistența latenței p99.

# Framework di benchmarking per vector database

import time
import numpy as np
from typing import List, Tuple, Dict
from dataclasses import dataclass

@dataclass
class BenchmarkResult:
    mean_recall: float
    p50_latency_ms: float
    p95_latency_ms: float
    p99_latency_ms: float
    qps: float
    total_queries: int

class VectorDBBenchmark:
    """
    Framework per benchmarkare un vector database.
    Genera ground truth con brute force e confronta con ANN.
    """

    def __init__(self, collection_size: int, dim: int, n_test_queries: int = 1000):
        self.collection_size = collection_size
        self.dim = dim
        self.n_test_queries = n_test_queries

    def generate_test_data(self) -> Tuple[np.ndarray, np.ndarray]:
        """Genera dataset e query vectors normalizzati."""
        # Simula embedding realistici (distribuzione gaussiana normalizzata)
        data = np.random.randn(self.collection_size, self.dim).astype(np.float32)
        data = data / np.linalg.norm(data, axis=1, keepdims=True)

        queries = np.random.randn(self.n_test_queries, self.dim).astype(np.float32)
        queries = queries / np.linalg.norm(queries, axis=1, keepdims=True)

        return data, queries

    def compute_ground_truth(self, data: np.ndarray, queries: np.ndarray, k: int = 10) -> np.ndarray:
        """
        Calcola i veri k nearest neighbors con brute force.
        LENTO ma necessario come reference per calcolare il recall.
        """
        ground_truth = np.zeros((len(queries), k), dtype=np.int64)

        for i, query in enumerate(queries):
            # Cosine similarity = dot product su vettori normalizzati
            similarities = data @ query
            top_k_indices = np.argsort(similarities)[::-1][:k]
            ground_truth[i] = top_k_indices

        return ground_truth

    def run_benchmark(
        self,
        search_fn,         # Funzione di ricerca: (query_vector, k) -> List[int]
        queries: np.ndarray,
        ground_truth: np.ndarray,
        k: int = 10
    ) -> BenchmarkResult:
        """Esegue il benchmark completo."""
        recalls = []
        latencies = []

        # Warmup (i primi risultati possono essere penalizzati da cold start)
        for _ in range(10):
            search_fn(queries[0], k)

        # Benchmark effettivo
        for i, query in enumerate(queries):
            start = time.perf_counter()
            results = search_fn(query, k)
            elapsed_ms = (time.perf_counter() - start) * 1000
            latencies.append(elapsed_ms)

            # Calcola recall@k
            retrieved = set(results[:k])
            true_set = set(ground_truth[i].tolist())
            recall = len(retrieved & true_set) / k
            recalls.append(recall)

        total_time = sum(latencies) / 1000  # in secondi
        qps = len(queries) / total_time

        return BenchmarkResult(
            mean_recall=float(np.mean(recalls)),
            p50_latency_ms=float(np.percentile(latencies, 50)),
            p95_latency_ms=float(np.percentile(latencies, 95)),
            p99_latency_ms=float(np.percentile(latencies, 99)),
            qps=qps,
            total_queries=len(queries)
        )

# Esempio di utilizzo con Qdrant
def qdrant_search_fn(client, collection_name, ef=128):
    def search(query_vector: np.ndarray, k: int) -> List[int]:
        results = client.search(
            collection_name=collection_name,
            query_vector=query_vector.tolist(),
            limit=k,
            search_params={"hnsw_ef": ef}
        )
        return [hit.id for hit in results]
    return search

# Esegui il benchmark per diversi valori di ef
benchmark = VectorDBBenchmark(collection_size=1_000_000, dim=1536)
data, queries = benchmark.generate_test_data()
gt = benchmark.compute_ground_truth(data, queries[:100], k=10)  # Subset per ground truth

for ef_value in [32, 64, 128, 256, 512]:
    search_fn = qdrant_search_fn(client, "rag_docs", ef=ef_value)
    result = benchmark.run_benchmark(search_fn, queries[:100], gt, k=10)

    print(f"ef={ef_value:3d} | "
          f"Recall: {result.mean_recall:.3f} | "
          f"P95: {result.p95_latency_ms:.1f}ms | "
          f"QPS: {result.qps:.0f}")

Căutare hibridă: Vector + BM25 în baza de date Vector

Bazele de date vectoriale moderne nu mai sunt sisteme pur vectoriale: multe suportă acum căutare hibridă care combină vectori denși cu vectori rari (BM25/TF-IDF). Acest subiect este explorat în profunzime în articolul dedicat Recuperării hibride, dar este important înțelegeți cum se integrează la nivelul bazei de date vectoriale.

Qdrant acceptă vectori rari în mod nativ: puteți salva atât un vector dens (încorporare semantică) că un vector rar (ponderi BM25) pentru fiecare document și rulați interogări hibride într-o singură solicitare cu RRF (Reciprocal Rank Fusion) sau fuziune personalizată a scorurilor.

Weaviate are căutare hibridă integrată în schema GraphQL: specifică un alfa (0=BM25 pur, 1=vector pur) pentru a controla greutatea relativă. Milvus 2.4+ a introdus fuziunea rar-densă. Cone de pin suportă densitate redusă cu codificatorul Pinecone Sparse sau modelul personalizat BM25.

Pentru a afla mai multe despre implementările de recuperare hibridă și metodele de fuziune (RRF, sumă ponderată, fuziune învățată), vezi articolul Recuperare hibridă: BM25 + Căutare vectorială din această serie.

Cross-Link: articole similare

RAG: Retrieval-Augmented Generation Explained - Fundamentele RAG pentru a contextualiza rolul bazei de date vectoriale
Încorporare și căutare vectorială: BERT vs Sentence Transformers - Cum să alegeți modelul de încorporare pentru conducta dvs
Recuperare hibridă: BM25 + Căutare vectorială - Combinați căutarea vectorială cu căutarea prin cuvinte cheie pentru o reamintire mai bună
PostgreSQL cu pgvector - Căutare vectorială pe PostgreSQL fără infrastructură suplimentară

Lista de verificare a producției

Înainte de a introduce o bază de date vectorială în producție, verificați aceste puncte critice:

Benchmark pe setul dvs. de date real: rezultatele generice nu se reportează automat la cazul dvs. de utilizare. Măsurați reamintirea și latența cu interogări reale.
Indici de sarcină utilă configurați: fiecare câmp pe care filtrezi trebuie să aibă un index, în caz contrar, filtrarea scanează toate punctele.
Cuantificare adecvată: evaluați SQ8 ca implicit, măsurați pierderea de reamintire. Dacă este acceptabil, aplicați acum - economiile de memorie sunt semnificative.
Backup-uri și instantanee: configurați instantanee automate. Baze de date vectoriale nu au întotdeauna tranzacții cu ACID; o blocare în timpul ingerării poate deteriora indexul.
Monitorizare: graficați indexed_vectors_count vs vectors_count for detectați întârzierea în indexare care degradează performanța interogării.
Dimensiunea memoriei: calculați amprenta reală înainte de implementare. Un server cu memorie insuficientă provoacă schimbarea care distruge latența.
Testare cu filtre înguste: dacă aplicația dvs. folosește filtre foarte selective, testați în mod explicit aceste scenarii. Latența sub filtre înguste este foarte diferită de la căutări nefiltrate.

Anti-modele comune de evitat

Pragul de indexare prea scăzut: cu indexing_threshold=0 sau foarte scăzut, fiecare inserție declanșează o reindexare, făcând ingestia foarte lentă. Utilizați praguri de 10k-100k pentru inserarea în vrac, apoi optimizați.
M prea mare fără a măsura: M=128 nu este întotdeauna mai bun decât M=32. Peste un anumit punct, amintirea se îmbunătățește marginal, dar memoria crește liniar. Măsurați cu setul dvs. de date.
Fără index de sarcină utilă în câmpurile filtrate: fără index, orice condiție de filtru și O(n). Cu 10M de vectori, un filtru neindexat face diferența între 5ms și 5000ms.
Dimensiunea vectorilor nenormalizați cu asemănare cosinus: daca folosesti asemănarea cosinusului, vectorii trebuie normalizați. Unele modele nu le normalizează implicit. Vectorii nenormalizați cu cosinus dau rezultate incorecte din punct de vedere semantic.

Concluzii și pașii următori

Alegerea este că optimizarea bazei de date vectoriale este unul dintre cele mai tehnice și de impact de inginerie AI. Nu există răspunsuri universale: fiecare sistem are un profil de forță diferite, iar configurația optimă depinde de volumul de lucru specific.

Calea recomandată pentru un nou proiect: Începe cu Qdrant cu SQ8 pentru simplitate operațională și performanță bună, apoi măsurați retragerea și latența pe setul dvs. de date real. Dacă performanța nu este suficientă, explorați reglajul M și ef. Dacă memoria este o problemă, luați în considerare cuantizarea produsului sau DiskANN. Dacă aveți deja PostgreSQL și volum moderat (<5M vectori), luați în considerare pgvector înainte de a adăuga infrastructură nouă.

Următoarele articole din această serie se bazează pe aceste baze: în articol pe Recuperare hibridă vom vedea cum să combinam căutarea vectorială cu BM25 pentru a îmbunătăți reamintirea interogărilor precise, în timp ce în articolul despre RAG în producție vom vedea cum să măsuram impactul de la capăt la capăt al alegerilor de baze de date vectoriale asupra calității a răspunsurilor RAG.

Conceptele de încorporare și modelele semantice prezentate aici se conectează direct la serie NLP modern si la serial AI PostgreSQL pentru cei care doresc să implementeze căutarea vectorială pe infrastructura existentă.