Bună! Sunt

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

Contactează-mă

Despre Mine

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

Competențele Mele

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

Automatizarea Proceselor

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

Sisteme Personalizate

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

Misiunea Mea

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

Democratizarea Tehnologiei

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

Unirea IT și Economiei

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

Crearea de Soluții Personalizate

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

Transformă-ți Afacerea cu Tehnologia

Che tu gestisca un negozio, uno studio professionale o un'azienda, posso aiutarti a sfruttare le potenzialità dell'informatica per lavorare meglio, più velocemente e in modo più intelligente.

Hai să Vorbim →

Unisciti alla Community

Entra nella community di sviluppatori dove discutiamo di software, AI, architettura e DevOps. Condividi idee, fai domande e cresci insieme a noi.

Canale

FC Dev Blog

Ricevi notifiche su nuovi articoli, serie complete, tips settimanali e tool in evidenza. Contenuti bilingui IT/EN direttamente nel tuo Telegram.

Nuovi articoli appena pubblicati
Tips e code snippets settimanali
Sondaggi sugli argomenti futuri

Iscriviti al Canale

Gruppo

FC Dev Community

Una community bilingue IT/EN per sviluppatori. Discussioni, Q&A, aiuto reciproco e networking con altri professionisti del settore.

Discussioni su articoli e tecnologie
Help coding e code review
Opportunità di lavoro e collaborazione

Unisciti al Gruppo

Topic di Discussione

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

Linguaggi & Tecnologie

Java

Python

JavaScript

Angular

React

TypeScript

SQL

PHP

CSS/SCSS

Node.js

Docker

Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

Contactează-mă

Ai un proiect în minte? Hai să vorbim! Completează formularul și îți voi răspunde curând.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

Gestionarea ferestrelor de context: optimizarea intrării LLM

La fereastră de context este limita de jetoane pe care un LLM le poate procesa într-un un singur apel. GPT-4 are 128K jetoane, Claude 3 200K, Gemeni 1.5 1 milion. Numerele imens, dar în sistemele RAG complexe și conversații lungi se realizează aceste limite în mod regulat. Când se întâmplă acest lucru, modelul trunchiază cel mai vechi context, pierderea de informații esențiale. Și costurile? Un prompt token de 100.000 pe GPT-4 costă aprox 3 USD pe un singur apel. În producție, cu mii de interogări pe zi, asta devine rapid nesustenabil.

Il Gestionarea ferestrelor de context este arta de a maximiza calitatea LLM răspunde în timp ce optimizează utilizarea contextului disponibil. Nu este vorba despre asta doar ca să încapă totul în fereastră: este o chestiune de decizie Ce include, ca structura-l e Cât costă alocați spațiu fiecărei componente. În acest articol vom explora toate tehnicile: de la numărarea jetoanelor și bugetarea, la compresia contextului, la managementul memoriei pentru conversații lungi.

Ce vei învăța

Cum funcționează fereastra de context și de ce este critică pentru RAG
Numărarea precisă a jetoanelor cu tiktoken pentru modele OpenAI și open source
Bugetarea contextului: alocați bugetul indicativ între sistem, istoric, context și interogare
Comprimarea contextului cu LMLingua și tehnici de rezumare
Gestionarea memoriei pentru conversații lungi (fereastră glisantă, memorie rezumată)
Lost in the Middle: De ce contează locația în context
Strategii inteligente de trunchiere pentru RAG
Monitorizarea utilizării jetoanelor și optimizarea costurilor

1. Cum funcționează fereastra context

Un LLM bazat pe transformator procesează intrarea ca o secvență de jeton: unități de text care corespund la aproximativ 3/4 dintr-un cuvânt în limba engleză (sau aproximativ 2/3 în italiană). Numărul maxim de jetoane pe care modelul le poate procesa în întregul apel (prompt + răspuns) este definit de fereastră de context.

Fereastra de tokenizare și context


# Modelli e loro context window (2025)
CONTEXT_WINDOWS = {
    # OpenAI
    "gpt-4o": 128_000,
    "gpt-4o-mini": 128_000,
    "gpt-4-turbo": 128_000,
    "gpt-3.5-turbo": 16_385,

    # Anthropic
    "claude-3-opus": 200_000,
    "claude-3-sonnet": 200_000,
    "claude-3-haiku": 200_000,

    # Google
    "gemini-1.5-pro": 1_000_000,
    "gemini-1.5-flash": 1_000_000,

    # Open Source (locali)
    "llama-3.1-8b": 128_000,
    "mistral-7b-v0.3": 32_768,
    "mixtral-8x7b": 32_768,
}

# Regola empirica tokenization:
# - Inglese: ~1 token per 4 caratteri (750 parole ~ 1000 token)
# - Italiano: ~1 token per 3 caratteri (600 parole ~ 1000 token)
# - Codice: ~1 token per 3.5 caratteri
# - Unicode/caratteri speciali: più token per carattere

# Distribuzione tipica del contesto in RAG:
CONTEXT_BUDGET_EXAMPLE = {
    "total_tokens": 128_000,
    "system_prompt": 500,      # ~0.4%
    "chat_history": 10_000,    # ~8%
    "retrieved_context": 8_000, # ~6%
    "user_query": 200,         # ~0.2%
    "safety_margin": 2_000,    # ~1.6%
    "response_space": 107_300  # ~84% disponibile per risposta
}

1.1 Problema „Pierdut în mijloc”.

Un rezultat surprinzător al cercetării (Liu et al., 2023, „Lost in the Middle”) arată că LLM-urile sunt foarte bune la amintirea informațiilorînceput si sa Sfârşit a contextului, dar tind să „pierde” informațiile poziționate la mijloc. Acest lucru are implicații directe asupra modului în care este structurat contextul RAG.

Pierdut în mijloc: Implicații practice


# Efficacia media per posizione nel contesto (studio Liu et al. 2023)
# Su task di multi-document QA con 10-20 documenti:

POSITION_PERFORMANCE = {
    "primo_documento":  85,  # % accuratezza
    "secondo":          82,
    "terzo":            78,
    # ... degrado nel mezzo
    "meta_contesto":    55,  # minimo!
    # ... recupero alla fine
    "penultimo":        79,
    "ultimo_documento": 84,
}

# STRATEGIE per mitigare "Lost in the Middle":
# 1. Posiziona le informazioni PIU CRITICHE all'inizio o alla fine
# 2. Limita il numero di documenti nel contesto (5-10 max)
# 3. Ripeti informazioni cruciali all'inizio E alla fine
# 4. Ordina per rilevanza decrescente (più rilevante prima)

def sort_chunks_for_context(chunks_with_scores):
    """
    Ordina i chunks per massimizzare l'attenzione LLM.
    Strategia: più rilevante all'inizio, secondo per rilevanza alla fine.
    """
    sorted_chunks = sorted(chunks_with_scores, key=lambda x: x[1], reverse=True)

    if len(sorted_chunks) <= 2:
        return sorted_chunks

    # "Pomodoro" pattern: più rilevante all'inizio, secondo alla fine,
    # il resto nel mezzo (meno critico)
    reordered = [sorted_chunks[0]]  # Più rilevante: primo
    middle = sorted_chunks[2:]      # Meno critici: mezzo
    reordered.extend(middle)
    reordered.append(sorted_chunks[1])  # Secondo più rilevante: ultimo

    return reordered

2. Numărarea precisă a jetoanelor cu Tiktoken

Înainte de a vă putea gestiona bugetul indicativ, trebuie să știți cum să le numărați cu precizie. Biblioteca tiktoken de OpenAI implementează tokenizerul exact folosit de la modelele GPT. Pentru șabloanele open source, fiecare șablon are propriul său tokenizer.

Numărarea jetoanelor pentru OpenAI și Open Source


import tiktoken
from typing import List, Dict, Any


class TokenCounter:
    """Token counter preciso per diversi modelli LLM"""

    # Encoding per famiglia di modelli OpenAI
    ENCODING_MAP = {
        "gpt-4o": "o200k_base",
        "gpt-4o-mini": "o200k_base",
        "gpt-4": "cl100k_base",
        "gpt-3.5-turbo": "cl100k_base",
        "text-embedding-ada-002": "cl100k_base",
        "text-embedding-3-small": "cl100k_base",
        "text-embedding-3-large": "cl100k_base",
    }

    def __init__(self, model: str = "gpt-4o-mini"):
        self.model = model
        encoding_name = self.ENCODING_MAP.get(model, "cl100k_base")
        self.encoding = tiktoken.get_encoding(encoding_name)

    def count_tokens(self, text: str) -> int:
        """Conta i token di un testo"""
        return len(self.encoding.encode(text))

    def count_message_tokens(self, messages: List[Dict]) -> int:
        """
        Conta i token di una lista di messaggi OpenAI,
        includendo i token di overhead per ogni messaggio.
        """
        # OpenAI aggiunge token extra per ogni messaggio
        tokens_per_message = 3   # <|start|>role<|sep|>
        tokens_per_name = 1      # se il nome è presente
        tokens_reply = 3         # risposta inizia con <|start|>assistant<|sep|>

        num_tokens = tokens_reply
        for message in messages:
            num_tokens += tokens_per_message
            for key, value in message.items():
                num_tokens += self.count_tokens(str(value))
                if key == "name":
                    num_tokens += tokens_per_name

        return num_tokens

    def truncate_to_limit(self, text: str, max_tokens: int) -> str:
        """Tronca il testo al numero massimo di token"""
        tokens = self.encoding.encode(text)
        if len(tokens) <= max_tokens:
            return text
        truncated = self.encoding.decode(tokens[:max_tokens])
        return truncated + "... [truncated]"

    def split_by_tokens(self, text: str, max_tokens_per_chunk: int) -> List[str]:
        """Divide il testo in chunks di dimensione massima in token"""
        tokens = self.encoding.encode(text)
        chunks = []

        for i in range(0, len(tokens), max_tokens_per_chunk):
            chunk_tokens = tokens[i:i + max_tokens_per_chunk]
            chunk_text = self.encoding.decode(chunk_tokens)
            chunks.append(chunk_text)

        return chunks

    def estimate_cost(self, prompt_tokens: int, completion_tokens: int) -> dict:
        """Stima il costo per modelli OpenAI (prezzi 2025)"""
        PRICES_PER_1M = {
            "gpt-4o": {"prompt": 5.0, "completion": 15.0},
            "gpt-4o-mini": {"prompt": 0.15, "completion": 0.60},
            "gpt-4-turbo": {"prompt": 10.0, "completion": 30.0},
        }

        prices = PRICES_PER_1M.get(self.model, {"prompt": 1.0, "completion": 3.0})

        prompt_cost = (prompt_tokens / 1_000_000) * prices["prompt"]
        completion_cost = (completion_tokens / 1_000_000) * prices["completion"]

        return {
            "prompt_tokens": prompt_tokens,
            "completion_tokens": completion_tokens,
            "prompt_cost_usd": prompt_cost,
            "completion_cost_usd": completion_cost,
            "total_cost_usd": prompt_cost + completion_cost
        }


# Utilizzo
counter = TokenCounter("gpt-4o-mini")

# Conta token di un testo
text = "Questo è un esempio di testo per RAG."
print(f"Token: {counter.count_tokens(text)}")  # ~9 token

# Conta token di messaggi
messages = [
    {"role": "system", "content": "Sei un assistente AI esperto."},
    {"role": "user", "content": "Cos'è il RAG?"}
]
print(f"Token messaggi: {counter.count_message_tokens(messages)}")

# Stima costi
cost = counter.estimate_cost(prompt_tokens=5000, completion_tokens=500)
print(f"Costo stimato: ${cost['total_cost_usd']:.4f}")

3. Bugetarea contextului: Alocați bugetul pentru simboluri

Il bugetarea contextului it is the process of deciding how many tokens to allocate la fiecare parte a promptului. Este un compromis: mai multe jetoane în contextul RAG îmbunătățesc calitate, dar costurile și latența cresc; mai puține jetoane economisesc resurse, dar își asumă riscuri de pierdere a informațiilor critice.

Manager de buget context


from dataclasses import dataclass
from typing import List, Optional, Tuple
import tiktoken


@dataclass
class ContextBudget:
    """Definisce il budget di token per ogni componente"""
    total_context: int       # Token totali disponibili (da context window)
    max_response: int        # Token riservati per la risposta
    system_prompt: int       # Token per il system prompt
    chat_history: int        # Token per la chat history
    retrieved_docs: int      # Token per i documenti RAG
    query: int               # Token per la query corrente
    safety_margin: int = 200  # Buffer di sicurezza

    @property
    def available_for_docs(self) -> int:
        """Token effettivamente disponibili per i documenti RAG"""
        used = (self.system_prompt + self.chat_history +
                self.query + self.safety_margin + self.max_response)
        return min(self.retrieved_docs, self.total_context - used)

    def is_valid(self) -> bool:
        """Verifica che il budget non superi i limiti"""
        total_used = (self.system_prompt + self.chat_history +
                      self.retrieved_docs + self.query +
                      self.safety_margin + self.max_response)
        return total_used <= self.total_context


class ContextWindowManager:
    """Gestisce l'allocazione del contesto per chiamate LLM"""

    BUDGETS = {
        "gpt-4o-mini-128k": ContextBudget(
            total_context=128_000,
            max_response=4_000,
            system_prompt=800,
            chat_history=12_000,
            retrieved_docs=6_000,
            query=500
        ),
        "gpt-4o-128k": ContextBudget(
            total_context=128_000,
            max_response=8_000,
            system_prompt=1_000,
            chat_history=20_000,
            retrieved_docs=10_000,
            query=500
        ),
        "claude-3-200k": ContextBudget(
            total_context=200_000,
            max_response=8_000,
            system_prompt=1_000,
            chat_history=40_000,
            retrieved_docs=15_000,
            query=500
        ),
    }

    def __init__(self, model: str = "gpt-4o-mini-128k"):
        self.budget = self.BUDGETS.get(model, self.BUDGETS["gpt-4o-mini-128k"])
        encoding_name = "o200k_base" if "gpt-4o" in model else "cl100k_base"
        self.encoder = tiktoken.get_encoding(encoding_name)

    def _count(self, text: str) -> int:
        return len(self.encoder.encode(text))

    def fit_documents_to_budget(
        self,
        documents: List[Tuple[str, float]],  # (testo, score)
        actual_chat_tokens: int = 0
    ) -> List[str]:
        """
        Seleziona e tronca i documenti per stare nel budget.
        Tiene conto dei token effettivi usati dalla history.
        """
        # Ricalcola il budget disponibile per i doc in base alla history effettiva
        history_overflow = max(0, actual_chat_tokens - self.budget.chat_history)
        available = self.budget.available_for_docs - history_overflow

        if available <= 100:
            return []  # Nessuno spazio per i documenti

        selected_docs = []
        tokens_used = 0

        for doc_text, score in documents:
            doc_tokens = self._count(doc_text)

            if tokens_used + doc_tokens <= available:
                # Il documento ci sta per intero
                selected_docs.append(doc_text)
                tokens_used += doc_tokens
            elif tokens_used < available * 0.5:
                # Spazio rimanente: tronca il documento
                remaining = available - tokens_used
                if remaining > 100:  # Tronca solo se c'è abbastanza spazio
                    truncated_tokens = self.encoder.encode(doc_text)[:remaining - 20]
                    truncated_text = self.encoder.decode(truncated_tokens) + "...[truncato]"
                    selected_docs.append(truncated_text)
                break
            else:
                break  # Non c'è più spazio

        return selected_docs

    def summarize_history_if_needed(
        self,
        messages: List[dict],
        llm_client,
        target_tokens: Optional[int] = None
    ) -> List[dict]:
        """
        Se la history supera il budget, riassumi le parti più vecchie.
        Mantiene i messaggi recenti integri.
        """
        if target_tokens is None:
            target_tokens = self.budget.chat_history

        # Calcola token attuali
        all_text = " ".join(m["content"] for m in messages)
        current_tokens = self._count(all_text)

        if current_tokens <= target_tokens:
            return messages  # Nessuna azione necessaria

        # Mantieni gli ultimi N messaggi intatti (conversazione recente)
        keep_recent = 4  # Ultimi 2 turn (user + assistant)
        recent_messages = messages[-keep_recent:]
        old_messages = messages[:-keep_recent]

        if not old_messages:
            return recent_messages

        # Riassumi i messaggi vecchi
        old_text = "\n".join(
            f"{m['role']}: {m['content']}" for m in old_messages
        )

        summary_response = llm_client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{
                "role": "user",
                "content": f"Riassumi brevemente questa conversazione in 2-3 frasi:\n\n{old_text}"
            }],
            max_tokens=200,
            temperature=0
        )

        summary = summary_response.choices[0].message.content

        # Sostituisci i vecchi messaggi con il riassunto
        return [
            {"role": "system", "content": f"[Riassunto conversazione precedente]: {summary}"}
        ] + recent_messages

4. Comprimarea contextului

Atunci când documentele RAG depășesc bugetul disponibil, există două abordări: trunchiere (text tăiat) sau comprimare (extrageți numai părțile relevante). Compresia produce rezultate mai bune deoarece reține informațiile cheie în loc să le arunce în mod arbitrar.

4.1 Comprimarea contextuală cu LLM

Contextual Compression Retriever cu LangChain


from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers.document_compressors import EmbeddingsFilter
from langchain_openai import ChatOpenAI, OpenAIEmbeddings


class ContextCompressor:
    """Comprime il contesto RAG per stare nel budget"""

    def __init__(self, base_retriever, llm, embeddings):
        self.base_retriever = base_retriever
        self.llm = llm

        # Metodo 1: LLMChainExtractor
        # Usa un LLM per estrarre solo le parti rilevanti dalla domanda
        # Pro: alta qualità, Pro: lento e costoso
        self.llm_extractor = LLMChainExtractor.from_llm(llm)
        self.llm_compressor = ContextualCompressionRetriever(
            base_compressor=self.llm_extractor,
            base_retriever=base_retriever
        )

        # Metodo 2: EmbeddingsFilter
        # Rimuove i documenti sotto una soglia di similarità con la query
        # Pro: veloce e gratuito, Con: meno preciso
        self.embeddings_filter = EmbeddingsFilter(
            embeddings=embeddings,
            similarity_threshold=0.76  # Filtra documenti poco rilevanti
        )
        self.embedding_compressor = ContextualCompressionRetriever(
            base_compressor=self.embeddings_filter,
            base_retriever=base_retriever
        )

    def compress_with_extraction(self, query: str) -> list:
        """Estrai solo le frasi rilevanti dai documenti"""
        return self.llm_compressor.invoke(query)

    def compress_with_filtering(self, query: str) -> list:
        """Rimuovi documenti poco rilevanti"""
        return self.embedding_compressor.invoke(query)


# Implementazione custom: compressione con suddivisione in frasi
from sentence_transformers import SentenceTransformer
import numpy as np
from typing import List

class SentenceLevelCompressor:
    """Compressione a livello di frase per massimizzare la densita informativa"""

    def __init__(self, model_name: str = "all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)

    def compress(
        self,
        document: str,
        query: str,
        max_tokens: int = 300,
        top_k_sentences: int = 5
    ) -> str:
        """
        Estrae le frasi più rilevanti dal documento rispetto alla query.
        """
        import re

        # Dividi in frasi
        sentences = re.split(r'(?<=[.!?])\s+', document)
        sentences = [s.strip() for s in sentences if len(s.strip()) > 20]

        if len(sentences) <= 3:
            return document  # Documento già breve, non comprimere

        # Codifica query e frasi
        query_emb = self.model.encode([query], normalize_embeddings=True)[0]
        sentence_embs = self.model.encode(sentences, normalize_embeddings=True)

        # Calcola similarità
        scores = np.dot(sentence_embs, query_emb)

        # Seleziona top-k frasi per rilevanza mantenendo l'ordine originale
        top_indices = sorted(
            np.argsort(scores)[-top_k_sentences:].tolist()
        )

        # Ricomponi il testo mantenendo l'ordine originale
        compressed = " ".join(sentences[i] for i in top_indices)

        return compressed

    def batch_compress(
        self,
        documents: List[str],
        query: str,
        token_budget: int = 2000
    ) -> List[str]:
        """Comprimi un batch di documenti rispettando il budget totale"""
        counter = TokenCounter()
        compressed_docs = []
        tokens_used = 0

        for doc in documents:
            # Comprimi prima al 50%
            compressed = self.compress(doc, query, top_k_sentences=5)
            doc_tokens = counter.count_tokens(compressed)

            if tokens_used + doc_tokens <= token_budget:
                compressed_docs.append(compressed)
                tokens_used += doc_tokens
            else:
                # Comprimi ulteriormente
                remaining = token_budget - tokens_used
                if remaining > 50:
                    further_compressed = self.compress(
                        doc, query, top_k_sentences=2
                    )
                    compressed_docs.append(further_compressed)
                break

        return compressed_docs

5. Managementul memoriei pentru conversații lungi

Conversațiile lungi sunt unul dintre cele mai critice cazuri pentru gestionarea ferestrelor de context. Există diferite strategii de memorie, cu diferite compromisuri între calitate și cost:

Strategii de memorie pentru conversații lungi


from langchain.memory import (
    ConversationBufferMemory,           # Tutta la storia
    ConversationBufferWindowMemory,     # Sliding window
    ConversationSummaryMemory,          # Riassunto
    ConversationSummaryBufferMemory,    # Ibrido: riassunto + recenti
    ConversationTokenBufferMemory,      # Limite token preciso
)
from langchain_openai import ChatOpenAI


# 1. SLIDING WINDOW: mantieni solo gli ultimi k turni
# Pro: semplice, veloce, costo fisso
# Con: perde contesto lontano
window_memory = ConversationBufferWindowMemory(
    k=5,  # Mantieni gli ultimi 5 turni di conversazione
    return_messages=True,
    memory_key="chat_history"
)

# 2. SUMMARY MEMORY: riassumi l'intera storia
# Pro: scala senza limiti, mantiene il contesto generale
# Con: perde dettagli, costo extra per ogni riassunto
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
summary_memory = ConversationSummaryMemory(
    llm=llm,
    return_messages=True,
    memory_key="chat_history"
)

# 3. SUMMARY BUFFER MEMORY: ibrido - riassunto + ultimi k token
# Pro: mantiene sia contesto generale che dettagli recenti
# Con: più complesso, costo moderato per i riassunti
hybrid_memory = ConversationSummaryBufferMemory(
    llm=llm,
    max_token_limit=4000,  # Soglia: se supera, riassumi vecchi messaggi
    return_messages=True,
    memory_key="chat_history"
)

# 4. TOKEN BUFFER MEMORY: limite preciso in token
# Pro: controllo esatto del budget
# Con: può troncare a meta di un turno
token_memory = ConversationTokenBufferMemory(
    llm=llm,
    max_token_limit=8000,
    return_messages=True,
    memory_key="chat_history"
)


# Implementazione custom: Entity Memory per RAG
class EntityMemory:
    """
    Memorizza le entità menzionate nella conversazione per
    arricchire le query future con contesto rilevante.
    """

    def __init__(self, llm):
        self.llm = llm
        self.entities = {}  # nome_entita -> descrizione

    def extract_entities(self, message: str) -> dict:
        """Estrae entità rilevanti da un messaggio"""
        prompt = f"""Estrai le entità principali (persone, organizzazioni, concetti tecnici)
da questo messaggio. Per ogni entità, fornisci una breve descrizione.
Formato: JSON con {"entità": "descrizione"}
Se non ci sono entità rilevanti, restituisci {}.

Messaggio: {message}"""

        response = self.llm.invoke(prompt).content
        try:
            import json
            return json.loads(response)
        except:
            return {}

    def update(self, message: str):
        """Aggiorna la memoria delle entità"""
        new_entities = self.extract_entities(message)
        self.entities.update(new_entities)

    def get_relevant_context(self, query: str) -> str:
        """Ottieni il contesto delle entità rilevanti per la query"""
        if not self.entities:
            return ""

        # Trova entità menzionate nella query
        query_lower = query.lower()
        relevant = {
            k: v for k, v in self.entities.items()
            if k.lower() in query_lower
        }

        if not relevant:
            return ""

        return "Contesto entità:\n" + "\n".join(
            f"- {k}: {v}" for k, v in relevant.items()
        )

6. Monitorizarea utilizării jetoanelor și optimizarea costurilor

Instrument de urmărire a utilizării jetoanelor pentru producție


from langchain.callbacks import get_openai_callback
from langchain_core.callbacks import BaseCallbackHandler
from typing import Any, Dict, List
import time
import logging

logger = logging.getLogger(__name__)


class TokenUsageTracker(BaseCallbackHandler):
    """Traccia l'utilizzo dei token e i costi per ogni chiamata LLM"""

    def __init__(self, model: str = "gpt-4o-mini"):
        self.model = model
        self.total_prompt_tokens = 0
        self.total_completion_tokens = 0
        self.total_calls = 0
        self.call_history = []

    def on_llm_start(
        self, serialized: Dict[str, Any], prompts: List[str], **kwargs
    ) -> None:
        self._start_time = time.time()

    def on_llm_end(self, response, **kwargs) -> None:
        duration = time.time() - self._start_time

        if hasattr(response, 'llm_output') and response.llm_output:
            token_usage = response.llm_output.get('token_usage', {})
            prompt_tokens = token_usage.get('prompt_tokens', 0)
            completion_tokens = token_usage.get('completion_tokens', 0)

            self.total_prompt_tokens += prompt_tokens
            self.total_completion_tokens += completion_tokens
            self.total_calls += 1

            call_data = {
                'timestamp': time.time(),
                'prompt_tokens': prompt_tokens,
                'completion_tokens': completion_tokens,
                'duration_ms': duration * 1000,
            }
            self.call_history.append(call_data)

            logger.info(
                f"LLM call: {prompt_tokens}+{completion_tokens}={prompt_tokens+completion_tokens} "
                f"token, {duration*1000:.0f}ms"
            )

    def get_stats(self) -> dict:
        """Statistiche aggregate sull'uso dei token"""
        counter = TokenCounter(self.model)

        total_tokens = self.total_prompt_tokens + self.total_completion_tokens
        cost = counter.estimate_cost(
            self.total_prompt_tokens, self.total_completion_tokens
        )

        avg_prompt = (self.total_prompt_tokens / self.total_calls
                      if self.total_calls > 0 else 0)

        return {
            "total_calls": self.total_calls,
            "total_tokens": total_tokens,
            "avg_prompt_tokens": avg_prompt,
            "total_cost_usd": cost["total_cost_usd"],
            "cost_per_call_usd": (cost["total_cost_usd"] / self.total_calls
                                   if self.total_calls > 0 else 0)
        }


# Utilizzo con get_openai_callback (più semplice per OpenAI)
from langchain.callbacks import get_openai_callback

with get_openai_callback() as cb:
    result = rag_chain.invoke("Cos'è il RAG?")
    print(f"Tokens usati: {cb.total_tokens}")
    print(f"Costo: ${cb.total_cost:.6f}")
    print(f"Prompt tokens: {cb.prompt_tokens}")
    print(f"Completion tokens: {cb.completion_tokens}")

7. Cele mai bune practici și anti-modele

Gestionarea ferestrelor contextului celor mai bune practici

Numărați jetoanele înainte de a apela LLM: nu așteptați eroarea „context prea mult”. Utilizați tiktoken pentru a valida solicitarea înainte de a trimite.
Structurați promptul pentru „Pierdut în mijloc”: puneți cele mai critice informații la început (prompt de sistem, declarații cheie) și la sfârșit (interogare utilizator, cerere specifică).
Utilizați ConversationSummaryBufferMemory pentru conversații lungi: menține detaliile recente și contextul general al virajelor vechi la un cost redus.
Comprimați înainte de trunchiere: compresia semantică este mai bună decât trunchierea brută. Un document comprimat cu 40% reține 90% din informațiile relevante.
Urmăriți costul pe interogare în producție: setează alertă atunci când depășește pragurile predefinite (de exemplu, > 0,01 USD pentru interogarea pe gpt-4o-mini indică o problemă în gestionarea contextului).

Anti-modele de evitat

Umplutura de context: completarea contextului cu tot ce este posibil nu îmbunătățește calitatea - de multe ori o înrăutățește pentru „Lost in the Middle”. Alegeți calitatea decât cantitatea.
Ignorarea costurilor poveștii: o conversație de 50 de rânduri cu RAG poate costa de 10-50 de ori o singură interogare. Întotdeauna implementați o limită a istoriei.
Trunchiere la centrul documentului: trunchierea unui document în mijlocul unei propoziții sau a unui concept este mai rău decât a nu-l include. Trunchiați întotdeauna la granițele naturale.
Același buget pentru toate modelele: un model de token de 128K și un model de token 4K necesită strategii radical diferite. Nu utilizați aceleași constante.

Concluzii

Gestionarea ferestrelor de context nu este un detaliu de implementare: este una dintre variabile cel mai impactant asupra calității și costului sistemelor RAG în producție. Am explorat numărare precisă a jetonelor cu tiktoken, bugetare sistematică în context, compresie semantică, managementul memoriei pentru conversații lungi și monitorizarea costurilor.

Punctele cheie:

Numărați întotdeauna jetoanele înainte de a trimite cu tiktoken-uri sau echivalent
Structurați contextul pentru a atenua „Lost in the Middle”: informații critice la început și la sfârșit
Utilizați compresia semantică în loc de trunchierea brută
ConversationSummaryBufferMemory este cea mai bună alegere pentru conversații lungi
Monitorizați costul pe interogare în producție și setați alerte

În următorul articol vom explora Sisteme multi-agenți: cum să orchestrezi mai mulți agenți AI specializați care colaborează pentru a rezolva probleme complexe decât niciunul un singur agent ar putea aborda singur.

Seria continuă

Articolul 1: RAG explicat
Articolul 6: LangChain pentru RAG
Articolul 7: Gestionarea ferestrei de context (actual)
Articolul 8: Sisteme multi-agenți
Articolul 9: Inginerie promptă în producție