Configuration

Chunking strategy

Split ogni N caratteri. Semplice e deterministico.

Chunk size: , lines per file: 400, characters in total:

1002000

Input text

891 caratteri

3product chunks

297 Total tokens

297 Media chunk/character

Chunk prodotti (3)

~Token 99 396 char

La Retrieval-Augmented Generation (RAG) e' una tecnica che combina modelli linguistici con recupero di documenti esterni. Il processo RAG si divide in due fasi principali: indicizzazione e inferenza. Nella fase di indicizzazione, i documenti vengono suddivisi in chunk, convertiti in embedding e salvati in un vector store. Durante l'inferenza, la query dell'utente viene convertita in embedding,

~Token 99 397 char

vengono recuperati i chunk piu' simili e il modello genera una risposta contestualizzata. La scelta della strategia di chunking impatta significativamente la qualita' dei risultati RAG. Chunk troppo piccoli perdono contesto, chunk troppo grandi riducono la precisione del retrieval. Le strategie piu' comuni includono: split fisso per semplicita', split per frase per coerenza semantica, split per

~Token 23 91 char

paragrafo per testi strutturati, e sliding window per massimizzare il contesto disponibile.

Mastering the

Comparing Chunking Strategies for the RAG Pipeline
Strategy	When to use it	For	Against
Fixed Size	Plain texts without structure	Deterministic, fast	Cut sentences at meta'
Sentence	Articles, News, Narrative Texts	Non capisco la richiesta. Puoi fornire il testo da tradurre?	Variable-sized chunks
Paragraph	Structured documents	Natural Semantics	Long or short paragraphs
Recursive	Variable-structured mixed documents	Flexible, adaptable	More complex logic
Semantic Cosine	Mixed-topic texts	Semantically coherent chunks	Approximated without actual embeddings
Sliding Window	Technical QA on texts, maximum context.	No context lost	Redundancy, more called embeddings
Markdown Header	Documentation, READ ME, Wiki	Respect the Markdown hierarchy	Only for markdown texts
Token Bucket	Token Count Control	Respect word boundaries	Ignore semantic structure.

_RAG Chunking Visualizer

Configuration

Input text

Chunk prodotti (3)

Mastering the

Unlock exclusive content

Configuration

Input text

Chunk prodotti (3)

Mastering the

Related tools , , and .

Unlock exclusive content