Bună! Sunt

Federico Calò

Sviluppatore Software | Divulgatore Tecnico

Creo applicazioni web moderne e strumenti digitali personalizzati per aiutare le attività a crescere attraverso l'innovazione tecnologica. La mia passione è unire informatica ed economia per generare valore reale.

Contactează-mă

Despre Mine

La mia passione per l'informatica è nata tra i banchi dell'Istituto Tecnico Commerciale di Maglie, dove ho scoperto il potere della programmazione e il fascino di creare soluzioni digitali. Fin da subito, ho capito che l'informatica non era solo codice, ma uno strumento straordinario per trasformare idee in realtà.

Durante gli studi superiori in Sistemi Informativi Aziendali, ho iniziato a intrecciare informatica ed economia, comprendendo come la tecnologia possa essere il motore della crescita per qualsiasi attività. Questa visione mi ha accompagnato all'Università degli Studi di Bari, dove ho conseguito la Laurea in Informatica, approfondendo le mie competenze tecniche e la mia passione per lo sviluppo software.

Oggi metto questa esperienza al servizio di imprese, professionisti e startup, creando soluzioni digitali su misura che automatizzano processi, ottimizzano risorse e aprono nuove opportunità di business. Perché la vera innovazione inizia quando la tecnologia incontra le esigenze reali delle persone.

Competențele Mele

Analisi Dati & Modelli Previsionali

Trasformo i dati in insights strategici con analisi approfondite e modelli predittivi per decisioni informate

Automatizarea Proceselor

Creo strumenti personalizzati che automatizzano operazioni ripetitive e liberano tempo per attività a valore aggiunto

Sisteme Personalizate

Sviluppo sistemi software su misura, dalle integrazioni tra piattaforme alle dashboard personalizzate

const federico = {
  nome: "Federico Calò",
  ruolo: "Sviluppatore Software",
  città: "Bari, Italia",
  missione: "Aiutare attraverso l'informatica",
  passioni: [
    "Codice Pulito",
    "Innovazione",
    "Crescita Continua"
  ]
};

Misiunea Mea

Credo fermamente che l'informatica sia lo strumento più potente per trasformare le idee in realtà e migliorare la vita delle persone.

Democratizarea Tehnologiei

La mia missione è rendere l'informatica accessibile a tutti: dalle piccole imprese locali alle startup innovative, fino ai professionisti che vogliono digitalizzare la propria attività. Ogni realtà merita di sfruttare le potenzialità del digitale.

Unirea IT și Economiei

Non è solo questione di scrivere codice: è capire come la tecnologia possa generare valore reale. Intrecciando competenze informatiche e visione economica, aiuto le attività a crescere, ottimizzare processi e raggiungere nuovi traguardi di efficienza e redditività.

Crearea de Soluții Personalizate

Ogni attività è unica, e così devono esserlo le soluzioni. Sviluppo strumenti personalizzati che rispondono alle esigenze specifiche di ciascun cliente, automatizzando processi ripetitivi e liberando tempo per ciò che conta davvero: far crescere il business.

Transformă-ți Afacerea cu Tehnologia

Che tu gestisca un negozio, uno studio professionale o un'azienda, posso aiutarti a sfruttare le potenzialità dell'informatica per lavorare meglio, più velocemente e in modo più intelligente.

Hai să Vorbim →

Unisciti alla Community

Entra nella community di sviluppatori dove discutiamo di software, AI, architettura e DevOps. Condividi idee, fai domande e cresci insieme a noi.

Canale

FC Dev Blog

Ricevi notifiche su nuovi articoli, serie complete, tips settimanali e tool in evidenza. Contenuti bilingui IT/EN direttamente nel tuo Telegram.

Nuovi articoli appena pubblicati
Tips e code snippets settimanali
Sondaggi sugli argomenti futuri

Iscriviti al Canale

Gruppo

FC Dev Community

Una community bilingue IT/EN per sviluppatori. Discussioni, Q&A, aiuto reciproco e networking con altri professionisti del settore.

Discussioni su articoli e tecnologie
Help coding e code review
Opportunità di lavoro e collaborazione

Unisciti al Gruppo

Topic di Discussione

Visualizza

Master SQL

RoadMap.sh

Novembre 2024

Visualizza

Oracle Certified Foundations Associate

Oracle

Ottobre 2024

Visualizza

People Leadership Credential

Connect

Settembre 2024

Linguaggi & Tecnologie

Java

Python

JavaScript

Angular

React

TypeScript

SQL

PHP

CSS/SCSS

Node.js

Docker

Git

💼

12/2024 - Presente

Custom Software Engineering Analyst

Accenture

Bari, Puglia, Italia · Ibrida Analisi e sviluppo di sistemi informatici attraverso l'utilizzo di Java e Quarkus in Health and Public Sector. Formazione continua su tecnologie moderne per la creazione di soluzioni software personalizzate ed efficienti e sugli agenti.

💼

06/2022 - 12/2024

Analista software e Back End Developer Associate Consultant

Links Management and Technology SpA

Esperienza nell'analisi di sistemi software as-is e flussi ETL utilizzando PowerCenter. Formazione completata su Spring Boot per lo sviluppo di applicazioni backend moderne e scalabili. Sviluppatore Backend specializzato in Spring Boot, con esperienza in progettazione di database, analisi, sviluppo e testing dei task assegnati.

💼

02/2021 - 10/2021

Programmatore software

Adesso.it (prima era WebScience srl)

Esperienza nell'analisi AS-IS e TO-BE, evoluzioni SEO ed evoluzioni website per migliorare le performance e l'engagement degli utenti.

🎓

2018 - 2025

Laurea in Informatica

Università degli Studi di Bari Aldo Moro

Bachelor's degree in Computer Science, focusing on software engineering, algorithms, and modern development practices.

📚

2013 - 2018

Diploma - Sistemi Informativi Aziendali

Istituto Tecnico Commerciale di Maglie

Technical diploma specializing in Business Information Systems, combining IT knowledge with business management.

Contactează-mă

Ai un proiect în minte? Hai să vorbim! Completează formularul și îți voi răspunde curând.

* Campi obbligatori. I tuoi dati saranno utilizzati solo per rispondere alla tua richiesta.

Arhitectura platformei e-Discovery: Ingestie, procesare și revizuire AI

În 2024, adoptarea inteligenței artificiale în platforme e-Discovery legale și a sărit de la 19% la 79% în doar un an. Aceste date nu sunt o curiozitate statistică: o reflectă transformarea structurală a modului în care firmele de avocatură, companiile și autoritățile judiciare gestionează probe cu înscrisuri în procesele civile și penale. Când un proces implică milioane de e-mailuri, mesaje Slack, documente SharePoint și fișiere jurnal, modelul tradițional de revizuire manuală de către asistentul juridic nu mai este sustenabil din punct de vedere economic sau logistic.

L'e-Discovery (Electronic Discovery) and the process by which the parties to a proceeding legal identify, collect, preserve, process, review and produce documentary evidence in format electronic. In the United States and regulated by the Federal Rules of Civil Procedure (FRCP), in Europe from similar frameworks at national level. Modern platforms need to handle petabytes of data, respect legally valid chains of custody, and reduce the volume of documents to be reviewed maintaining very high recall: no relevant document can be lost.

In this article we build the complete architecture of an enterprise-grade e-Discovery platform: din ingestion massiva di documenti eterogenei al procesare distribuită, din deduplicare al predictive coding with AI models, up laexport în format EDRM XML. All with real Python code examples and analysis of the leading platforms on the market.

Ce veți învăța în acest articol

Modelul EDRM (Electronic Discovery Reference Model) și fazele acestuia
Arhitectură de microservicii pentru asimilarea masivă: Kafka, Elasticsearch, MinIO
Procesare pipeline: extragerea textului, metadate, deduplicare MD5/SHA și aproape dedus
Revizuire asistată de tehnologie (TAR) și Învățare activă continuă (CAL)
Codare predictivă cu scikit-learn și propoziție-transformatoare
Managementul lanțului de custodie și pistă de audit imuabilă
Comparație platformă: Relativity, DISCO, Everlaw, Logikcull
Exportul EDRM XML și integrarea cu sistemele de gestionare a cazurilor

Poziție în seria LegalTech și AI

#	Articol	Concentrează-te
1	NLP pentru analiza contractelor	OCR, NER, clasificarea clauzelor
2	Sunteți aici — e-Discovery Architecture	Ingestie, procesare, revizuire AI
3	Automatizarea conformității	Motorul de reguli și RegTech
4	Contracte inteligente	Soliditate, Vyper, aplicabilitate
5	Rezumat cu IA generativă	LLM, RAG, validare ieșire
6	Motor de căutare jurisprudențial	Înglobări vectoriale și căutare semantică
7	Semnătură digitală și eIDAS 2.0	PKI, marcare temporală, flux de lucru
8	Sisteme de conformitate GDPR	Confidențialitate prin design, DSR, cartografiere a datelor
9	Legal AI Copilot	RAG pe corpus legal, balustrade
10	Integrarea datelor LegalTech	ECLI, sisteme judiciare API, XBRL

Modelul EDRM: cadru de referință pentru e-Discovery

L'Model de referință pentru descoperirea electronică (EDRM) și standardul de facto care descrie fazele procesului de descoperire electronică. Dezvoltat în 2005 și actualizat continuu, modelul definește nouă faze secvențiale pe care trebuie să le suporte fiecare platformă de întreprindere.

faza EDRM	Descriere	Componenta Tehnica
1. Guvernarea informaţiei	Politici de reținere, clasificarea datelor, harta datelor	MDM, motor de politici, CMDB
2. Identificare	Localizați custozi potențiali și surse de date relevante	Crawler, scanare director, interogare LDAP
3.Conservare	Reținere legală: înghețați datele pentru a evita spolierea	Managementul stocării, stocare imuabilă, flux de lucru de notificare
4.Colectie	Colectare criminalistică cu lanț de custodie	Colecționar criminalistic, verificare hash, jurnal de custodie
5.Prelucrare	Extragerea textului, metadate, dedup, filtrare NIST	Apache Tika, pipeline de ingest Elasticsearch
6.Revizuire	Clasificare prin relevanță/privilegiu, TAR/CAL	Codare predictivă, învățare activă, platformă de revizuire
7. Analiză	Model, cronologie, rețea de entități, modelare subiect	Analize grafice, NLP, LDA/BERTopic
8. Productie	Export în format agreat (TIFF, nativ, PDF)	Export XML EDRM, numerotare Bates, motor de redactare
9. Prezentare	Prezentări de probă, depoziții, cronologie vizuale	Director de proces, managementul expoziției

Arhitectura de microservicii pentru Enterprise e-Discovery

O platformă e-Discovery modernă nu poate fi un monolit. Volumul de date variază de la puține gigabytes până la sute de terabytes pentru cauze mari. Arhitectura trebuie să fie scalabil elastic, tolerant la erori și asigură trasee de audit imuabile pentru să îndeplinească cerințele de eligibilitate pentru dovezi. Modelul arhitectural consolidat se combină streaming de evenimente, stocare obiecte și motor de căutare distribuit.

# docker-compose.yml per ambiente e-Discovery locale
version: '3.9'

services:
  # Message broker per ingestion asincrona
  kafka:
    image: confluentinc/cp-kafka:7.5.0
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092
      KAFKA_AUTO_CREATE_TOPICS_ENABLE: 'true'
      KAFKA_NUM_PARTITIONS: 12
    depends_on: [zookeeper]

  zookeeper:
    image: confluentinc/cp-zookeeper:7.5.0
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181

  # Object storage per documenti originali e derivati
  minio:
    image: minio/minio:RELEASE.2024-01-16T16-07-38Z
    command: server /data --console-address ":9001"
    environment:
      MINIO_ROOT_USER: ediscovery
      MINIO_ROOT_PASSWORD: ${MINIO_PASSWORD}
    volumes:
      - minio_data:/data

  # Search engine per full-text e metadata search
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:8.12.0
    environment:
      - discovery.type=single-node
      - xpack.security.enabled=true
      - ELASTIC_PASSWORD=${ES_PASSWORD}
      - ES_JAVA_OPTS=-Xms2g -Xmx2g
    volumes:
      - es_data:/usr/share/elasticsearch/data

  # Worker per processing documenti
  tika:
    image: apache/tika:2.9.1-full
    ports:
      - "9998:9998"

  # Database relazionale per metadata e catena custodia
  postgres:
    image: postgres:16-alpine
    environment:
      POSTGRES_DB: ediscovery
      POSTGRES_USER: ediscovery
      POSTGRES_PASSWORD: ${PG_PASSWORD}

volumes:
  minio_data:
  es_data:

Conductă de ingestie masivă de documente

Ingestia este cea mai critică fază: trebuie să colecteze documente din surse eterogene (server de e-mail, fișiere share, cloud storage, aplicații SaaS) menținând în același timp integritatea criminalistică. Fiecare document dobândit trebuie au o hash criptografic verificabil și o înregistrare imuabilă a când și cum și fost colectat.

"""
ediscovery/ingestion/collector.py
Collettore forense con chain of custody
"""
import hashlib
import json
import uuid
from datetime import datetime, timezone
from pathlib import Path
from typing import Optional

import boto3
from kafka import KafkaProducer
import psycopg2


class ForensicCollector:
    """
    Raccoglie documenti con hash SHA-256 e registra
    la catena di custodia in PostgreSQL.
    """

    def __init__(self, config: dict):
        self.minio = boto3.client(
            's3',
            endpoint_url=config['minio_url'],
            aws_access_key_id=config['minio_user'],
            aws_secret_access_key=config['minio_password']
        )
        self.producer = KafkaProducer(
            bootstrap_servers=config['kafka_brokers'],
            value_serializer=lambda v: json.dumps(v).encode('utf-8')
        )
        self.pg_conn = psycopg2.connect(config['postgres_dsn'])
        self.bucket = 'ediscovery-originals'

    def collect_file(
        self,
        file_path: Path,
        matter_id: str,
        custodian_id: str,
        collector_id: str
    ) -> dict:
        """
        Raccoglie un file con verifica integrita e registra custody event.
        Restituisce il documento event per il topic Kafka.
        """
        # 1. Calcola hash SHA-256 prima del trasferimento
        sha256 = self._compute_sha256(file_path)
        md5 = self._compute_md5(file_path)
        file_size = file_path.stat().st_size

        # 2. Genera Document ID univoco
        doc_id = str(uuid.uuid4())

        # 3. Upload su MinIO con metadata
        s3_key = f"matters/{matter_id}/originals/{doc_id}/{file_path.name}"
        self.minio.upload_file(
            str(file_path),
            self.bucket,
            s3_key,
            ExtraArgs={
                'Metadata': {
                    'doc-id': doc_id,
                    'sha256': sha256,
                    'custodian-id': custodian_id,
                    'matter-id': matter_id
                }
            }
        )

        # 4. Verifica integrita post-upload
        response = self.minio.head_object(Bucket=self.bucket, Key=s3_key)
        uploaded_size = response['ContentLength']
        if uploaded_size != file_size:
            raise ValueError(
                f"Integrita compromessa: atteso {file_size} bytes, "
                f"caricato {uploaded_size} bytes"
            )

        # 5. Registra custody event in PostgreSQL
        collection_timestamp = datetime.now(timezone.utc).isoformat()
        custody_event = {
            'event_id': str(uuid.uuid4()),
            'doc_id': doc_id,
            'matter_id': matter_id,
            'custodian_id': custodian_id,
            'collector_id': collector_id,
            'event_type': 'COLLECTION',
            'timestamp': collection_timestamp,
            'source_path': str(file_path),
            'sha256': sha256,
            'md5': md5,
            'file_size': file_size,
            's3_key': s3_key
        }
        self._record_custody_event(custody_event)

        # 6. Pubblica su Kafka per processing asincrono
        document_event = {
            'doc_id': doc_id,
            'matter_id': matter_id,
            'custodian_id': custodian_id,
            's3_key': s3_key,
            'filename': file_path.name,
            'file_size': file_size,
            'sha256': sha256,
            'collection_timestamp': collection_timestamp,
            'status': 'COLLECTED'
        }
        self.producer.send('ediscovery.documents.collected', document_event)
        return document_event

    def _compute_sha256(self, file_path: Path) -> str:
        h = hashlib.sha256()
        with open(file_path, 'rb') as f:
            for chunk in iter(lambda: f.read(65536), b''):
                h.update(chunk)
        return h.hexdigest()

    def _compute_md5(self, file_path: Path) -> str:
        h = hashlib.md5()
        with open(file_path, 'rb') as f:
            for chunk in iter(lambda: f.read(65536), b''):
                h.update(chunk)
        return h.hexdigest()

    def _record_custody_event(self, event: dict) -> None:
        with self.pg_conn.cursor() as cur:
            cur.execute("""
                INSERT INTO custody_events (
                    event_id, doc_id, matter_id, custodian_id,
                    collector_id, event_type, timestamp,
                    source_path, sha256, md5, file_size, s3_key
                ) VALUES (
                    %(event_id)s, %(doc_id)s, %(matter_id)s, %(custodian_id)s,
                    %(collector_id)s, %(event_type)s, %(timestamp)s,
                    %(source_path)s, %(sha256)s, %(md5)s, %(file_size)s, %(s3_key)s
                )
            """, event)
        self.pg_conn.commit()

Procesarea și extragerea conținutului cu Apache Tika

Prelucrarea și inima tehnică a conductei. Fiecare document trebuie convertit în text căutabile, metadate extrase (autor, date, fir de e-mail, proprietăți ale documentului) și normalizate într-o schemă comună. Apache Tika gestionează peste 1.500 de formate de fișiere diferite, făcându-l standardul de facto pentru extragerea de conținut în e-Discovery.

"""
ediscovery/processing/processor.py
Worker di processing documenti con Apache Tika
"""
import json
import requests
from kafka import KafkaConsumer, KafkaProducer
from elasticsearch import Elasticsearch
import boto3


class DocumentProcessor:
    """
    Consumer Kafka che processa ogni documento raccolto:
    estrae testo e metadata con Tika, indicizza su ES.
    """

    TIKA_URL = "http://tika:9998"

    def __init__(self, config: dict):
        self.consumer = KafkaConsumer(
            'ediscovery.documents.collected',
            bootstrap_servers=config['kafka_brokers'],
            group_id='document-processor',
            value_deserializer=lambda v: json.loads(v.decode('utf-8'))
        )
        self.producer = KafkaProducer(
            bootstrap_servers=config['kafka_brokers'],
            value_serializer=lambda v: json.dumps(v).encode('utf-8')
        )
        self.es = Elasticsearch(
            config['elasticsearch_url'],
            basic_auth=('elastic', config['es_password'])
        )
        self.minio = boto3.client('s3', endpoint_url=config['minio_url'])

    def process_documents(self) -> None:
        for message in self.consumer:
            event = message.value
            try:
                processed = self._process_document(event)
                self._index_document(processed)
                self.producer.send(
                    'ediscovery.documents.processed',
                    {**event, **processed, 'status': 'PROCESSED'}
                )
            except Exception as exc:
                self.producer.send(
                    'ediscovery.documents.errors',
                    {**event, 'error': str(exc), 'status': 'ERROR'}
                )

    def _process_document(self, event: dict) -> dict:
        # Scarica documento da MinIO
        response = self.minio.get_object(
            Bucket='ediscovery-originals',
            Key=event['s3_key']
        )
        file_content = response['Body'].read()

        # Estrai testo con Tika (PUT /tika)
        tika_response = requests.put(
            f"{self.TIKA_URL}/tika",
            data=file_content,
            headers={
                'Accept': 'text/plain',
                'Content-Type': 'application/octet-stream'
            },
            timeout=120
        )
        extracted_text = tika_response.text

        # Estrai metadata con Tika (PUT /meta)
        meta_response = requests.put(
            f"{self.TIKA_URL}/meta",
            data=file_content,
            headers={
                'Accept': 'application/json',
                'Content-Type': 'application/octet-stream'
            },
            timeout=60
        )
        metadata = meta_response.json()

        return {
            'extracted_text': extracted_text,
            'text_length': len(extracted_text),
            'tika_metadata': metadata,
            'author': metadata.get('dc:creator', ''),
            'created_date': metadata.get('dcterms:created', ''),
            'modified_date': metadata.get('dcterms:modified', ''),
            'content_type': metadata.get('Content-Type', ''),
            'language': metadata.get('language', ''),
            'page_count': metadata.get('xmpTPg:NPages', 0)
        }

    def _index_document(self, doc: dict) -> None:
        """Indicizza documento su Elasticsearch per ricerca full-text."""
        self.es.index(
            index=f"ediscovery-{doc['matter_id']}",
            id=doc['doc_id'],
            document={
                'doc_id': doc['doc_id'],
                'matter_id': doc['matter_id'],
                'custodian_id': doc['custodian_id'],
                'filename': doc['filename'],
                'content': doc['extracted_text'],
                'author': doc.get('author', ''),
                'created_date': doc.get('created_date'),
                'modified_date': doc.get('modified_date'),
                'content_type': doc.get('content_type', ''),
                'language': doc.get('language', ''),
                'page_count': doc.get('page_count', 0),
                'file_size': doc['file_size'],
                'sha256': doc['sha256'],
                'collection_timestamp': doc['collection_timestamp'],
                'status': 'PROCESSED',
                'review_status': 'UNREVIEWED',
                'relevance_score': None,
                'privilege': False,
                'tags': []
            }
        )

Deduplicare: Detectare exactă și aproape duplicată

Într-o colecție tipică e-Discovery, 40-70% dintre documente sunt duplicate sau aproape duplicate. Acolo deduplicare este esențial nu numai pentru a reduce costurile de revizuire, dar este a cerință legală: producerea a mii de copii identice ale aceluiași e-mail încalcă regulile descoperire si creste costurile contrapartidei. Există două niveluri de deduplicare:

Niveluri de deduplicare în e-Discovery

Deduplicare exactă (pe baza hash): Documentele cu SHA-256 identic sunt duplicate exacte. Păstrați „copia de custodie” cu metadate mai relevante și conectați celelalte ca duplicate.
Near-Dedup (MinHash/LSH): Documente cu conținut similar, dar nu identic (e-mail cu semnătură adăugată, versiuni nefinalizate). Algoritmi precum MinHash cu Locality-Sensitive Hashingul identifică documentele cu similitudine Jaccard > 0,85.
Threading e-mail: Gruparea e-mailurilor în conversații (threads) pentru reduceți volumul de recenzii prezentând doar cel mai recent mesaj cu tot contextul.

"""
ediscovery/processing/deduplication.py
Near-deduplication con MinHash e LSH
"""
from datasketch import MinHash, MinHashLSH
import hashlib
from typing import Optional


class DeduplicationEngine:

    def __init__(self, num_perm: int = 128, threshold: float = 0.85):
        self.lsh = MinHashLSH(threshold=threshold, num_perm=num_perm)
        self.num_perm = num_perm
        self.processed: dict[str, str] = {}  # sha256 -> doc_id

    def is_exact_duplicate(self, sha256: str) -> Optional[str]:
        """Restituisce doc_id del duplicato esatto o None."""
        return self.processed.get(sha256)

    def register_document(self, doc_id: str, sha256: str, text: str) -> None:
        """Registra un documento nel sistema di dedup."""
        self.processed[sha256] = doc_id
        minhash = self._compute_minhash(text)
        self.lsh.insert(doc_id, minhash)

    def find_near_duplicates(self, text: str, query_doc_id: str) -> list[str]:
        """
        Trova near-duplicati del testo con Jaccard sim >= threshold.
        Restituisce lista di doc_id simili.
        """
        minhash = self._compute_minhash(text)
        results = self.lsh.query(minhash)
        return [r for r in results if r != query_doc_id]

    def _compute_minhash(self, text: str) -> MinHash:
        minhash = MinHash(num_perm=self.num_perm)
        # Shingling a livello di parola (3-gram)
        tokens = text.lower().split()
        shingles = [
            ' '.join(tokens[i:i+3])
            for i in range(len(tokens) - 2)
        ]
        for shingle in shingles:
            minhash.update(shingle.encode('utf8'))
        return minhash

Revizuire asistată de tehnologie și codare predictivă

Faza de revizuire este cea mai costisitoare din punct de vedere istoric: avocații seniori citesc fiecare document pentru clasificați-l ca relevant, irelevant sau privilegiat (acoperit de privilegiul avocat-client). The Analiza asistată de tehnologie (TAR) cu Învățare activă continuă (CAL) reduce drastic acest cost: modelul învață din deciziile și prioritățile evaluatorilor cele mai probabile documente relevante, permițându-vă să opriți revizuirea atunci când rata de rechemarea așteptată depășește un prag (de obicei 75% conform standardului TREC Legal Track).

"""
ediscovery/review/predictive_coding.py
Predictive Coding con Sentence Transformers e Active Learning
"""
from sentence_transformers import SentenceTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import numpy as np
from typing import Optional


class PredictiveCodingEngine:
    """
    Implementa TAR 2.0 (Continuous Active Learning).
    Il reviewer classifica documenti, il modello re-addestra
    e riordina la review queue.
    """

    def __init__(self, model_name: str = 'all-mpnet-base-v2'):
        self.encoder = SentenceTransformer(model_name)
        self.classifier = LogisticRegression(
            class_weight='balanced',
            max_iter=1000
        )
        self.scaler = StandardScaler()
        self.training_texts: list[str] = []
        self.training_labels: list[int] = []  # 1=rilevante, 0=non rilevante
        self.is_trained = False

    def add_review_decision(
        self,
        doc_text: str,
        is_relevant: bool
    ) -> None:
        """Aggiunge una decisione di review al training set."""
        self.training_texts.append(doc_text)
        self.training_labels.append(1 if is_relevant else 0)

        # Re-addestra quando ci sono abbastanza esempi (>=10 per classe)
        pos_count = sum(self.training_labels)
        neg_count = len(self.training_labels) - pos_count
        if pos_count >= 5 and neg_count >= 5:
            self._retrain()

    def _retrain(self) -> None:
        embeddings = self.encoder.encode(
            self.training_texts,
            batch_size=32,
            show_progress_bar=False
        )
        embeddings_scaled = self.scaler.fit_transform(embeddings)
        self.classifier.fit(embeddings_scaled, self.training_labels)
        self.is_trained = True

    def predict_relevance(
        self,
        texts: list[str]
    ) -> list[dict]:
        """
        Predice la rilevanza di una lista di documenti.
        Restituisce lista di {text_index, relevance_prob} ordinata per score desc.
        """
        if not self.is_trained:
            # Prima del training, restituisce ordine casuale
            return [
                {'index': i, 'relevance_prob': 0.5}
                for i in range(len(texts))
            ]

        embeddings = self.encoder.encode(
            texts,
            batch_size=32,
            show_progress_bar=False
        )
        embeddings_scaled = self.scaler.transform(embeddings)
        probabilities = self.classifier.predict_proba(
            embeddings_scaled
        )[:, 1]  # probabilità classe positiva

        results = [
            {'index': i, 'relevance_prob': float(p)}
            for i, p in enumerate(probabilities)
        ]
        return sorted(results, key=lambda x: x['relevance_prob'], reverse=True)

    def estimate_recall(
        self,
        reviewed_count: int,
        total_count: int,
        relevant_found: int
    ) -> float:
        """
        Stima il recall atteso usando il metodo seed+sample
        secondo TREC Legal Track guidelines.
        Semplificazione: usa il tasso di prevalenza osservato.
        """
        if reviewed_count == 0:
            return 0.0
        prevalence = relevant_found / reviewed_count
        estimated_total_relevant = prevalence * total_count
        if estimated_total_relevant == 0:
            return 1.0
        return min(relevant_found / estimated_total_relevant, 1.0)

Compararea platformelor e-Discovery

Piața platformelor e-Discovery este consolidată, dar evoluează rapid sub presiunea a AI. Iată o comparație a principalelor soluții disponibile în 2025-2026:

Platformă	Puncte forte	Limitări	Model de prețuri	Caracteristici AI
relativitatea	Standarde de întreprindere, ecosistem vast, API-uri mature	Complexitate de configurare, costuri ridicate	SaaS + auto-găzduit, per GB	RelevanțăAI, căutare conceptuală, detectarea anomaliilor
DISC	UX nativ, modern, AI integrat nativ	Ecosistem mai mic decât relativitatea	Abonament + utilizare	DISCO AI: codare predictivă, etichetare automată, întrebări și răspunsuri pe documente
Everlaw	Colaborare în timp real, UX excelent, gata de încercare	Mai puține caracteristici pentru cazurile de masă	Pe GB/lună	EverAI: codificare predictivă, rezumat, depunere Întrebări și răspunsuri
Logikcull	Self-service, prețuri transparente, integrare rapidă	Mai puțin potrivit pentru cazuri foarte complexe	Per GB sau abonament	Etichetare automată, căutare asistată, deduplicare avansată
Dezvăluie	AI avansată (Brainspace), NLP proprietar	Curbă abruptă de învățare	Licențiere pentru întreprinderi	Gruparea subiectelor, căutarea conceptului, detectarea anomaliilor

Export și producție de documente EDRM XML

Etapa finală este producerea documentelor către contrapartidă conform formatului convenit. Standardul EDRM XML definește o schemă XML pentru schimbul de documente cu toate acestea metadate, facilitând încărcarea pe orice platformă. Documentele vin de obicei produse cu Numerotarea Bates (numerotare progresivă unică) și cu redacție aplicat conținutului privilegiat.

"""
ediscovery/production/edrm_exporter.py
Generazione export EDRM XML con Bates numbering
"""
import xml.etree.ElementTree as ET
from datetime import datetime, timezone
from typing import Iterator


def generate_edrm_xml(
    documents: list[dict],
    matter_id: str,
    bates_prefix: str = "PROD",
    start_bates: int = 1
) -> str:
    """
    Genera EDRM XML per un set di documenti prodotti.
    Ogni documento riceve un Bates number univoco.
    """
    root = ET.Element('Root')
    root.set('DataInterchangeType', 'Processed')
    root.set('DateCreated', datetime.now(timezone.utc).isoformat())
    root.set('Encoding', 'UTF-8')
    root.set('MajorVersion', '1')
    root.set('MinorVersion', '2')

    batch = ET.SubElement(root, 'Batch')

    documents_el = ET.SubElement(batch, 'Documents')

    for idx, doc in enumerate(documents):
        bates_num = f"{bates_prefix}{str(start_bates + idx).zfill(7)}"

        doc_el = ET.SubElement(documents_el, 'Document')
        doc_el.set('DocID', doc['doc_id'])

        # Tags con metadata
        tags_el = ET.SubElement(doc_el, 'Tags')

        def add_tag(name: str, value: str, data_type: str = 'Text') -> None:
            tag = ET.SubElement(tags_el, 'Tag')
            tag.set('TagName', name)
            tag.set('TagValue', value)
            tag.set('TagDataType', data_type)

        add_tag('BatesNumber', bates_num)
        add_tag('DocID', doc['doc_id'])
        add_tag('MatterID', matter_id)
        add_tag('Custodian', doc.get('custodian_id', ''))
        add_tag('FileName', doc.get('filename', ''))
        add_tag('DateCollected', doc.get('collection_timestamp', ''), 'DateTime')
        add_tag('DateCreated', doc.get('created_date', ''), 'DateTime')
        add_tag('Author', doc.get('author', ''))
        add_tag('FileSize', str(doc.get('file_size', 0)), 'LongInteger')
        add_tag('SHA256', doc.get('sha256', ''))
        add_tag('ContentType', doc.get('content_type', ''))
        add_tag('ReviewStatus', doc.get('review_status', ''))
        add_tag('IsPrivileged', str(doc.get('privilege', False)), 'Boolean')
        add_tag(
            'RelevanceScore',
            str(round(doc.get('relevance_score', 0), 4)),
            'Decimal'
        )

    return ET.tostring(root, encoding='unicode', xml_declaration=True)

Considerații juridice critice

Deposedare: Distrugerea sau modificarea probelor după aceea și în mod rezonabil procedurile judiciare previzibile pot duce la sancțiuni severe, inclusiv concluzii adverse instrucțiuni (instruind juriul să presupună că probele distruse sunt nefavorabile).
Privilege Review: Documente acoperite de privilegiul avocat-client sau de muncă doctrina produsului trebuie identificată și redactată înainte de producție. O producție utilizarea accidentală a documentelor privilegiate poate fi contestată prin acorduri de recuperare (FRE 502(d)).
Confidențialitatea datelor transfrontaliere: Colectați date de la angajații europeni pentru Discovery USA necesită o analiză aprofundată a GDPR. Cadrul SUA-UE privind confidențialitatea datelor (2023) a simplificat transferurile, dar due diligence rămâne esențială.
Defensibilitatea AI: Instanțele solicită transparență cu privire la metodele TAR utilizate. Protocolul și pragul de rechemare alese trebuie să fie documentate și susținute.

Schema bazei de date pentru lanțul de custodie

Baza de date relațională și coloana vertebrală legală a platformei. Fiecare acțiune pe fiecare document trebuie urmărit cu marcaj de timp, utilizator și motiv pentru acțiune. Această pistă de audit trebuie fi imuabil: nicio înregistrare nu poate fi ștearsă sau modificată retroactiv.

-- Schema PostgreSQL per e-Discovery con audit trail immutabile

-- Matters (cause/procedimenti)
CREATE TABLE matters (
    matter_id     UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    matter_name   TEXT NOT NULL,
    matter_number TEXT UNIQUE NOT NULL,
    client_id     UUID NOT NULL,
    status        TEXT NOT NULL DEFAULT 'ACTIVE',
    created_at    TIMESTAMPTZ NOT NULL DEFAULT NOW(),
    closed_at     TIMESTAMPTZ
);

-- Custodians (soggetti i cui dati vengono raccolti)
CREATE TABLE custodians (
    custodian_id  UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    matter_id     UUID REFERENCES matters(matter_id),
    full_name     TEXT NOT NULL,
    email         TEXT NOT NULL,
    department    TEXT,
    hold_applied  BOOLEAN NOT NULL DEFAULT FALSE,
    hold_date     TIMESTAMPTZ
);

-- Documents (indice master dei documenti)
CREATE TABLE documents (
    doc_id           UUID PRIMARY KEY,
    matter_id        UUID REFERENCES matters(matter_id),
    custodian_id     UUID REFERENCES custodians(custodian_id),
    filename         TEXT NOT NULL,
    file_size        BIGINT NOT NULL,
    sha256           CHAR(64) NOT NULL,
    md5              CHAR(32) NOT NULL,
    s3_key           TEXT NOT NULL,
    content_type     TEXT,
    is_duplicate_of  UUID REFERENCES documents(doc_id),
    is_near_dup_of   UUID REFERENCES documents(doc_id),
    collection_timestamp TIMESTAMPTZ NOT NULL,
    status           TEXT NOT NULL DEFAULT 'COLLECTED',
    review_status    TEXT NOT NULL DEFAULT 'UNREVIEWED',
    relevance_score  NUMERIC(5,4),
    privilege        BOOLEAN NOT NULL DEFAULT FALSE,
    bates_number     TEXT UNIQUE,
    created_at       TIMESTAMPTZ NOT NULL DEFAULT NOW()
);

-- Custody events (audit trail immutabile)
-- Constraint: nessuna UPDATE/DELETE permessa
CREATE TABLE custody_events (
    event_id     UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    doc_id       UUID REFERENCES documents(doc_id),
    matter_id    UUID REFERENCES matters(matter_id),
    custodian_id UUID,
    collector_id UUID,
    event_type   TEXT NOT NULL,  -- COLLECTION, PROCESSING, REVIEW, PRODUCTION, etc.
    timestamp    TIMESTAMPTZ NOT NULL,
    source_path  TEXT,
    sha256       CHAR(64),
    md5          CHAR(32),
    file_size    BIGINT,
    s3_key       TEXT,
    user_id      UUID,
    notes        TEXT
);

-- Impedisce UPDATE e DELETE sulla tabella eventi
CREATE RULE no_update_custody_events AS
    ON UPDATE TO custody_events DO INSTEAD NOTHING;
CREATE RULE no_delete_custody_events AS
    ON DELETE TO custody_events DO INSTEAD NOTHING;

-- Review decisions
CREATE TABLE review_decisions (
    decision_id      UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    doc_id           UUID REFERENCES documents(doc_id),
    reviewer_id      UUID NOT NULL,
    decision         TEXT NOT NULL,  -- RELEVANT, NOT_RELEVANT, PRIVILEGED, NEEDS_REDACTION
    confidence       TEXT,           -- HIGH, MEDIUM, LOW
    review_timestamp TIMESTAMPTZ NOT NULL DEFAULT NOW(),
    notes            TEXT
);

Concluzii și pașii următori

Construirea unei platforme e-Discovery de nivel enterprise necesită o arhitectură care să echilibreze trei imperative adesea în tensiune între ele: performanta tehnica (procesează milioane de documente într-un timp rezonabil), corectitudinea juridică (lanțul de custodie imuabil, rechemare documentabil, revizuire a privilegiilor susceptibile) e utilizabilitate (recenziatorii sunt avocați, nu cercetători).

Componentele cheie pe care le-am explorat - ingestia criminalistică cu SHA-256, procesare implementat cu Apache Tika, deduplicare cu MinHash/LSH și Codare predictivă cu Active Învățare — reprezintă stadiul actual al sectorului în perioada 2025-2026. Adoptarea AI a transformat TAR de la tehnologie experimentală la standard de piață: 79% din platforme îl integrează în mod nativ astăzi.

În următorul articol din serie vom vedea cum să construim un Motor de conformitate cu motoare de reguli dinamice pentru a automatiza monitorizarea reglementărilor în timp real.

Resurse și perspective

EDRM (Electronic Discovery Reference Model): edrm.net
Documentația platformei relativității: relativitate.com/artificial-intelligence
TREC Legal Track Recall Guidelines: standardul de rechemare measure.it
FRE 502(d): Acorduri de recuperare pentru documente privilegiate produse accidental
datasketch - biblioteca Python pentru MinHash/LSH
transformatoare de propoziție: înglobări pentru codificare predictivă