AI Coding: paradigmi, context, RAG, Agent, Agent Loop e Swarms

Appunti e note al bel video di Simone Rizzo: https://www.youtube.com/watch?v=M3W4FEMmOHY
“Il Futuro della Programmazione: Agent Swarm”
In questo video parliamo del futuro degli agenti AI e dei paradigmi che stanno definendo la prossima generazione di intelligenza artificiale.

1. Completion models (code completion)

Primo paradigma: completion in editor, cioè un modello addestrato a completare il codice guardando il testo precedente e suggerendo il “pezzo successivo” (snippet, funzioni, ecc.).

Nota storica: il 2018 è l’anno di svolta rispetto i completamenti funzionali; con l’introduzione di Microsoft IntelliCode e Kite, che utilizzavano l’apprendimento automatico (Machine Learning) per offrire suggerimenti più intelligenti e contestuali, analizzando repository open source come GitHub.

Nel video viene mostrato anche l’uso dell’approccio “commento → codice”, dove un commento descrittivo porta alla generazione dell’implementazione (sempre come autocompletamento di codice).

2. Chatbot generalisti

Step successivo: usare chatbot generalisti (es. ChatGPT/Gemini) per generare blocchi più grandi (script interi, classi, test), ma con workflow ancora manuale e copia-incolla nell’editor.

3. Coding agents

Passaggio chiave nel mondo della programmazione: il coding agent come modulo con LLM + tool, integrato nell’editor, capace di creare/modificare file, leggere codebase, eseguire comandi e (se previsto) fare automazioni di browser.

Esempi di coding agent: Claude Code, Codex, Cline.

Cosa è un Coding Agent: LLM + set di funzioni/tool (creazione file, lettura file, sostituzioni, comandi shell, ricerca, web search, browser automation) che permettono di lavorare su un progetto (non solo su uno snippet).

Problema 1: ovviamente non posso buttare un intero repository nella mia Context Window…

Per gestire in modo intelligente la repo i coding agent usano un sistema RAG. Vedi sotto il capitolo dedicato, ma in sintesi ciò che viene operato è: embedding / vettorizzazione delle varie parti della codebase; inserimento su un DB vettoriale; recupero delle sole parti necessarie alla richiesta dell’utente (per non saturare il contesto).

Purtroppo non basta.

Problema 2: la Contex window è limitata. Con codebase medio-grandi il contesto si satura in poco tempo. Ogni modello ha un limite massimo di token gestibili in input (400k token, fino a 1M token), ma la codebase reale può superare ampiamente questo limite.

Inoltre già riempire la Context window a metà porta a un calo di prestazioni. Questo fenomeno viene detto Context rot.
Il degrado prestazionale avviene man mano che cresce l’input: dalla metà della context window in poi il modello tende a peggiorare e commettere più errori, fino a bloccarsi/saturarsi vicino al limite

Ecco perché si esplorano strategie come multi-agent (contesti separati) e, soprattutto, agent loop (con sessioni fresche o compattazione/editing del contesto).

4. Multi-agent systems (orchestrator + sub-agenti)

Per gestire task lunghi e ridurre saturazione del contesto, viene introdotto il paradigma multi-agente: un orchestratore dialoga con l’utente e delega a sub-agenti specializzati (frontend, backend, tester, ecc.), ciascuno con una propria context window “pulita”.

Limite: l’orchestratore tende comunque a saturarsi perché accumula la conversazione con l’utente e riceve molto testo di ritorno dai sub-agenti.

Ecco quindi che si arriva al nuovo paradigma di inizio 2026: l’Agent Loop.

5. Agent Loop (single agent, sessioni “fresh” o compaction)

  • Nuovo paradigma introdotto/accelerato da Ralph: si scarta il multi-agent “classico” e si torna a un singolo agente in loop, che riparte spesso con contesto pulito e usa file di spec/progresso come memoria esterna.
  • Come funziona:
    • abbiamo un singolo agente AI, che vive in un ciclo e viene chiamato ogni volta;
    • tutte le volte che viene chiamato la Context Windows si pulisce oppure viene editata e sfoltita;
    • l’agente tiene memoria e porta avanti le cose da fare tramite un PRD (Product Requirement Document) e un progress.txt – il PRD viene popolato all’avvio con tutte le specifiche di progetto, il progress tarrà traccia dell’avanzamento dei task;
    • in sostanza l’AI Agent parte e cicla (a ogni ciclo con contesto pulito) fino a che non completa tutti gli step presenti nel progress.txt (seguendo le direttive del PRD)
  • Concetto utilizzato dagli Agent Loop: Spec-Driven Development – SDD

6. Agent Swarms (parallelismo + auto-creazione agenti)

  • Ultimo paradigma presentato: Agent Swarm, dove un orchestratore crea automaticamente sub-agenti e assegna task in parallelo, combinando orchestrazione + parallelismo + (idealmente) loop/contesti gestiti per evitare degrado.
  • Lanciato da Kimi (modello K2.5) la capacità di orchestrare fino a 100 sub-agenti e fino a 1500 tool calls, con risparmi di tempo indicati come ~4.5–5x rispetto al single-agent setup.

RAG su codebase: vettorizzazione + retrieval semantico

1) Chunking: ogni script/file viene spezzato in snippet di codice.
2) Embedding: ogni snippet passa in un modello di embedding che lo converte in un vettore.
3) Vector DB: i vettori vengono salvati in un database vettoriale (spazio dove la vicinanza rappresenta similarità semantica).
4) Query embedding: anche la query dell’utente viene convertita in vettore.
5) Semantic search: si cercano i punti più vicini (top‑k) e si recuperano gli snippet associati.
6) Re-ranking: un reranker decide quali snippet tenere/scartare, prima di passarli all’agente come contesto effettivo.
7) Prompt assembly: l’agente usa gli snippet selezionati come input, invece di leggere tutto

Nota: se l’utente indica esplicitamente file/riga/nome script, l’agente può bypassare la semantica e usare tool di ricerca mirata (file lookup/keyword) per leggere solo il necessario.

Re-ranker: ruolo e varianti menzionate

  • Il reranker utilizzato nei RAG è un secondo modello che, dati query + snippet candidati, sceglie cosa includere nel prompt finale per massimizzare rilevanza e ridurre rumore.
  • esistono molti reranker, come Jina reranker, bge reranker base e reranker specializzati per dominio (scientifico/medico) o per lingua (es. polacco).

Link e menzioni del video


Immagine copertina: Watercolour depiction of the fly agaric, 1892. Likely painted at an art class near Bristol, England, the writing says “Agaricus muscarius” and “Leigh woods Sept/92”.

Screenshot e contenuti estratti dal video di Simone Rizzo.

Summary
 Il Futuro della Programmazione: Agent Swarm
Title
Il Futuro della Programmazione: Agent Swarm
Description

In questo video parliamo del futuro degli agenti AI e dei paradigmi che stanno definendo la prossima generazione di intelligenza artificiale. Partiamo dai modelli completion, passiamo ai chatbot, ai coding agent, fino ai sistemi multi-agent, agli agent loop e infine al nuovissimo concetto di agent swarm. Spiego nel dettaglio come funzionano i coding agent, perché il problema della context window e del context rot limita le loro performance, e come i ricercatori stanno risolvendo il problema con nuovi loop e architetture. Analizziamo alcune delle soluzioni più interessanti già disponibili.

Pubblicato in AI, Data Science.