Laboratorio tecnico

Benchmark tecnici

Criteri, task e baseline usati per misurare gai-3.1, gBrain, vision, controllo Windows e pipeline live.

Misure legate al sistema reale

GiuliaAI non è un chatbot isolato: durante una live lavora con chat, voce, schermo, memoria, avatar, OBS e controllo di Windows. Per questo i benchmark sono divisi per task tecnici, non per categorie generiche.

Un valore numerico ha senso solo se resta leggibile: stesso scenario, stessa configurazione, baseline chiara e versione del sistema indicata. Senza queste condizioni, la misura diventa più rumore che informazione.

Approccio

Il confronto non è “GiuliaAI contro un chatbot”. È task-based: modello, memoria, vision, controller e output live vengono misurati dove hanno responsabilità tecniche diverse.

Aree di benchmark

Ogni area corrisponde a una parte reale dell'architettura e a un comportamento osservabile durante le live.

Chat live italiana

Cosa misuraIntent detection, tono, turni di parola, gestione di slang, meme, messaggi incompleti e riferimenti della community.

ConfrontoCampioni normalizzati di chat live, versioni precedenti del comportamento conversazionale e prompt di riferimento.

Routing e decision policy

Cosa misuraScelta tra parlare, aspettare, recuperare memoria, usare vision, attivare uno specialista o inviare un comando.

ConfrontoDecisione single-pass, pipeline con controller e routing completo con safety, memoria e specialisti.

gBrain retrieval

Cosa misuraRecupero di fatti aggiornati, esclusione di informazioni superate, isolamento per contesto e profilo utente.

ConfrontoRicerca semantica semplice, retrieval ibrido, memory graph, profili e reranking.

Vision desktop e IRL

Cosa misuraLettura di finestre, UI, giochi, applicazioni, stato del desktop e flussi audio/video fuori dal setup principale.

ConfrontoCaption isolate, frame filtering, contesto multimodale e integrazione nel ciclo decisionale di gai-3.1.

Windows control

Cosa misuraPrecisione delle azioni su finestre, input driver, API Windows, PowerShell e software reali.

ConfrontoAutomazione a coordinate, stato del sistema verificato e controllo tramite driver/API dedicate.

Voce, avatar e regia

Cosa misuraTiming degli interventi, output vocale, canto, espressioni, movimento avatar 3D e segnali OBS.

ConfrontoOutput testuale puro, risposta vocale, avatar sincronizzato e regia live collegata al contesto.

Benchmark senza leaderboard generiche

Le capacità pubbliche restano nella pagina dedicata. Qui il focus è il modo in cui i moduli vengono misurati, confrontati e migliorati nel tempo.