Tecnologia

Il sistema dietro GiuliaAI: gai-3.1 come core multimodale, gBrain come memoria/RAG layer, vision, voce, avatar 3D e controllo profondo di Windows 11.

Architettura multimodale

Osserva, decide, agisce

GiuliaAI non riceve solo testo. Durante una live lavora su chat, voce, schermo, stato del sistema, gBrain e flussi video. gai-3.1 costruisce il contesto della live, decide se parlare, aspettare o agire, poi invia il risultato verso voce, avatar, OBS o Windows.

Input layer

Chat, audio, schermo, stato di Windows, video IRL da iPhone e segnali della live entrano nello stesso ciclo di elaborazione.

Context engine

gai-3.1 unisce contesto recente, memoria recuperata e output dei moduli vision/audio prima di decidere la prossima azione.

Action layer

Le decisioni diventano voce, movimento dell'avatar, comandi su Windows, automazioni OBS o interventi nella conversazione.

Input live

Chat & voce

Twitch, call, TTS loop, comandi e segnali conversazionali.

Schermo & OS

Desktop, finestre, processi, app, giochi e stato di Windows 11.

IRL iOS

Audio/video dal telefono durante live fuori dal setup desktop.

→↓

Core

gai-3.1

LLM multimodale, reasoning, routing verso specialisti e decision policy.

gBrain

Memory/RAG layer: profili, memorie, chunk e retrieval ibrido.

Vision engine

Frame filtering, screen understanding e contesto visuale.

Safety gate

Filtri su input, output e azioni critiche prima dell'esecuzione.

→↓

Output / azioni

Voce & avatar

TTS, espressioni, movimento avatar 3D e interventi in live.

Windows control

Driver input, API C#, PowerShell, finestre e applicazioni reali.

Regia live

OBS, overlay, bot di supporto e strumenti collegati al format.

Ciclo operativo: osserva → costruisce contesto → decide → agisce → verifica il risultato.

Visione: desktop e IRL

Il sistema vision serve a trasformare immagini in contesto utile. Sul PC legge lo schermo e interpreta giochi, applicazioni, browser e software creativi. In IRL, una app iOS privata invia audio e video dal telefono direttamente al modello.

Questa parte è già usata in live: non è un concept pubblico o una feature futura. È uno dei canali con cui GiuliaAI capisce cosa sta succedendo oltre alla chat.

Desktop vision

Campionamento dello schermo, lettura di finestre e interpretazione del contenuto visuale di giochi, browser e applicazioni.

IRL da iOS

Una app iOS privata invia audio e video dal telefono al modello durante le live IRL su Twitch.

Frame filtering

Non ogni frame è utile: il sistema seleziona momenti rilevanti e li trasforma in contesto sintetico per il controller.

Controllo profondo di Windows

La parte più delicata non è generare una risposta, ma trasformarla in azioni affidabili su un sistema operativo reale. GiuliaAI usa driver dedicati e API Windows in C# per interagire con Windows 11.

Windows 11 control layer

Driver, API e ciclo di verifica

Driver dedicati per simulare input mouse e tastiera a basso livello, senza dipendere da semplici macro UI.

API Windows in C# per interagire con finestre, processi, focus, shell, PowerShell e stato del sistema operativo.

Ciclo observe -> decide -> act -> verify: dopo un comando, GiuliaAI può controllare l'effetto sullo schermo e correggere l'azione successiva.

Integrazione con software reali come giochi, Photoshop, browser, OBS e strumenti usati durante la live.

Core model / decision layer

GiuliaAI 3.1

GiuliaAI 3.1, abbreviato gai-3.1, è il core AI e LLM multimodale che orchestra la live. Riceve testo, audio, vision, stato operativo e memoria; poi decide se rispondere, ragionare, usare uno strumento o trasformare l'intenzione in un'azione.

LLM multimodale

gai-3.1 genera linguaggio, interpreta contesto testuale e multimodale e mantiene coerenza conversazionale durante la live.

Routing verso specialisti

Un router decide quali moduli attivare: conversazione, vision, gBrain, computer control, avatar, voce o regia live.

Reasoning e verifica

Il modello può ragionare su più passaggi, controllare l’esito di un’azione e correggere il comportamento nel ciclo successivo.

Decision policy

Non ogni output diventa una frase: una decisione può trasformarsi in comando Windows, movimento avatar, domanda, silenzio o recupero memoria.

State manager

Mantiene lo stato della live: chi sta parlando, cosa è appena successo, quali task sono aperti e quali strumenti sono disponibili.

Safety gate

Filtra input e azioni critiche prima che una decisione diventi voce, comando, movimento o interazione con il computer.

Flusso logico di gai-3.1

Il flusso interno può essere letto così: input live, embedding/normalizzazione del contesto, blocchi di ragionamento, routing verso moduli specializzati, generazione della decisione e verifica dell'output. La parte importante è il routing: non tutto passa dallo stesso percorso, perché una domanda in chat, un frame di Photoshop e un comando su Windows richiedono specialisti diversi.

Per questo gai-3.1 è collegato direttamente a gBrain, vision, voce, avatar e Windows control. Il modello produce reasoning e intenzioni operative; gli strati esterni trasformano quelle intenzioni in azioni misurabili dentro la live.

Memory / RAG layer

gBrain

gBrain è lo strato di memoria sviluppato su misura per GiuliaAI. Riceve conversazioni, file, URL, codice, documenti e contenuti media; li trasforma in contesto recuperabile e lo restituisce a gai-3.1 quando serve.

Ingestion multimodale

Conversazioni, file, URL, documenti, codice, immagini, audio e video vengono estratti, puliti e trasformati in materiale indicizzabile.

Parsing type-aware

PDF, pagine web, Office, markdown e codice seguono pipeline diverse: OCR, trascrizione, metadati e chunking rispettano il tipo di contenuto.

Memories semantiche

Dal contenuto grezzo nascono unità di memoria: fatti, preferenze, eventi, pattern di community e chunk con significato recuperabile.

Memory graph

Le memorie vengono collegate con relazioni come updates, extends e derives, più un flag di attualità per evitare recuperi superati.

Retrieval ibrido

Una query può recuperare sia memorie sintetiche sia chunk documentali, combinando contesto personale e materiale oggettivo.

Reranking e query rewriting

Le query brevi o vaghe possono essere riscritte e i risultati riordinati per precisione prima di tornare a gai-3.1.

Profili utente

gBrain costruisce un profilo dinamico con preferenze, fatti stabili e attività recenti, così l’agente non deve ricostruire tutto a ogni richiesta.

Isolamento per contesto

Container tag e metadata filtering separano utenti, progetti, workspace e contesti diversi, evitando contaminazioni tra memorie.

Non è solo un vector database

gBrain separa input grezzi, chunk documentali e memorie semantiche. Un PDF, una chat o un file di codice non diventano semplicemente testo embeddizzato: vengono estratti, spezzati in modo coerente con il tipo di contenuto e collegati al contesto già esistente. Il codice, ad esempio, può essere diviso rispettando funzioni, classi e metodi invece di tagliare righe a caso.

Il grafo tiene traccia di aggiornamenti e relazioni tra fatti: una memoria può sostituire una vecchia informazione, estenderla con dettagli nuovi o derivare da pattern ricorrenti. Questo evita di recuperare contesto superato quando GiuliaAI deve rispondere o agire in live. In retrieval ibrido, gBrain può restituire sia fatti sintetizzati sia frammenti documentali originali, così gai-3.1 riceve contesto personale e conoscenza verificabile nello stesso passaggio.

Memoria live · aggiornamento ogni 5 minuti

Visualizzazione gBrain

Questa è la vista pubblica di gBrain: nodi, connessioni e attività recente della memoria. Non espone tutta la diagnostica interna, ma usa dati reali e si aggiorna periodicamente.

Apri gBrain

Voce, avatar e regia

Una decisione del controller non finisce sempre in testo. Può diventare voce sintetica, movimento dell'avatar 3D, cambio di espressione, intervento in una call o azione collegata alla regia della live.

Questa separazione tra ragionamento e output permette a GiuliaAI di usare più canali insieme senza confondere conversazione, movimento e controllo del computer.

Voce e canto

Il sistema gestisce TTS, timing degli interventi e sperimentazioni vocali come reinterpretazione di brani.

Avatar 3D

L'avatar non è solo lip sync: può ricevere pose, movimenti, espressioni e sequenze più complesse.

Regia live

Output verso OBS, overlay e tool di supporto permette di collegare la risposta AI alla produzione della diretta.

Runtime e integrazioni

Questa parte collega le decisioni di gai-3.1 al mondo esterno: input a basso livello, bridge Windows, strumenti live e software usati durante le dirette.

Low-level layer

Driver, input mouse/tastiera, componenti sensibili alla latenza e accesso controllato alle periferiche.

Windows bridge

API C#/.NET, PowerShell, gestione finestre, processi, focus applicazioni e stato di Windows 11.

Live runtime

Bridge audio/video, eventi della live, avatar, TTS, OBS, overlay e dashboard di controllo.

Dalla tecnologia alle demo

Vision, gBrain, voce, avatar e controllo Windows diventano esempi concreti nella pagina capacità.

Vedi le capacità Vai ai benchmark