Quanta cognizione può funzionare vicino all'utente?
Studiamo il confine tra inferenza locale, ragionamento su scala cloud, contesto privato e orchestrazione ibrida.
- Routing e scheduling dei modelli on-device.
- Finestre di contesto privato e archivi di memoria.
- Cascate di modelli sensibili alla latenza.