Quelle part de la cognition peut s'exécuter au plus près de l'utilisateur ?
Nous étudions la frontière entre l'inférence locale, le raisonnement à l'échelle du cloud, le contexte privé et l'orchestration hybride.
- Routage et ordonnancement de modèles sur l'appareil.
- Fenêtres de contexte privées et mémoires persistantes.
- Cascades de modèles sensibles à la latence.