¿Cuánta cognición puede ejecutarse cerca del usuario?
Estudiamos la frontera entre la inferencia local, el razonamiento a escala de nube, el contexto privado y la orquestación híbrida.
- Enrutamiento y planificación de modelos en el dispositivo.
- Ventanas de contexto privadas y almacenes de memoria.
- Cascadas de modelos sensibles a la latencia.