Производительность

Скорость меняет продукт.

Когда интеллект работает достаточно быстро, пользователи перестают ждать ответов и начинают работать с живым мышлением.

1000ms

Вплоть до наносекунд.
По задумке.

Отдельные рабочие нагрузки среды выполнения отрабатывают за наносекунды в измеренных условиях.

Методология

Бенчмарки должны объяснять, что они измеряют.

Заявления о производительности бессмысленны без определения рабочих нагрузок, контекста оборудования, тёплого/холодного состояния, размера полезной нагрузки, параллелизма и проверок корректности. Страницы Thyn используют сдержанные формулировки: отдельные рабочие нагрузки среды выполнения, а не продуктовые сценарии целиком.

Микробенчмарки

Измеряют узкие примитивы среды выполнения: обращения к кэшу, проверки политик, планирование, сериализацию и локальные пути исполнения.

Бенчмарки конвейеров

Измеряют полные циклы: извлечение контекста, исполнение модели, вызов инструментов, верификацию и сборку ответа.

Продуктовые бенчмарки

Измеряют реалистичные пользовательские задачи при холодных стартах, сетевых сбоях, вариативности моделей и различных формах клиентских данных.

Что мы оптимизируем.

Метрика

Измерение производительности

Почему это важно
Инженерный подход
Задержка p50 / p95

Медианное и хвостовое время отклика.

Пользователи воспринимают хвостовую задержку как сбой в работе.

Планирование, тёплые пути, локальное исполнение и ограниченные зависимости.

Время до решения

Длительность цикла от сигнала до действия.

Trading, агенты и системы роста зависят от своевременности решений.

Предвычисленный контекст, быстрые политики и минимум сетевых переходов.

Корректность на скорости

Качество при сниженной задержке.

Быстрые ошибающиеся системы не являются интеллектуальными.

Оценки, воспроизведение, проверки инвариантов и шлюзы отката.

Скорость открывает новые интерфейсы.

Живые copilot-помощники

Рассуждения, которые обновляются, пока пользователь печатает, перетаскивает, назначает цены, прокладывает маршруты, редактирует или тестирует, — подсказки, проверки и предпросмотры приходят в том же кадре, а не после спиннера.

Взаимодействие

Непрерывные симуляции

Агенты и торговые системы проверяют возможности в фоне, прежде чем переходить к действию. Тысячи сценариев прогоняются между нажатиями клавиш, поэтому система исследует исходы быстрее, чем человек успевает их запросить.

Планирование

Приватный контекст

Больше решений может использовать конфиденциальные данные без удалённого вызова API на каждом шаге. Локальное исполнение держит проприетарный контекст на устройстве, поэтому скорость и конфиденциальность перестают быть компромиссом.

Приватность

Приблизьте интеллект.