パフォーマンス

速度がプロダクトを変える

インテリジェンスが十分な速さで動くとき、ユーザーは答えを待つのをやめ、生きた認知とともに働き始める

1000ms

ナノ秒まで。
設計による。

選定されたランタイムワークロードは、計測条件下でナノ秒単位で実行される

方法論

ベンチマークは、何を計測しているのかを説明できなければならない

ワークロードの定義、ハードウェアの条件、ウォーム/コールド状態、ペイロードサイズ、並行性、そして正確性の検証がなければ、パフォーマンスの主張は意味をなさない。Thynのページでは慎重な表現を用いる。プロダクトフロー全体ではなく、選定されたランタイムワークロードである。

マイクロベンチマーク

緊密なランタイムプリミティブを計測する。キャッシュ参照、ポリシーチェック、スケジューリング、シリアライゼーション、そしてローカル実行パス。

パイプラインベンチマーク

ループ全体を計測する。コンテキスト取得、モデル実行、ツール呼び出し、検証、そしてレスポンスの組み立て。

プロダクトベンチマーク

コールドスタート、ネットワーク障害、モデルのばらつき、そして顧客データの形状にまたがる、現実的なユーザータスクを計測する。

私たちが最適化するもの

指標

パフォーマンスの次元

なぜ重要か
エンジニアリングのアプローチ
p50 / p95 レイテンシ

中央値とテールのレスポンス時間。

ユーザーはテールレイテンシを、壊れたフローとして感じ取る。

スケジューリング、ウォームパス、ローカル実行、そして依存関係の制限。

意思決定までの時間

シグナルからアクションまでのループの所要時間。

トレーディング、エージェント、成長システムは、意思決定のタイミングに依存する。

事前計算されたコンテキスト、高速なポリシー、そして最小限のネットワークホップ。

速度下での正確性

レイテンシを削減しながらの品質。

速くて間違ったシステムは、インテリジェントなシステムではない。

評価、リプレイ、不変条件チェック、そしてロールバックゲート。

速度が新しいインターフェースを解き放つ

ライブコパイロット

ユーザーが入力し、ドラッグし、価格を設定し、ルーティングし、編集し、テストする間に更新される推論。提案、チェック、プレビューは、スピナーの後ではなく同じフレーム内に届きます。

インタラクション

継続的なシミュレーション

エージェントとトレーディングシステムは、踏み切る前にバックグラウンドで可能性を検証します。キーストロークの合間に何千ものシナリオが走り、人が求めるよりも速くシステムが結果を探索します。

プランニング

プライベートなコンテキスト

より多くの意思決定が、ステップごとのリモートAPI呼び出しなしに機密データを活用できます。ローカル実行が独自のコンテキストをデバイス上に保つため、速度と機密性がトレードオフでなくなります。

プライバシー

知能を、もっと近くに。