Predicting model behavior before release by simulating deployment
OpenAIは、新モデル公開前に実運用に近い会話文脈を再現して望ましくない挙動を予測する「Deployment Simulation」を紹介しました。
GPT-5系Thinkingモデルやエージェント的なツール利用環境で、従来評価より実運用時のリスク推定を改善できたと説明しています。
従来の安全性評価は、合成プロンプトや高リスクケースに偏りやすく、実際の利用分布でどの程度問題が起きるかを推定しにくい課題がありました。
Deployment Simulationは、過去の会話から元のアシスタント応答を取り除き、公開候補モデルで応答を再生成して、実運用に近い分布で望ましくない挙動を測ります。
OpenAIは、GPT-5系Thinkingモデルの複数デプロイで、望ましくない挙動の発生率推定、未知のミスアラインメント検出、モデルが評価中だと認識するリスクの低減に役立ったとしています。
約130万件の匿名化済み会話を分析し、GPT-5.4 Thinkingでは20種類の望ましくない挙動について事前登録した予測も行っています。
エージェント的なコーディング環境では、ライブ環境に実ツールを実行せず、リポジトリ状態や過去のツール応答を使ってツール呼び出しをシミュレーションする方法も示されています。
開発者向けのAPI変更や移行期限はありませんが、モデル公開前評価、レッドチーム、システムカード、エージェント安全性評価に関わるチームには重要な研究更新です。