Tag

#AI coding agents

ニュース

New
重要度: 中 Google 研究・開発者向け / AIコーディングエージェント評価

Measuring What Matters with Jules

2026-06-22 / 掲載更新: 2026/06/23 07:06 JST / 関連製品: Jules, Google Labs, AI coding agents

短い要約
Google Developers Blogは、Julesを含むプロアクティブなAIコーディングエージェントを評価するための研究的取り組みを紹介しました。 SWE-Benchのようなタスク完了評価ではなく、目標に対して何を重要と判断して通知するかを測る「insight policy」が焦点です。
詳細
記事では、AIコーディングエージェントが単発タスクを解くだけでなく、コードベースを探索し、リスクや診断的洞察を能動的に提示する段階へ移っていると説明されています。 Google Labsの研究では、実際のバグ修正履歴を使い、時間的近接性と意味的類似性から、複数のバグが示す上位目標を推定する評価セットを作っています。 初期評価では、705件のバグと1,178件のCLを使い、修正前の状態に戻したコードベースをエージェントに探索させ、予測した洞察をLLMで1〜5点評価しました。 1回の探索では平均4.5/5の関連性が出た一方、複雑な問題では探索予算を2回から3回へ増やすことでHit@5が33%から57%へ改善したとされています。 Julesや将来のプロアクティブな開発エージェントでは、いつ通知し、いつ黙るべきかを評価することが重要になります。 製品の一般提供条件、無料/有料、日本での利用可否、APIの破壊的変更はこの記事では示されていません。
公式ソースを読む