Introducing LifeSciBench
OpenAIは、実際の生命科学研究ワークフローに近いAI評価ベンチマーク「LifeSciBench」を発表しました。
750件の専門家作成タスク、1,062件の添付アーティファクト、19,020件のルーブリック基準で、研究支援能力を細かく評価します。
LifeSciBenchは、AIが単なる生物学知識の回答ではなく、実際の生命科学研究タスクを支援できるかを測るベンチマークです。
タスクはPh.D.レベルの訓練とバイオテック/製薬業界経験を持つ173人の専門家が作成し、453人の専門レビュー担当者が評価しました。
750件のタスクは、エビデンス処理、分析、設計・最適化、科学的推論、検証・運用、トランスレーション、科学コミュニケーションの7ワークフローと7生物領域をカバーします。
タスクの79%は複数ステップの推論や意思決定を必要とし、53%は図、PDF、表、配列ファイル、構造/化学ファイル、Web参照など少なくとも1つの添付アーティファクトの解釈・統合を要求します。
評価は最終答えだけでなく、科学的に妥当な理由づけ、重要な caveat、運用上有用な形式まで、19,020件の詳細ルーブリックで採点します。
開発者向けAPI変更、モデル移行期限、破壊的変更はありません。生命科学向けAIエージェントや研究支援モデルの評価に関わる研究者・開発者に重要です。