#LifeSciBench AIニュース

New

重要度: 高 OpenAI 研究 / ベンチマーク / 生命科学

Introducing LifeSciBench

2026-06-17 / 掲載更新: 2026/06/18 10:57 JST / 関連製品: LifeSciBench, OpenAI models, Agentic AI systems

短い要約

OpenAIは、実際の生命科学研究ワークフローに近いAI評価ベンチマーク「LifeSciBench」を発表しました。 750件の専門家作成タスク、1,062件の添付アーティファクト、19,020件のルーブリック基準で、研究支援能力を細かく評価します。

詳細

LifeSciBenchは、AIが単なる生物学知識の回答ではなく、実際の生命科学研究タスクを支援できるかを測るベンチマークです。タスクはPh.D.レベルの訓練とバイオテック/製薬業界経験を持つ173人の専門家が作成し、453人の専門レビュー担当者が評価しました。 750件のタスクは、エビデンス処理、分析、設計・最適化、科学的推論、検証・運用、トランスレーション、科学コミュニケーションの7ワークフローと7生物領域をカバーします。タスクの79%は複数ステップの推論や意思決定を必要とし、53%は図、PDF、表、配列ファイル、構造/化学ファイル、Web参照など少なくとも1つの添付アーティファクトの解釈・統合を要求します。評価は最終答えだけでなく、科学的に妥当な理由づけ、重要な caveat、運用上有用な形式まで、19,020件の詳細ルーブリックで採点します。開発者向けAPI変更、モデル移行期限、破壊的変更はありません。生命科学向けAIエージェントや研究支援モデルの評価に関わる研究者・開発者に重要です。

#OpenAI #LifeSciBench #Benchmark #Life Sciences #Scientific AI #Evaluation

公式ソースを読む