task_id video run score cat steps pred question files context kinds
Keyboard: ←/→ navigate · Esc back

Question / 質問

🎥 Video / 動画

📝 Transcript (Whisper) / 文字起こし

Context files (input data) / 入力データ

✅ Gold answer / 正解 (read-only display, not visible to agents)

🔬 Failure analysis (v1) / 失敗分析

🤖 Run result (baseline) / Baseline 実行結果

Prediction (model output) / モデル出力

Steps (ReAct trace) / ステップ