- ✍️ Anthropic解説: Effective Context Engineering for AI Agents
- ✍️ Anthropic解説: Claude Code Best Practices for Agentic Coding
- 📄 論文解説: プロンプトキャッシュ戦略の体系的分析 — Claude/GPT-4/GeminiのAPIコスト60-80%削減
- 📄 論文解説: RAG-Gym — MDP定式化とプロセス監督によるAgentic RAG最適化
- 📄 ICML 2025論文解説: Flexible and Efficient Grammar-Constrained Decoding
論文概要(Abstract) LLMの評価は通常、単一のプロンプトテンプレートで行われる。しかし「プロンプト感受性」により、テンプレートを変えるだけでベンチマークスコアが最大10ポイント変動し、モデルランキングが大きく入れ替わることが25モデル×6タスクの大規模実験で明らかになった。本論文はこの問題を定量化し、多様なプロンプトセットを用いたマルチプロンプト評価手法を提案する。 この記事は...