Home
0h-n0 TechBLog
キャンセル

📄 論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク

論文概要 ToolSandboxは、Apple Researchが提案した大規模言語モデル(LLM)のツール利用能力を評価するための、ステートフル・対話型ベンチマークである。既存のベンチマークが単発のFunction Calling評価に留まるのに対し、ToolSandboxは状態を持つツール実行環境と対話型ユーザシミュレータを組み合わせ、マルチターンかつ状態依存のタスクに対するLLMの能...

✍️ Google Developers Blog解説: Agent2Agent (A2A) Protocol — AIエージェント間相互運用の新標準

本記事は Google Developers Blog: Announcing the Agent2Agent Protocol の解説記事です。 ブログ概要(Summary) 2025年4月、GoogleはAIエージェント間の相互運用性を実現するオープンプロトコル「Agent2Agent(A2A)」を発表した。50社以上のテクノロジーパートナー(Atlassian、Salesforce...

📄 論文解説: Stateful Large Language Model Serving with Pensieve

本記事は https://arxiv.org/abs/2312.05516 の解説記事です。本記事の著者自身が実験を行ったものではなく、論文の内容を解説・引用したものです。 論文概要(Abstract) Pensieveは、マルチターン会話におけるLLMサービングの効率を大幅に改善するシステムである。従来のステートレスなLLMサービングでは、会話のターンごとに過去の会話履歴を繰り返し再処...

✍️ CNCFブログ解説: すべてのAIプラットフォームがKubernetesに収斂する理由

本記事は The Great Migration: Why Every AI Platform is Converging on Kubernetes(CNCF公式ブログ、2026年3月5日公開)の解説記事です。 ブログ概要(Summary) AmazonのSabari Sawant氏がCNCF公式ブログに寄稿したこの記事は、Kubernetesが単なるマイクロサービスオーケストレーター...

✍️ OpenAI Responses API設計思想の解説:Assistants APIからの進化と技術的背景

ブログ概要(Summary) OpenAIが公開したブログ記事「Why we built the Responses API」では、Chat Completions APIの設計上の制約を克服するためにResponses APIを構築した背景と技術的設計思想が述べられている。推論状態のターン間保持(Reasoning State Preservation)、多態的な出力アイテム(Polym...