Home
0h-n0 TechBLog
キャンセル

📄 論文解説: τ-bench — ツール・エージェント・ユーザー三者間インタラクションの評価ベンチマーク

本記事は τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains の解説記事です。 論文概要(Abstract) 既存のLLMエージェントベンチマークは、ツール使用を孤立した環境で評価するか、静的な入出力ペアで測定するため、現実世界の動的なエージェント-ユーザー間インタラクションを捉えられない。...

📄 論文解説: Mem0 — 本番運用を見据えたAIエージェント長期記憶レイヤーの設計と評価

本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory の解説記事です。 論文概要(Abstract) LLMの固定長コンテキスト制約は、長期間にわたるエージェント対話において一貫性と個別化の維持を困難にする。Mem0は、アプリケーションコードとLLMの間に「マネージドメモリレイヤー」を挿...

📄 ICML 2024論文解説: Larimar — 脳着想エピソード記憶によるLLMの動的知識更新

本記事は Larimar: Large Language Models with Episodic Memory Control (ICML 2024) の解説記事です。 論文概要(Abstract) LLMの知識を更新するには通常、再訓練やファインチューニングが必要であり、計算コストが高い。Larimarは、脳の補完学習システム(Complementary Learning Syste...

📄 論文解説: Judging LLM-as-a-Judge — MT-BenchとChatbot Arenaによる自動評価の体系的検証

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) LLMの評価は、人手アノテーションのコストとスケーラビリティの制約から自動化が求められている。本論文は「LLM-as-a-Judge」——LLM自身を評価者として用いる手法——の妥当性を体系的に検証した研究である。著者らは...

📄 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理

本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) LLMの固定長コンテキストウィンドウは、長期対話やドキュメント分析において深刻な制約となる。MemGPTは、OSの仮想メモリ管理に着想を得た「仮想コンテキスト管理(Virtual Context Management, VCM)」を提案した論文であ...

✍️ Semantic Kernel Process Framework: AIをビジネスプロセスに統合するイベント駆動アーキテクチャ

ブログ概要(Summary) 本記事は Integrating AI into Business Processes with the Process Framework の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。Zenn記事ではPython実装に焦点を当て...