Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Judging LLM-as-a-Judge — MT-BenchとChatbot Arenaによる自動評価の体系的検証

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) LLMの評価は、人手アノテーションのコストとスケーラビリティの制約から自動化が求められている。本論文は「LLM-as-a-Judge」——LLM自身を評価者として用いる手法——の妥当性を体系的に検証した研究である。著者らは...

📄 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理

本記事は MemGPT: Towards LLMs as Operating Systems の解説記事です。 論文概要(Abstract) LLMの固定長コンテキストウィンドウは、長期対話やドキュメント分析において深刻な制約となる。MemGPTは、OSの仮想メモリ管理に着想を得た「仮想コンテキスト管理(Virtual Context Management, VCM)」を提案した論文であ...

✍️ Semantic Kernel Process Framework: AIをビジネスプロセスに統合するイベント駆動アーキテクチャ

ブログ概要(Summary) 本記事は Integrating AI into Business Processes with the Process Framework の解説記事です。 この記事は Zenn記事: Semantic Kernel v1.41 Process FrameworkでAIワークフロー自動化を実装する の深掘りです。Zenn記事ではPython実装に焦点を当て...

📄 論文解説: τ-bench — ツール・エージェント・ユーザの3者インタラクションベンチマーク

本記事は arXiv:2406.12045 “τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains” の解説記事です。 論文概要(Abstract) LLMエージェントのツール使用能力を、ユーザとの動的な会話の中で評価するベンチマークを提案した研究である。著者らは小売(retail)と航空(a...

📄 ACL 2025論文解説: Meta-Tool — オープンワールドFunction Callingの実現

本記事は ACL 2025 “Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models” の解説記事です。 論文概要(Abstract) 汎用LLMに外部ツールライブラリへの動的アクセス能力を付与するMeta-Toolシステムと、オープンワールド...