- 📄 論文解説: Multi-Modal Vision vs. Text-Based Parsing — LLMによる請求書処理戦略のベンチマーク
- 📄 EMNLP 2025論文解説: Memory OS of AI Agent — LLMエージェントのためのOS型メモリ管理
- ✍️ AWS公式ブログ解説: Amazon Bedrock AgentCore Evaluationsで信頼性の高いAIエージェントを構築する
- 📄 ICSE 2026論文解説: TraceCoder — トレース駆動型マルチエージェントによるLLM生成コードの自動デバッグ
- 📄 論文解説: AgenTracer — LLMエージェントシステムの障害トレーシングと根本原因分析
本記事は https://arxiv.org/abs/2509.04469 の解説記事です。 論文概要(Abstract) 本論文は、請求書からの情報抽出タスクにおいて、マルチモーダルLLMの2つの処理戦略――画像を直接入力する「Native Vision」と、Doclingでドキュメントを事前にMarkdownへ変換してからテキストとして入力する「Docling変換」――をゼロショット...