📄 論文解説: ExecutionAgent — LLMエージェントによる任意プロジェクトのテスト自動実行

本記事は You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects (Isaku et al., 2024) の解説記事です。この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化するの深掘りです。Zenn記事ではLangSmithを活用したCI/C...

07/05/2026 blog paper

LLM-agent testing CI-CD +2

📄 論文解説: Judging the Judges — LLM-as-Judgeにおけるポジションバイアスの体系的研究

本記事は Judging the Judges: A Systematic Study of Position Bias in Pairwise Evaluation with LLM-as-a-Judge (Shi et al., 2024) の解説記事です。この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化するの深掘りです。LLM-...

07/05/2026 blog paper

LLM-as-Judge position-bias evaluation +2

📄 ICLR 2025論文解説: JudgeBench — LLM評価者自体の信頼性を問うベンチマーク

本記事は arXiv:2410.12784 の解説記事です。論文概要（Abstract） Tan, Zhuang, Montgomery ら（UC Berkeley / Washington University in St. Louis, 2024）は、LLM-based Judgeの信頼性を客観的に評価するベンチマーク JudgeBench を提案した。既存のベンチマークが人間の主...

07/05/2026 blog paper

LLM-as-Judge benchmark evaluation +2

📄 論文解説: InferAct — LLMエージェントの安全なアクション推論と事前評価

論文概要本記事は https://arxiv.org/abs/2407.11843 の解説記事です。 InferActは、LLMベースのエージェントが実行するアクションを事前に評価し、リスクの高いアクションを人間に確認させることで安全性を確保するフレームワークである。従来のアプローチがアクション実行後のエラー検出に依存していたのに対し、InferActはTheory-of-Mind（心...

07/05/2026 blog paper

LLM-agent safety evaluation +2

📄 論文解説: A Survey on LLM-as-a-Judge — LLM評価者の体系的サーベイ

論文概要（Abstract）本論文は、LLM（大規模言語モデル）を評価者として活用する「LLM-as-a-Judge」パラダイムに関する包括的サーベイである。著者らは、評価形式（pointwise/pairwise/binary/multiple-choice）、バイアスの分類（位置バイアス・冗長性バイアス・自己強化バイアスなど）、信頼性向上のための戦略（プロンプト設計・能力強化・出力最...

07/05/2026 blog paper

LLM-as-Judge evaluation bias +2

📄 論文解説: MemoryOS — OS設計に着想した3層階層メモリ管理システム

本記事は MemoryOS: LLM Agent Memory Management Operating System Inspired by OS (Ji et al., 2025) の解説記事です。論文概要（Abstract） MemoryOSは、オペレーティングシステム（OS）のストレージ階層設計をLLMエージェントのメモリ管理に適用した包括的フレームワークである。インコンテキス...

05/05/2026 blog paper

LLM memory-management operating-system +2

📄 論文解説: 再帰的要約によるLLMの長期対話メモリ実現

本記事は Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models (2023) の解説記事です。論文概要（Abstract）本論文は、LLMの固定長コンテキストウィンドウの制約を超えて長期対話メモリを実現する「再帰的要約チェーン」を提案している。会話を固定ウィンドウで処理し、...

05/05/2026 blog paper

LLM conversation-memory summarization +2

📄 論文解説: Mem0 — プロダクション対応のスケーラブルLLM長期メモリ層

本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (Chhikara et al., 2025) の解説記事です。論文概要（Abstract） Mem0は、AIエージェント・アシスタント向けのスケーラブルなメモリ層である。純粋なベクトル類似度検索やフルコンテキスト方式とは異なり、意...

05/05/2026 blog paper

LLM memory-management knowledge-graph +2

✍️ Anthropicブログ解説: AIエージェントのための効果的なコンテキストエンジニアリング

本記事は Effective context engineering for AI agents（Anthropic Applied AI team, 2025年9月）の解説記事です。ブログ概要（Summary） Anthropicの応用AIチームが発表した本ブログポストは、「コンテキストエンジニアリング」という概念を体系化した実践ガイドである。プロンプトエンジニアリング（初期プロンプ...

05/05/2026 blog tech_blog

LLM context-engineering memory-management +2

📄 論文解説: MemGPT — LLMをオペレーティングシステムとして捉える仮想コンテキスト管理

本記事は MemGPT: Towards LLMs as Operating Systems (Packer et al., 2023) の解説記事です。論文概要（Abstract） MemGPTは、オペレーティングシステム（OS）のメモリ階層の概念をLLMのコンテキスト管理に適用した研究である。固定長のコンテキストウィンドウを「主記憶（RAM）」、外部ストレージ（ベクターDB・ファイ...

05/05/2026 blog paper

LLM memory-management conversation-state +2

1
...
37
38
39
...
147
38 / 147