Home
0h-n0 TechBLog
キャンセル

📄 論文解説: JSONSchemaBench — LLM構造化出力の体系的ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2501.10868 の解説記事です。 JSONSchemaBenchは、LLMの構造化出力(Structured Output)を体系的に評価するベンチマークである。著者らは10,000件の実世界JSONスキーマを収集し、効率(efficiency)・カバレッジ(coverage)・品質(quality...

📄 論文解説: LMCache — エンタープライズLLM推論のための効率的KVキャッシュレイヤー

論文概要(Abstract) 本記事は https://arxiv.org/abs/2510.09665 の解説記事です。 LMCacheは、LLM推論におけるKVキャッシュをGPUメモリの外部に移動し、クエリ間および推論エンジン間で共有可能にするKVキャッシュ管理レイヤーである。従来、KVキャッシュはGPUメモリ上にのみ存在し、個々のクエリ処理後に破棄されていた。LMCacheはこのK...

📄 論文解説: A Few Good Clauses — LLM vs ドメイン特化小規模モデルの契約書抽出比較

論文概要(Abstract) 本記事は https://arxiv.org/abs/2605.05532 の解説記事です。 Lincoln らは、法的契約書からの構造化データ抽出タスクにおいて、ドメイン特化の小規模 Mixture of Experts(MoE)モデル「Olava Extract」が、5つの主要フロンティア LLM(Claude Opus 4.6、Claude Sonne...

📄 論文解説: ContractEval — LLMによる契約書条項レベルリスク特定ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2508.03080 の解説記事です。 ContractEvalは、商業契約書からの条項レベルのリスク特定タスクにおいてLLMの性能を体系的に評価するベンチマークである。著者らはCUAD(Contract Understanding Atticus Dataset)テストセットの4,128データポイント・...

📄 ICLR 2026論文解説: PromptArmor — LLMベースのシンプルかつ効果的なプロンプトインジェクション防御

本記事は PromptArmor: Simple yet Effective Prompt Injection Defenses (arXiv:2507.15219) の解説記事です。 論文概要(Abstract) 本論文は、LLMエージェントに対するプロンプトインジェクション攻撃を防御するための3段階フレームワーク「PromptArmor」を提案している。著者らは、専用モデルの訓練を必...

📄 ICML 2025論文解説: MELON — マスク再実行によるAIエージェントの間接プロンプトインジェクション防御

本記事は MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents (arXiv:2502.05174) の解説記事です。 論文概要 MELONは、LLMエージェントに対する間接プロンプトインジェクション(IPI)攻撃を検出するための防御フレームワークである。著者らは「攻撃が成功するとエー...

📄 論文解説: LlamaFirewall — AIエージェントのためのオープンソースガードレールシステム

論文概要 本記事は LlamaFirewall: An open source guardrail system for building secure AI agents (arXiv:2505.03574) の解説記事です。 Chennabasappa et al. (2025) は、LLMエージェントに対するプロンプトインジェクション・間接的なプロンプトインジェクション・安全でない...

📄 論文解説: Defeating Prompt Injections by Design — CaMeLによるアーキテクチャレベルの防御

論文概要 本記事は Defeating Prompt Injections by Design (arXiv:2503.18813) の解説記事です。 著者らは、LLMエージェントに対するプロンプトインジェクション攻撃をアーキテクチャレベルで防御するフレームワーク「CaMeL(CApabilities for MachinE Learning)」を提案している。CaMeLは、LLM自体の...