📄 論文解説: Memoria — 人間の記憶モデルに着想を得たスケーラブルなエージェントメモリフレームワーク

本記事は https://arxiv.org/abs/2512.12686 の解説記事です。論文概要（Abstract） Memoriaは、会話型AIシステムにおける長期メモリ能力を強化するために設計されたエージェントメモリフレームワークである。認知心理学のAtkinson-Shiffrinモデルに着想を得て、Sensory Memory、Short-Term Memory（STM）、...

29/05/2026 blog paper

memory conversational-AI RAG +2

✍️ Strands Agents SDK技術解説: エージェントアーキテクチャとObservabilityの深掘り

本記事は https://aws.amazon.com/blogs/machine-learning/strands-agents-sdk-a-technical-deep-dive-into-agent-architectures-and-observability/ の解説記事です。ブログ概要（Summary） AWSが公開したStrands Agents SDKは、LLMエージェ...

29/05/2026 blog tech_blog

aws strands-agents agent-architecture +2

📄 論文解説: MemMachine — Factual Ground Truthを保護するパーソナライズドAIエージェントメモリ

本記事は MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents（Al-Omari et al., 2025）の解説記事です。論文概要（Abstract） AIモデルがstatelessなエンジンからstatefulなエージェントへと進化する中で、対話履歴を跨いでユーザーの情報を保持・...

29/05/2026 blog paper

memory personalization knowledge-graph +2

📄 論文解説: DoVer — LLMマルチエージェントシステムの介入駆動型自動デバッグ

本記事は DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems（Ma et al., 2025）の解説記事です。論文概要（Abstract） LLMベースのマルチエージェントシステムは複雑なタスクを解決できる一方、障害発生時のデバッグが困難です。従来のログ分析では、長く分岐する実行トレースの中から障害...

29/05/2026 blog paper

LLM multi-agent debugging +4

📄 論文解説: MemoRAG — メモリ駆動型次世代RAGアーキテクチャ

本記事は MemoRAG: Moving Towards Next-Gen RAG via Memory-Inspired Knowledge Discovery（Qian et al., 2024）の解説記事です。論文概要（Abstract）長大なコンテキストの処理はLLMにとって依然として大きな課題です。近年のLLMは32Kや128Kトークンのコンテキストウィンドウを扱えるように...

29/05/2026 blog paper

RAG memory LLM +2

📄 論文解説: MuxServe ― 空間的・時間的多重化による複数LLMの効率的GPUサービング

本記事は arXiv:2401.02954 MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving の解説記事です。論文概要（Abstract） MuxServeは、複数のLLMを単一GPU（またはGPUクラスタ）上で効率的にサービングするために、空間的多重化（GPU Streaming Mul...

28/05/2026 blog paper

LLM inference GPU +5

✍️ Google Cloud解説: vLLMパフォーマンスチューニング実践ガイド ― GPU/TPUの推論構成最適化

本記事は vLLM Performance Tuning: The Ultimate Guide to xPU Inference Configuration の解説記事です。ブログ概要（Summary） Google CloudのField Solution ArchitectであるEric Hanleyらが2025年8月に公開したこのブログ記事は、vLLMの推論パフォーマンスを体系...

28/05/2026 blog tech_blog

vLLM GPU TPU +5

📄 論文解説: ServerlessLLM ― サーバレス環境でのLLM推論コールドスタート問題を解決する

本記事は arXiv:2406.03243 ServerlessLLM: Low-Latency Serverless Inference for Large Language Models の解説記事です。論文概要（Abstract） ServerlessLLMは、サーバレス（scale-to-zero）環境でLLM推論を行う際のコールドスタート問題を解決するシステムである。著者らは...

28/05/2026 blog paper

LLM inference serverless +5

✍️ Google Cloud解説: Vertex AIモデルco-hostingによるLLMサービング効率化

本記事は Closing the efficiency gap in LLM serving with model co-hosting with Vertex AI の解説記事です。ブログ概要（Summary） Google Cloudのエンジニアリングチーム（Ivan Nardini, Kathy Yu, Jiuqiang Tang）が2026年3月に公開したこのブログ記事は、Ve...

28/05/2026 blog tech_blog

Vertex-AI GCP LLM +5

📄 SOSP 2023論文解説: PagedAttentionによるLLMサービングの効率的メモリ管理 ― vLLMの中核技術

本記事は arXiv:2309.06180 Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。論文概要（Abstract） PagedAttentionは、OSの仮想メモリにおけるページング機構に着想を得たアテンションアルゴリズムであり、LLM推論時のKVキャ...

28/05/2026 blog paper

vLLM LLM inference +5

1
...
24
25
26
...
147
25 / 147