📄 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化

本記事は EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees (arXiv:2406.14066) の解説記事です。論文概要（Abstract）本論文は、Speculative Decodingの改良手法EAGLE-2を提案している。先行手法EAGLE-1（1層のAutoregressive He...

16/03/2026 blog paper

EAGLE speculative-decoding LLM-inference +3

📄 論文解説: Fast Inference from Transformers via Speculative Decoding

本記事は Fast Inference from Transformers via Speculative Decoding (arXiv:2211.17192) の解説記事です。論文概要（Abstract）本論文は、LLMの自己回帰推論を高速化するSpeculative Decoding（投機的デコーディング）を提案している。小さなドラフトモデル（draft model）でK個のト...

16/03/2026 blog paper

speculative-decoding LLM-inference latency +2

📄 論文解説: Orca - Continuous Batchingで実現するLLM推論の高スループットサービング

本記事は Orca: A Distributed Serving System for Transformer-Based Generative Models の解説記事です。論文概要（Abstract）本論文は、Transformerベースの生成モデルのサービングにおけるスケジューリング問題に対し、Continuous Batching（別名: iteration-level sc...

16/03/2026 blog paper

Orca continuous-batching LLM-inference +3

📄 論文解説: Efficiently Programming Large Language Models using SGLang

本記事は Efficiently Programming Large Language Models using SGLang (arXiv:2312.07910) の解説記事です。論文概要（Abstract）本論文は、LLMの呼び出しを効率的にプログラミングするためのフロントエンドDSL（SGLang言語）と、バックエンドのKVキャッシュ再利用最適化（RadixAttention）...

16/03/2026 blog paper

SGLang RadixAttention KV-cache +3

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。論文概要（Abstract）本論文は、LLM推論サービングにおけるKVキャッシュのメモリ管理問題に対し、OSの仮想メモリ管理からインスパイアされたPagedAt...

16/03/2026 blog paper

vLLM PagedAttention KV-cache +3

📄 論文解説: Authenticated Delegation and Authorized AI Agents

論文概要（Abstract）本記事は https://arxiv.org/abs/2501.10236 の解説記事です。自律AIエージェントがユーザーの代理で外部サービスにアクセスする際、「このエージェントは誰の権限で何をしてよいのか」を暗号的に保証する仕組みが欠けている。本論文では、署名付きDelegation Token（DT）、階層的ケイパビリティモデル、形式的な認可ロジックか...

15/03/2026 blog paper

delegation authorization AI-agent +4

📄 OOPSLA 2024論文解説: Cedar - A New Language for Expressive, Fast, Safe, and Analyzable Authorization

論文概要（Abstract）本記事は https://www.amazon.science/publications/cedar-a-new-language-for-expressive-fast-safe-and-analyzable-authorization の解説記事です。 Cedarは、AWSが開発したオープンソースの認可ポリシー言語であり、「ergonomic（使いやすい...

15/03/2026 blog paper

Cedar policy-language authorization +3

✍️ AWS公式ブログ解説: Multi-Agent collaboration patterns with Strands Agents and Amazon Nova

本記事は Multi-Agent collaboration patterns with Strands Agents and Amazon Nova（AWS Machine Learning Blog）の解説記事です。ブログ概要（Summary） AWSが開発したオープンソースのPython SDK「Strands Agents」を用いたマルチエージェント協調パターンの解説ブログであ...

15/03/2026 blog tech_blog

AWS Strands multi-agent +4

📄 論文解説: Agentic AI for Enterprise - Multi-Agent Orchestration with Guardrails

本記事は https://arxiv.org/abs/2501.17822 の解説記事です。論文概要（Abstract）本論文は、エンタープライズ環境においてAIをチャットボットレベルの対話支援から、信頼性の高い業務自動化へと移行するためのマルチエージェントオーケストレーションフレームワークを提案している。著者らは、構造化されたオーケストレーションパターン（Sequential, H...

15/03/2026 blog paper

multi-agent enterprise guardrails +4

✍️ AWS公式ブログ解説: Secure AI agents with Policy in Amazon Bedrock AgentCore

本記事は Secure AI agents with Policy in Amazon Bedrock AgentCore（AWS Machine Learning Blog）の解説記事です。ブログ概要（Summary） Amazon Bedrock AgentCore Policyは、AIエージェントのツール呼び出しをエージェントコードの外部で制御するセキュリティ機構である。AWSが...

15/03/2026 blog tech_blog

AWS Bedrock AgentCore +4

1
2
3
...
64
1 / 64