📄 論文解説: SGLang RadixAttention — Radix Treeによる自動KV Cache共有でLLMサービングを高速化

本記事は arXiv:2312.07104 Efficiently Programming Large Language Models using SGLang の解説記事です。論文概要（Abstract） SGLangは、大規模言語モデル（LLM）アプリケーションを効率的に実行するためのシステムである。フロントエンド言語とランタイムの2層で構成され、ランタイム側の中核技術として Ra...

29/04/2026 blog paper

kv-cache radix-tree llm-serving +3

📄 論文解説: CacheBlend — RAGシステム向けKV Cache融合による高速LLMサービング

本記事は arXiv:2312.03052 CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion の解説記事です。なお、本論文の正式なarXiv IDは 2405.16444 に更新されており、ACM EuroSys 2025にてBest Paperを受賞した。以下の解説はEu...

29/04/2026 blog paper

kv-cache rag llm-serving +3

📄 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション基盤

本記事は arXiv:2308.08155 AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation の解説記事です。論文概要（Abstract） AutoGenは、複数のエージェントが相互に会話することでタスクを遂行するLLMアプリケーションを構築するためのオープンソースフレームワークである。各エ...

29/04/2026 blog paper

LLM multi-agent AutoGen +4

📄 論文解説: ReWOO — 観察なし推論による効率的なLLMツール並列実行

本記事は ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models（Xu et al., 2023）の解説記事です。論文概要（Abstract） ReWOO（Reasoning WithOut Observation）は、Augmented Language Model（A...

29/04/2026 blog paper

LLM agent ReWoo +4

📄 論文解説: LLM-based Automated Code Review — 87本のメタ分析から見えるファインチューニングの有効性

本記事は https://arxiv.org/abs/2501.07902 の解説記事です。論文概要（Abstract） Kumarらは、LLMを用いた自動コードレビューに関する系統的文献レビュー（Systematic Literature Review; SLR）を実施し、2020年から2024年にかけて発表された87本の論文を分析した。主要な発見として、（1）ドメイン特化データによ...

28/04/2026 blog paper

code-review LLM survey +6

📄 論文解説: SWE-LoRA — LoRAベースのポリシー改良によるコスト効率的ソフトウェアエンジニアリングエージェント

本記事は https://arxiv.org/abs/2502.17505 の解説記事です。論文概要（Abstract） SWE-LoRA は、実世界のソフトウェアエンジニアリング（SE）タスクを小規模言語モデルで解決するための手法である。Claude 3.5 Sonnet のようなフロンティアモデルは SWE-bench で高い性能を示す一方、推論コストが実運用の障壁となっている。著...

28/04/2026 blog paper

SWE-bench LoRA software-engineering +5

📄 論文解説: MoELoRA — LoRAアダプタへのMoEルーティング導入によるパラメータ効率的ファインチューニングの拡張

本記事は https://arxiv.org/abs/2502.20894 の解説記事です。論文概要（Abstract） MoELoRAは、パラメータ効率的ファインチューニング（PEFT）手法であるLoRAに対して、Mixture-of-Experts（MoE）フレームワークを統合した手法である。従来のLoRAが各重み行列に対して単一のlow-rank分解を適用するのに対し、MoELo...

28/04/2026 blog paper

MoE LoRA routing +6

📄 論文解説: MoE-LoRA — MoEモデルのエキスパート層に特化したパラメータ効率的ファインチューニング

論文概要（Abstract）本記事は https://arxiv.org/abs/2402.00367 の解説記事です。 Mixture-of-Experts（MoE）モデルは近年のLLM開発において有力なアーキテクチャとして注目されているが、パラメータ数の膨大さからフルファインチューニングが困難である。本論文では、MoEモデルのexpert層のみにLoRAアダプタを適用するMoE-L...

28/04/2026 blog paper

MoE LoRA fine-tuning +5

📄 論文解説: Data-efficient LLM Fine-tuning for Code Generation

本記事は https://arxiv.org/abs/2504.12687 の解説記事です。論文概要（Abstract）大規模言語モデル（LLM）をコード生成タスクにファインチューニングするには、大量かつ高品質な学習データが必要となる。しかし、データの希少性や収集コストの高さが現実的な課題として存在する。本論文では、学習データ量を削減しつつモデル性能を維持・向上させるデータ効率的なフ...

28/04/2026 blog paper

fine-tuning data-efficiency code-generation +5

📄 論文解説: GASP — Guided Asymmetric Self-Play for Continued Improvement of LLMs

本記事は arXiv:2603.15957 “GASP: Guided Asymmetric Self-Play for Continued Improvement of LLMs”（Song et al.、2025年3月）の解説記事です。論文概要（Abstract） GASP（Guided Asymmetric Self-Play）は、外部の強力な教師モデル（Teacher）を用いて...

27/04/2026 blog paper

selfplay adversarial teacher-student +2

1
...
52
53
54
...
154
53 / 154