Home
0h-n0 TechBLog
キャンセル

📄 ICML 2024論文解説: LLMCompiler — LLMの並列Function Callingを最適化するコンパイラフレームワーク

本記事は LLMCompiler: An LLM Compiler for Parallel Function Calling の解説記事です。 論文概要(Abstract) LLMCompilerは、LLM(大規模言語モデル)が外部関数を呼び出す際の逐次実行ボトルネックを解消するために、古典的コンパイラの命令レベル並列性(ILP: Instruction-Level Paralleli...

📄 NeurIPS 2024論文解説: Chain of Agents — マルチエージェント協調による長文コンテキスト処理

論文概要(Abstract) 本記事は NeurIPS 2024で発表されたChain of Agents論文 の解説記事です。 Chain of Agents(CoA)は、長文コンテキストタスクに対してマルチエージェント協調を活用するフレームワークである。入力テキストをチャンクに分割し、複数のWorkerエージェントが逐次的に読み進めながらメッセージを引き継ぐことで、限られたコンテキス...

📄 論文解説: Mem0 — スケーラブルな長期記憶でAIエージェントのコンテキスト消費を97%削減

論文概要(Abstract) 本記事は arXiv:2503.10657 の解説記事です。 Mem0(「メム・ゼロ」と発音)は、AIエージェント向けのスケーラブルなメモリ層である。会話からセマンティックに関連する情報を離散ファクトとして抽出し、ベクターデータベースとグラフデータベースのハイブリッドストレージに保存する。著者らは、LOCOMOベンチマークにおいてFull Context(全...

✍️ Microsoft Tech Blog解説: LLM推論最適化スタック — エンタープライズ向け優先順位付きプレイブック

ブログ概要(Summary) 本記事は The LLM Inference Optimization Stack: A Prioritized Playbook for Enterprise Teams の解説記事です。 Microsoftが2026年3月に公開したエンタープライズ向けLLM推論最適化の包括的ガイドであり、GPU活用率の最大化、量子化、vLLMエンジン最適化、モデル選択戦...

📄 論文解説: OPRO — LLM自身をプロンプト最適化器として活用する手法

論文概要(Abstract) 本記事は arXiv:2309.03409 “Large Language Models as Optimizers” の解説記事である。Yang et al.(Google DeepMind)は、LLM自身を最適化器として活用し、自然言語で記述されたプロンプトを反復的に改善する手法「OPRO(Optimization by PROmpting)」を提案した。...

📄 論文解説: Lost in the Middle — LLMの長文コンテキスト活用における位置バイアスの実証分析

論文概要(Abstract) 本記事は arXiv:2307.03172 “Lost in the Middle: How Language Models Use Long Contexts” の解説記事である。Nelson F. Liu et al.は、LLMが長いコンテキストウィンドウ内で情報を活用する際、先頭と末尾に配置された情報は高い確率で活用されるが、中央に配置された情報は大幅に...

📄 論文解説: DSPy — 宣言的LLMパイプラインの自動プロンプト最適化フレームワーク

論文概要(Abstract) 本記事は arXiv:2310.03714 “DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines” の解説記事である。Khattab et al.は、LLMパイプラインにおけるプロンプトを手動で調整する代わりに、タスクの入出力仕様を宣言的に定義し、コンパイ...

📄 論文解説: TALE — Token-Budget-Aware LLM Reasoning

論文概要(Abstract) 本記事は arXiv:2412.18547 の解説記事です。 TALE(Token-Budget-Aware LLM Reasoning)は、Chain-of-Thought(CoT)推論におけるトークン消費の非効率性に対処するフレームワークである。著者らは、推論性能とトークン効率のバランスがトークンバジェット(推論に使用するトークン数)に対して高感度である...

📄 論文解説: TokenSelect — 動的トークンレベルKVキャッシュ選択による長文推論の高速化

論文概要(Abstract) TokenSelectは、LLMの長文推論におけるKVキャッシュの計算コスト問題に対して、per-head動的トークンレベル選択という新しいパラダイムを提案する手法である。従来のKVキャッシュ圧縮手法がトークンの永久削除や固定的な選択戦略に依存していたのに対し、TokenSelectはQuery-Keyドット積インデックスとVoting機構を組み合わせ、各アテ...