Home
0h-n0 TechBLog
キャンセル

📄 COLING 2025論文解説: Benchmark Self-Evolving — マルチエージェントによる動的LLM評価フレームワーク

論文概要(Abstract) Benchmark Self-Evolvingは、マルチエージェントシステムを活用して既存のベンチマークを動的に拡張するフレームワークである。6つのリフレーミング操作を定義し、元のベンチマーク問題から派生する新しい評価インスタンスを自動生成する。これにより、データ汚染(data contamination)によるスコア膨張を回避し、LLMの真の問題解決能力をよ...

✍️ Microsoft Research解説: LLM評価のための完全メトリクスフレームワーク — GPU利用率からユーザー満足度まで

ブログ概要(Summary) Microsoft ResearchのExperimentation Platform(ExP)チームが2023年9月に発表した技術記事で、LLM機能の評価に必要なメトリクスを4カテゴリに体系化したフレームワークを提唱している。従来のA/Bテストに加え、LLM特有の評価軸(GPU利用率、Responsible AI、ストリーミング性能、ユーティリティ)を統合し...

✍️ LangChain公式解説: マルチエージェントアーキテクチャの4パターン — Subagents・Skills・Handoffs・Router徹底比較

ブログ概要(Summary) LangChainのSydney Runkleが2026年1月に公開した「Choosing the Right Multi-Agent Architecture」は、マルチエージェントシステムの4つのアーキテクチャパターン — Subagents、Skills、Handoffs、Router — を体系的に比較分析した記事である。各パターンの強み・弱み・適用場...

📄 論文解説: LLMの完全バイナリ化に挑む — W(1+1)A(1×4)ポストトレーニング量子化の技術詳細

論文概要(Abstract) 本論文は、既に学習済みのLLM(Llama等)を追加学習なしで重み1ビット+活性化1ビットに量子化する「ポストトレーニング量子化(PTQ)」手法を提案する。核となるのは W(1+1)A(1×4) 構成と呼ばれるフレームワークで、重みにはHessian情報を活用した細粒度グルーピング+EM(期待値最大化)ベースの最適量子化点決定を適用し、活性化にはINT4量子化...

📄 NeurIPS 2024論文解説: LLM-Check — LLMのHallucination検出手法の体系的評価

論文概要(Abstract) LLM-Checkは、大規模言語モデルにおけるHallucination検出手法を体系的に調査した研究である。単一モデル応答からのHallucination検出において、内部状態の分析、注意機構のパターン、出力確率スコアを活用する手法を提案・評価し、ホワイトボックスとブラックボックス両方の設定で動作する検出フレームワークを構築した。既存手法と比較して45x〜4...

✍️ NVIDIA技術ブログ解説: GitOpsベースLLMOpsパイプラインによるモデル評価の自動化

ブログ概要(Summary) NVIDIA Developer Blogに2025年6月に掲載された技術記事で、通信大手AmdocsがGitOpsベースのLLMOpsパイプラインを構築し、カスタムLLMのファインチューニングから評価・デプロイまでを自動化した事例を報告している。NVIDIA NeMoマイクロサービスによるファインチューニング、NVIDIA NIMによる推論デプロイ、Argo...

✍️ Microsoft Research解説: 低ビット量子化がエッジデバイスでのLLM展開を実現する — T-MAC・LUT Tensor Core・Ladderの技術全容

ブログ概要(Summary) Microsoft Researchは2025年2月、エッジデバイスでのLLM推論を可能にする3つの技術的ブレークスルーを発表した。(1) T-MAC: ビット単位LUT参照による混合精度GEMMライブラリで、llama.cpp比4-5倍高速化、(2) LUT Tensor Core: 従来のTensor Coreの38.3%の面積で6.93倍の推論速度を実現...

✍️ Amazon Bedrock Automated Reasoningによる数学的LLM出力検証

ブログ概要(Summary) Amazon Bedrock Guardrailsの一機能として提供されるAutomated Reasoning checks(自動推論チェック)は、形式論理と数学的検証によりLLM出力のHallucinationを検出する業界初のアプローチである。パターンマッチングではなく論理的推論で検証を行い、最大99%の検証精度を達成する。2024年12月のre:Inv...

📄 NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化する操り人形師パラダイム

論文概要(Abstract) 「Multi-Agent Collaboration via Evolving Orchestration」は、清華大学・OpenBMBのYufan Dang、Chen Qianらが発表し、NeurIPS 2025にポスター発表として採択された論文である。本論文は、マルチエージェントLLMシステムにおけるPuppeteer(操り人形師)パラダイムを提案する。中...

✍️ USENIX事例報告: CI/CDにLLM推論を組み込んだ際の信頼性問題と5つのガードレール設計

ブログ概要(Summary) USENIX ;login: Online に2025年9月に掲載されたGuruprasad Raghothama Raoによる事例報告である。CI/CDパイプラインにLLM推論をインラインで統合したところ、パイプライン実行時間が8分→18〜22分に膨張し、LLMの幻覚(hallucination)による誤った提案やコスト暴走が発生した。本報告は、これらの問題...