論文概要(Abstract) Benchmark Self-Evolvingは、マルチエージェントシステムを活用して既存のベンチマークを動的に拡張するフレームワークである。6つのリフレーミング操作を定義し、元のベンチマーク問題から派生する新しい評価インスタンスを自動生成する。これにより、データ汚染(data contamination)によるスコア膨張を回避し、LLMの真の問題解決能力をよ...
17/02/2026 blog paper
LLM benchmark evaluation +4
ブログ概要(Summary) Microsoft ResearchのExperimentation Platform(ExP)チームが2023年9月に発表した技術記事で、LLM機能の評価に必要なメトリクスを4カテゴリに体系化したフレームワークを提唱している。従来のA/Bテストに加え、LLM特有の評価軸(GPU利用率、Responsible AI、ストリーミング性能、ユーティリティ)を統合し...
17/02/2026 blog tech_blog
LLM evaluation metrics +5
ブログ概要(Summary) LangChainのSydney Runkleが2026年1月に公開した「Choosing the Right Multi-Agent Architecture」は、マルチエージェントシステムの4つのアーキテクチャパターン — Subagents、Skills、Handoffs、Router — を体系的に比較分析した記事である。各パターンの強み・弱み・適用場...
17/02/2026 blog tech_blog
langchain langgraph multi-agent +4
論文概要(Abstract) 本論文は、既に学習済みのLLM(Llama等)を追加学習なしで重み1ビット+活性化1ビットに量子化する「ポストトレーニング量子化(PTQ)」手法を提案する。核となるのは W(1+1)A(1×4) 構成と呼ばれるフレームワークで、重みにはHessian情報を活用した細粒度グルーピング+EM(期待値最大化)ベースの最適量子化点決定を適用し、活性化にはINT4量子化...
17/02/2026 blog paper
BitNet 1-bit-LLM binary-quantization +3
論文概要(Abstract) LLM-Checkは、大規模言語モデルにおけるHallucination検出手法を体系的に調査した研究である。単一モデル応答からのHallucination検出において、内部状態の分析、注意機構のパターン、出力確率スコアを活用する手法を提案・評価し、ホワイトボックスとブラックボックス両方の設定で動作する検出フレームワークを構築した。既存手法と比較して45x〜4...
17/02/2026 blog paper
hallucination LLM validation +2
ブログ概要(Summary) NVIDIA Developer Blogに2025年6月に掲載された技術記事で、通信大手AmdocsがGitOpsベースのLLMOpsパイプラインを構築し、カスタムLLMのファインチューニングから評価・デプロイまでを自動化した事例を報告している。NVIDIA NeMoマイクロサービスによるファインチューニング、NVIDIA NIMによる推論デプロイ、Argo...
17/02/2026 blog tech_blog
LLMOps NVIDIA NeMo +6
ブログ概要(Summary) Microsoft Researchは2025年2月、エッジデバイスでのLLM推論を可能にする3つの技術的ブレークスルーを発表した。(1) T-MAC: ビット単位LUT参照による混合精度GEMMライブラリで、llama.cpp比4-5倍高速化、(2) LUT Tensor Core: 従来のTensor Coreの38.3%の面積で6.93倍の推論速度を実現...
17/02/2026 blog tech_blog
BitNet 1-bit-LLM edge-ai +5
ブログ概要(Summary) Amazon Bedrock Guardrailsの一機能として提供されるAutomated Reasoning checks(自動推論チェック)は、形式論理と数学的検証によりLLM出力のHallucinationを検出する業界初のアプローチである。パターンマッチングではなく論理的推論で検証を行い、最大99%の検証精度を達成する。2024年12月のre:Inv...
17/02/2026 blog tech_blog
guardrails LLM hallucination +2
論文概要(Abstract) 「Multi-Agent Collaboration via Evolving Orchestration」は、清華大学・OpenBMBのYufan Dang、Chen Qianらが発表し、NeurIPS 2025にポスター発表として採択された論文である。本論文は、マルチエージェントLLMシステムにおけるPuppeteer(操り人形師)パラダイムを提案する。中...
17/02/2026 blog paper
multi-agent orchestration reinforcement-learning +4
ブログ概要(Summary) USENIX ;login: Online に2025年9月に掲載されたGuruprasad Raghothama Raoによる事例報告である。CI/CDパイプラインにLLM推論をインラインで統合したところ、パイプライン実行時間が8分→18〜22分に膨張し、LLMの幻覚(hallucination)による誤った提案やコスト暴走が発生した。本報告は、これらの問題...
17/02/2026 blog tech_blog
LLM CI/CD reliability +4