ブログ概要(Summary) NVIDIAが2025年1月に公開した「Mastering LLM Techniques: Evaluation」は、LLMおよびRAGシステムの評価に関する包括的な技術ガイドです。学術ベンチマーク、LLM-as-a-Judge手法、類似度メトリクス、RAG専用評価フレームワークの4つのアプローチを体系的に整理し、NVIDIAのNeMo Evaluatorによ...
論文概要(Abstract) Distil-Whisperは、Hugging Faceの研究チームが開発したWhisperの軽量蒸留版ASRモデルです。Whisper large-v2(1.55Bパラメータ)を教師モデルとして、22,000時間の非ラベル音声データに対する擬似ラベリングと知識蒸留を組み合わせ、デコーダ層を32層から2層に削減しました。結果として、パラメータ数49%削減(1....
論文概要(Abstract) Hybrid LLMは、Microsoft Researchが提案した軽量なLLMルーティングフレームワークです。クエリの「難易度」を予測する小型分類器を訓練し、簡単なクエリは安価なモデル(GPT-3.5-turbo等)に、難しいクエリは高性能モデル(GPT-4等)に振り分けます。QA・コーディング・数学推論ベンチマークでコスト40%削減とGPT-4品質の96...
論文概要(Abstract) DiskANNは、Microsoftが開発したSSDベースの近似最近傍探索(ANN)システムです。本論文は、DiskANNの最新拡張として「Scalable(10億件規模対応)」「Fast(SSD最適化)」「Fresh(リアルタイム更新)」「Filtered(メタデータフィルタリング)」の4つの特性を単一システムで提供する設計を解説しています。HNSWがメモリ...
ブログ概要(Summary) NVIDIAは2025年6月、NeMoフレームワーク上で開発されたParakeetファミリーを中心とするSpeech AIモデル群がHugging Face ASRリーダーボードで1位を獲得したことを発表しました。Parakeet TDT 0.6B v2はWER 6.05%、推論速度RTFx 3386.02(代替手法比50倍高速)を達成し、FastConfor...
ブログ概要(Summary) AWSデータベースブログが公開したpgvectorインデックスの包括的な解説記事です。Amazon Aurora PostgreSQLおよびRDS for PostgreSQL上でのベクトル検索を最適化するため、IVFFlat(Inverted File Flat)とHNSW(Hierarchical Navigable Small World)の2つのインデ...
論文概要(Abstract) 「PromptEval: Evaluating What Matters in Prompt Engineering」(2024年4月、arXiv:2404.04507)は、プロンプトエンジニアリングにおける各コンポーネントが性能に与える影響を定量的に評価するフレームワークです。プロンプトを指示文の言い回し・デモンストレーション・出力フォーマット・コンテキスト...
論文概要(Abstract) FrugalGPTは、複数のLLM APIを合成的に組み合わせることで、コストと品質のトレードオフを最適化するフレームワークです。Stanford大学のLingjiao Chen, Matei Zaharia, James Zouらによる2023年の研究で、LLMルーティング分野の先駆的論文として広く引用されています。FrugalGPTはGPT-4と同等の性能...
論文概要(Abstract) Matcha-TTSは、Optimal-Transport Conditional Flow Matching (OT-CFM) を音響モデルに初めて適用した非自己回帰型のText-to-Speech (TTS) アーキテクチャです。KTH Royal Institute of Technologyの研究チームにより提案され、ICASSP 2024に採択されま...
論文概要(Abstract) 「Evaluation-Driven Development and Operations of LLM Agents」(2024年11月、arXiv:2411.13768)は、LLMエージェントの構築・維持における評価統合の課題に正面から取り組む論文です。開発から本番デプロイ・保守に至るライフサイクル全体に評価を統合するEDD(Evaluation-Driv...