Home
0h-n0 TechBLog
キャンセル

✍️ NVIDIA技術ブログ解説: Mastering LLM Techniques: Evaluation — LLM・RAG評価の包括的ガイド

ブログ概要(Summary) NVIDIAが2025年1月に公開した「Mastering LLM Techniques: Evaluation」は、LLMおよびRAGシステムの評価に関する包括的な技術ガイドです。学術ベンチマーク、LLM-as-a-Judge手法、類似度メトリクス、RAG専用評価フレームワークの4つのアプローチを体系的に整理し、NVIDIAのNeMo Evaluatorによ...

📄 論文解説: Distil-Whisper — 大規模擬似ラベリングによるWhisperの知識蒸留

論文概要(Abstract) Distil-Whisperは、Hugging Faceの研究チームが開発したWhisperの軽量蒸留版ASRモデルです。Whisper large-v2(1.55Bパラメータ)を教師モデルとして、22,000時間の非ラベル音声データに対する擬似ラベリングと知識蒸留を組み合わせ、デコーダ層を32層から2層に削減しました。結果として、パラメータ数49%削減(1....

📄 ICLR 2024論文解説: Hybrid LLM — クエリ難易度予測によるコスト効率的なLLMルーティング

論文概要(Abstract) Hybrid LLMは、Microsoft Researchが提案した軽量なLLMルーティングフレームワークです。クエリの「難易度」を予測する小型分類器を訓練し、簡単なクエリは安価なモデル(GPT-3.5-turbo等)に、難しいクエリは高性能モデル(GPT-4等)に振り分けます。QA・コーディング・数学推論ベンチマークでコスト40%削減とGPT-4品質の96...

📄 論文解説: DiskANN — スケーラブルで高速なフィルタ付き近似最近傍探索

論文概要(Abstract) DiskANNは、Microsoftが開発したSSDベースの近似最近傍探索(ANN)システムです。本論文は、DiskANNの最新拡張として「Scalable(10億件規模対応)」「Fast(SSD最適化)」「Fresh(リアルタイム更新)」「Filtered(メタデータフィルタリング)」の4つの特性を単一システムで提供する設計を解説しています。HNSWがメモリ...

✍️ NVIDIA Speech AIモデル解説: Parakeet・NeMoが実現する業界最高精度の音声認識

ブログ概要(Summary) NVIDIAは2025年6月、NeMoフレームワーク上で開発されたParakeetファミリーを中心とするSpeech AIモデル群がHugging Face ASRリーダーボードで1位を獲得したことを発表しました。Parakeet TDT 0.6B v2はWER 6.05%、推論速度RTFx 3386.02(代替手法比50倍高速)を達成し、FastConfor...

✍️ AWS公式解説: pgvectorインデックス最適化ガイド — IVFFlatとHNSWの深掘り

ブログ概要(Summary) AWSデータベースブログが公開したpgvectorインデックスの包括的な解説記事です。Amazon Aurora PostgreSQLおよびRDS for PostgreSQL上でのベクトル検索を最適化するため、IVFFlat(Inverted File Flat)とHNSW(Hierarchical Navigable Small World)の2つのインデ...

📄 論文解説: PromptEval — プロンプトエンジニアリングの「何が重要か」を定量評価するフレームワーク

論文概要(Abstract) 「PromptEval: Evaluating What Matters in Prompt Engineering」(2024年4月、arXiv:2404.04507)は、プロンプトエンジニアリングにおける各コンポーネントが性能に与える影響を定量的に評価するフレームワークです。プロンプトを指示文の言い回し・デモンストレーション・出力フォーマット・コンテキスト...

📄 論文解説: FrugalGPT — LLMカスケードで最大98%コスト削減を実現する合成フレームワーク

論文概要(Abstract) FrugalGPTは、複数のLLM APIを合成的に組み合わせることで、コストと品質のトレードオフを最適化するフレームワークです。Stanford大学のLingjiao Chen, Matei Zaharia, James Zouらによる2023年の研究で、LLMルーティング分野の先駆的論文として広く引用されています。FrugalGPTはGPT-4と同等の性能...

📄 ICASSP 2024論文解説: Matcha-TTS — Conditional Flow Matchingによる高速音声合成

論文概要(Abstract) Matcha-TTSは、Optimal-Transport Conditional Flow Matching (OT-CFM) を音響モデルに初めて適用した非自己回帰型のText-to-Speech (TTS) アーキテクチャです。KTH Royal Institute of Technologyの研究チームにより提案され、ICASSP 2024に採択されま...

📄 論文解説: Evaluation-Driven Development and Operations(EDD)— LLMエージェントのライフサイクル評価統合パラダイム

論文概要(Abstract) 「Evaluation-Driven Development and Operations of LLM Agents」(2024年11月、arXiv:2411.13768)は、LLMエージェントの構築・維持における評価統合の課題に正面から取り組む論文です。開発から本番デプロイ・保守に至るライフサイクル全体に評価を統合するEDD(Evaluation-Driv...