本記事は Mistral-SPLADE: LLMs for better Learned Sparse Retrieval (arXiv:2408.11119) の解説記事です。 論文概要(Abstract) Echo-Mistral-SPLADEは、デコーダ系LLM(Mistral-7B)の言語理解能力をスパース検索に導入する手法である。著者らは、Echo Embedding(入力テキ...
本記事は SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval (arXiv:2109.10086) の解説記事です。 論文概要(Abstract) SPLADE(SParse Lexical AnD Expansion model)v2は、BERTのMasked Language Model(ML...
本記事は Precise Zero-Shot Dense Retrieval without Relevance Labels (arXiv:2212.10496) の解説記事です。 論文概要(Abstract) HyDE(Hypothetical Document Embeddings)は、ユーザーのクエリからLLMで仮想的な回答ドキュメントを生成し、その仮想ドキュメントのEmbedd...
本記事は ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction (arXiv:2112.01488) の解説記事です。 論文概要(Abstract) ColBERTv2は、クエリと文書の各トークンの埋め込みベクトル間でMaxSim演算を行うLate Interaction型の検索モデルで...
本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering(Yang et al., 2024)の解説記事です。 論文概要(Abstract) SWE-agentは、LLMエージェントがコンピュータと対話するための専用インターフェース「Agent-Computer Interface(AC...
本記事は Matryoshka Representation Learning (arXiv:2205.13147) の解説記事です。 論文概要(Abstract) Matryoshka Representation Learning(MRL)は、単一のニューラルネットワークから複数の次元粒度で有効な埋め込みベクトルを生成する学習手法である。著者らは、ロシアの入れ子人形(マトリョーシカ)...
📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法
本記事は Toward Efficient Inference for Mixture of Experts (NeurIPS 2024) の解説記事です。 論文概要(Abstract) 本論文は、MoE(Mixture-of-Experts)モデルの推論効率化に取り組んだ研究である。著者らは、言語モデリングと機械翻訳のワークロードを体系的に特性分析し、非効率性の原因を特定した上で、3つ...
本記事は NVIDIA Technical Blog: Optimizing llama.cpp AI Inference with CUDA Graphs の解説記事です。 ブログ概要(Summary) NVIDIAのAlan Gray氏(Principal Developer Technology Engineer)が2024年8月に公開した記事で、llama.cppにおけるCUDA...
本記事は Qwen2.5-Coder Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Coderは、Qwen2.5シリーズのコード特化モデルであり、1.5B・7B・32Bの3サイズで提供される。著者らの報告によれば、5.5兆トークンのコード関連データで学習し、32B-InstructバリアントはHumanEvalで92.7%(GPT-4o...
本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。 論文概要(Abstract) PowerInferは、コンシューマGPU(RTX 4090/3090)とCPUのハイブリッド推論により、ローカル環境でのLLM推論を高速化するエンジンである。著者らは、LLMのFFN(F...