Home
0h-n0 TechBLog
キャンセル

📄 論文解説: HyDE — LLM生成の仮想ドキュメントでゼロショット検索精度を改善する手法

本記事は Precise Zero-Shot Dense Retrieval without Relevance Labels (arXiv:2212.10496) の解説記事です。 論文概要(Abstract) HyDE(Hypothetical Document Embeddings)は、ユーザーのクエリからLLMで仮想的な回答ドキュメントを生成し、その仮想ドキュメントのEmbedd...

📄 論文解説: ColBERTv2 — Residual Compressionで実現する軽量Late Interaction検索

本記事は ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction (arXiv:2112.01488) の解説記事です。 論文概要(Abstract) ColBERTv2は、クエリと文書の各トークンの埋め込みベクトル間でMaxSim演算を行うLate Interaction型の検索モデルで...

📄 論文解説: SWE-agent — Agent-Computer Interface設計がLLMエージェントのソフトウェアエンジニアリング性能を決める

本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering(Yang et al., 2024)の解説記事です。 論文概要(Abstract) SWE-agentは、LLMエージェントがコンピュータと対話するための専用インターフェース「Agent-Computer Interface(AC...

📄 論文解説: Matryoshka Representation Learning — 可変次元Embeddingで検索コストを14倍削減する手法

本記事は Matryoshka Representation Learning (arXiv:2205.13147) の解説記事です。 論文概要(Abstract) Matryoshka Representation Learning(MRL)は、単一のニューラルネットワークから複数の次元粒度で有効な埋め込みベクトルを生成する学習手法である。著者らは、ロシアの入れ子人形(マトリョーシカ)...

📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法

本記事は Toward Efficient Inference for Mixture of Experts (NeurIPS 2024) の解説記事です。 論文概要(Abstract) 本論文は、MoE(Mixture-of-Experts)モデルの推論効率化に取り組んだ研究である。著者らは、言語モデリングと機械翻訳のワークロードを体系的に特性分析し、非効率性の原因を特定した上で、3つ...

📄 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能

本記事は Qwen2.5-Coder Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Coderは、Qwen2.5シリーズのコード特化モデルであり、1.5B・7B・32Bの3サイズで提供される。著者らの報告によれば、5.5兆トークンのコード関連データで学習し、32B-InstructバリアントはHumanEvalで92.7%(GPT-4o...

📄 論文解説: PowerInfer — コンシューマGPUでLLM推論を最大11.69倍高速化するCPU-GPUハイブリッドエンジン

本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。 論文概要(Abstract) PowerInferは、コンシューマGPU(RTX 4090/3090)とCPUのハイブリッド推論により、ローカル環境でのLLM推論を高速化するエンジンである。著者らは、LLMのFFN(F...