Home
0h-n0 TechBLog
キャンセル

✍️ Qwen3-Embedding解説: 命令対応型多言語Embeddingモデルの技術詳細

ブログ概要 本記事はQwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Modelsの解説記事です。 Alibaba Qwen Teamは2025年6月5日、Qwen3シリーズの基盤モデルをベースとしたテキストEmbeddingモデル群「Qwen3-Embedding」とリランキングモデル群...

📄 ICLR 2026論文解説: TurboQuant — Shannon限界に迫るデータ非依存ベクトル量子化

論文概要(Abstract) 本記事はTurboQuant: Online Vector Quantization with Near-optimal Distortion Rateの解説記事です。 TurboQuantは、Google Researchが提案したデータ非依存(data-oblivious)なベクトル量子化手法である。著者らは、ランダム直交回転によるデータ幾何の単純化(P...

📄 論文解説: NV-Embed — LLMをGeneralist Embeddingモデルとして訓練する改良手法

論文概要(Abstract) 本記事はNV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Modelsの解説記事です。 NV-Embedは、NVIDIAが提案したdecoder-only LLM(Mistral-7B)をベースとした汎用テキスト埋め込みモデルである。著者らは、(1) シーケンス表現...

📄 ICLR 2025論文解説: NV-Embed — Latent Attentionと2段階訓練によるLLMベース汎用埋め込みモデル

論文概要(Abstract) 本記事はNV-Embed論文の解説記事です。 NV-Embedは、NVIDIAが提案したdecoder-only LLMをベースとした汎用埋め込みモデルである。著者らは、decoder最終層の隠れ状態から高品質なシーケンス表現を抽出するLatent Attention Layerと、検索タスクと非検索タスクを段階的に学習する2段階contrastive in...

📄 論文解説: Ruri — LLM合成データと知識蒸留による日本語汎用テキスト埋め込みモデル

論文概要(Abstract) 本記事は Ruri: Japanese General Text Embeddings(arXiv:2409.07737) の解説記事です。 Ruriは、名古屋大学の塚越・笹野らが開発した日本語汎用テキスト埋め込みモデル群である。英語・多言語でのembeddingモデル開発が活発に進む中、日本語では訓練データの不足と専門知識の欠如が課題となっていた。著者らは...

📄 論文解説: Qwen3 Embedding — マルチステージ訓練とモデルマージによるオープンソースSOTA埋め込みモデル

論文概要(Abstract) 本記事は Qwen3 Embedding論文 の解説記事です。 Qwen3 Embeddingは、Alibabaが開発した0.6B/4B/8Bの3サイズで展開されるテキスト埋め込み・リランキングモデルシリーズである。著者らは、約150Mペアの弱教師あり事前学習と約19Mペアの教師ありファインチューニングを組み合わせたマルチステージ訓練パイプラインを採用し、さ...

📄 論文解説: Gemini Embedding — LLMの多言語理解力を活用した汎用テキスト埋め込みモデル

論文概要(Abstract) 本記事はGemini Embedding論文の解説記事です。 Gemini Embeddingは、GoogleのGemini LLMが持つ多言語・コード理解能力を埋め込み(embedding)モデルへ転用した手法である。著者らは、classification、similarity、clustering、ranking、retrievalといった多様な下流タス...

✍️ Zilliz解説: セマンティックハイライティングモデルでRAGトークンコストを70-80%削減

ブログ概要(Summary) 本記事はMilvus公式ブログ「Semantic Highlighting for RAG Context Pruning and Token Saving」(Zilliz、2026年1月公開)の解説記事です。RAG(Retrieval-Augmented Generation)パイプラインにおいて、検索済みドキュメントからクエリに意味的に関連する文のみを抽出...