本記事は Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models(arxiv:2506.05176) および Qwen公式ブログ の解説記事です。 論文概要(Abstract) Qwen3-Embeddingシリーズは、Qwen3基盤モデル上に構築されたテキスト埋め込みおよびリラン...
本記事は arXiv:2502.01618 (AdaptiveRAG: Learning to Adapt Retrieval-Augmented Generation) の解説記事です。 論文概要(Abstract) AdaptiveRAGは、RAGパイプラインの構成をクエリの特性に基づいて推論時に動的に適応させるフレームワークである。著者らはBERT-baseの分類器でクエリを3段階...
本記事は ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition(arxiv:2402.15220) の解説記事です。 論文概要(Abstract) ChunkAttentionは、LLMサービングにおいて複数リクエストが共通のシステムプロンプト(プレフィックス...
本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2312.07104) の解説記事です。 論文概要(Abstract) LLMを複数回呼び出して複雑なタスクを遂行する「構造化LLMプログラム」は、Few-shotプロンプティング、エージェント制御、JSON生成、RAGパイプライン等...
本記事は Preferred Networks Tech Blog: テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 および Hugging Face Model Card: pfnet/plamo-embedding-1b の解説記事です。 ブログ概要(Summary) Preferred Networks(PFN)は、日本語テキスト埋め込みモデルPLaMo-Embe...
本記事は Effective Context Engineering for AI Agents(Anthropic Engineering Blog、2025年9月29日)の解説記事です。 ブログ概要(Summary) Anthropic Applied AIチームのPrithvi Rajasekaranらが公開した本ブログは、AIエージェントにおけるコンテキストエンジニアリングの体系...
本記事は Claude Code: Best practices for agentic coding(Anthropic Engineering Blog)の解説記事です。 ブログ概要(Summary) AnthropicのエンジニアリングチームであるBoris Chernyらが公開した本ブログは、Claude Codeを使ったエージェント型コーディングのベストプラクティスを体系化した...
本記事は arXiv:2502.14051 (Analysis of Prompt Caching Strategies for LLM API Cost Reduction) の解説記事です。 論文概要(Abstract) 本論文はClaude、GPT-4、GeminiのAPIが提供するプロンプトキャッシュ機能を体系的に分析し、エージェント型RAGワークロードで60-80%のAPIコス...
本記事は RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision (arXiv:2502.13957) の解説記事です。 論文概要(Abstract) RAG-Gymは、推論エージェントが反復的に情報を検索して複雑な質問に回答するAgentic RAGを、マルコフ決定過程(MDP)として定式化し、プ...
本記事は Executable Code Actions Elicit Better LLM Agents(Wang et al., 2024)の解説記事です。 論文概要(Abstract) CodeAct は、LLMエージェントの行動空間(Action Space)を「実行可能なPythonコード」に統一するフレームワークである。従来のJSONベースやテキストベースのアクション定義では...