本記事は Voyage AI Blog: The Voyage 4 model family: shared embedding space with MoE architecture の解説記事です。 ブログ概要(Summary) Voyage AI社は2026年1月、Embeddingモデルとして業界初のMixture of Experts(MoE)アーキテクチャを採用したVoyag...
本記事は OpenAI: Introducing Structured Outputs in the API の解説記事です。 ブログ概要(Summary) OpenAIは2024年8月6日、APIにStructured Outputs機能を導入した。strict: true を設定することで、モデルの出力が開発者指定のJSON Schemaに100%準拠することが保証される。この機能は...
本記事は NVIDIA Technical Blog: Building Scalable AI on Enterprise Data with NVIDIA Nemotron RAG and Microsoft SQL Server 2025 の解説記事です。 ブログ概要(Summary) NVIDIAはMicrosoft Ignite 2025で、SQL Server 2025とNV...
本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMに2つの新機能を導入した。優先度ベースKVキャッシュEvictionは、トークン範囲ごとに優先度と保持期間を設定し、システムプロンプトなどの頻...
本記事は NVIDIA Developer Blog: “Build an Agentic RAG Pipeline with Llama 3.1 and NVIDIA NeMo Retriever NIMs” の解説記事です。 この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装する の深掘りです。 ブログ概要 N...
本記事は Mastering PTU Management for LLMs and GenAI: Optimizing Azure OpenAI for Peak Performance and Cost Efficiency(Microsoft Azure AI Foundry Blog)の解説記事です。 ブログ概要(Summary) Microsoft Azure AI Found...
本記事は AWS Database Blog: How Letta builds production-ready AI agents with Amazon Aurora PostgreSQL の解説記事です。 ブログ概要(Summary) AWS Database Blogで公開されたこの記事は、MemGPTの後継プロジェクトであるLetta(letta-ai/letta)が、Ama...
本記事は AWS公式ドキュメント: Prompt caching for faster model inference および AWS What’s New: Amazon Bedrock 1-hour prompt caching の解説記事です。 ブログ概要(Summary) Amazon Bedrockのプロンプトキャッシュは、リクエスト間で共通するプロンプトプレフィックスのKV計...
ブログ概要(Summary) 本記事は https://aws.amazon.com/blogs/machine-learning/getting-started-with-cross-region-inference-in-amazon-bedrock/ の解説記事です。 この記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト...
論文概要(Abstract) 本論文は、LLMの進化がコード生成支援から自律的コーディングエージェントへのパラダイムシフトを促し、「Vibe Coding」と呼ばれる新しい開発手法を生み出したことを体系的にサーベイしたものである。著者ら(Yuyao Ge et al., 15名)は、Vibe codingを制約付きマルコフ決定過程(Constrained Markov Decision P...