本記事は Mastering PTU Management for LLMs and GenAI: Optimizing Azure OpenAI for Peak Performance and Cost Efficiency(Microsoft Azure AI Foundry Blog)の解説記事です。 ブログ概要(Summary) Microsoft Azure AI Found...
本記事は AWS Database Blog: How Letta builds production-ready AI agents with Amazon Aurora PostgreSQL の解説記事です。 ブログ概要(Summary) AWS Database Blogで公開されたこの記事は、MemGPTの後継プロジェクトであるLetta(letta-ai/letta)が、Ama...
本記事は AWS公式ドキュメント: Prompt caching for faster model inference および AWS What’s New: Amazon Bedrock 1-hour prompt caching の解説記事です。 ブログ概要(Summary) Amazon Bedrockのプロンプトキャッシュは、リクエスト間で共通するプロンプトプレフィックスのKV計...
ブログ概要(Summary) 本記事は https://aws.amazon.com/blogs/machine-learning/getting-started-with-cross-region-inference-in-amazon-bedrock/ の解説記事です。 この記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト...
論文概要(Abstract) 本論文は、LLMの進化がコード生成支援から自律的コーディングエージェントへのパラダイムシフトを促し、「Vibe Coding」と呼ばれる新しい開発手法を生み出したことを体系的にサーベイしたものである。著者ら(Yuyao Ge et al., 15名)は、Vibe codingを制約付きマルコフ決定過程(Constrained Markov Decision P...
本記事は arXiv:2502.04671 の解説記事です。 論文概要(Abstract) Gaoらは、LLMベースのText-to-SQLが抱える3つの課題(スキーマ理解不足、デモへの過依存、専門知識の未活用)に対し、ROUTE(Robust Multitask Tuning and Collaboration)を提案した。ROUTEは(1)CMF: 4タスク同時Fine-Tuning...
本記事は Qwen2.5-VL Technical Report (arXiv:2501.12387) の解説記事です。 論文概要(Abstract) Qwen2.5-VL は Alibaba Cloud が2025年1月に発表したオープンソースの Vision-Language Model(VLM)である。3B / 7B / 72B の3サイズで展開され、72B モデルは MMMU ベ...
本記事は arXiv:2410.08815 “StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization” の解説記事です。 論文概要(Abstract) 既存のRAG手法は知識集約的な推論タスクにおいて、必要な情報がドキュメ...
本記事は arXiv:2407.11717 “DB-GPT: Empowering Database Interactions with Private Large Language Models” の解説記事です。 この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装する の深掘りです。 論文概要(Abstract)...
本記事は arXiv:2404.16130 “Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity” の解説記事です。 この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装...