Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Qwen2.5-Omni — テキスト・画像・音声・動画の統合マルチモーダルモデル

本記事は Qwen2.5-Omni Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Omniは、テキスト・画像・音声・動画を統合的に入力として受け取り、テキストと自然な音声をストリーミングで同時生成するend-to-endマルチモーダルモデルである。著者らは「Thinker-Talker」と呼ぶ新しいアーキテクチャを提案しており、Thin...

✍️ AG-UIプロトコル解説: エージェント時代のフロントエンド通信標準

本記事は CopilotKit Blog: AG-UI Protocol: Bridging Agents to Any Front End の解説記事です。 ブログ概要(Summary) AG-UI(Agent-User Interaction Protocol)は、CopilotKitが提唱するオープンプロトコルであり、AIエージェントとフロントエンドアプリケーション間のリアルタイム...

📄 論文解説: Sarathi-Serve — チャンクPrefillによるTTFT/TBT同時最適化

本記事は arXiv:2406.03243 “Sarathi-Serve: Efficient LLM Inference by Piggybacking Decodes on Microbatches” の解説記事です。 論文概要(Abstract) Microsoft Research Indiaの研究チームによる本論文は、LLMサービングにおけるPrefillリクエストを固定サイズ...

📄 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論におけるTime-To-First-Token(TTFT)を削減するための手法である。プロンプト内に繰り返し現れる共通セグメント(システム指示、Few-shot例、ド...

✍️ NVIDIA cuVS解説: GPU加速ベクトル検索がRAG・推薦のインデックス構築を最大40倍高速化

本記事は Optimizing Vector Search for Indexing and Real-Time Retrieval with NVIDIA cuVS の解説記事です。 ブログ概要(Summary) NVIDIA cuVSは、GPU加速によるベクトル検索・クラスタリングライブラリである。CAGRA(GPU最適化グラフ索引)、DiskANN、HNSW、IVF-PQ等の主要ア...

📄 論文解説: TextGrad — テキストによる自動微分フレームワーク

論文概要(Abstract) TextGradは、ニューラルネットワークにおける自動微分(Automatic Differentiation)の概念をテキスト空間に拡張したフレームワークである。LLMが生成する自然言語フィードバックを「テキスト勾配(textual gradient)」として扱い、計算グラフ上を逆伝播させることで、プロンプト・コード・分子構造など多様な非微分可能変数を最適化...

📄 論文解説: LSM-VEC — LSMツリー型動的ベクトルインデックスでFreshDiskANN比5倍の書き込みスループット

本記事は LSM-VEC: An LSM-Tree Based Dynamic Vector Index の解説記事です。 論文概要(Abstract) 推薦システムやリアルタイム検索では、ベクトルデータベースに対する高スループットの書き込み(新規ベクトルの継続的挿入)と効率的な類似度検索の両立が求められる。しかし静的ベクトルインデックス(HNSW、IVF等)は読み取り最適化されており、...