本記事は Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation の解説記事です。 論文概要(Abstract) DeepSeek AIのChengyue Wu, Xiaokang Chen, Zhiyu Wuらによる本論文は、マルチモーダル理解と画像生成を単一のLLMで統...
本記事は Multimodal Latent Language Modeling with Next-Token Diffusion の解説記事です。 論文概要(Abstract) Yutao Sun, Hangbo Bao, Wenhui Wangら(Microsoft Research)による本論文は、離散トークンと連続潜在表現を統一的に扱う言語モデル「LatentLM」を提案してい...
本記事は Apollo: An Exploration of Video Understanding in Large Multimodal Models の解説記事です。 論文概要(Abstract) Apolloは、大規模マルチモーダルモデル(LMM)における動画理解の設計選択を体系的に探索した研究である。著者ら(Orr Zohar, Xiaohan Wang, Yann LeCun...
本記事は InternLM-XComposer2.5-OmniLive の解説記事です。 論文概要(Abstract) Shanghai AI Laboratoryの Pan Zhang, Xiaoyi Dong, Yuhang Zang らによる本論文は、テキスト・画像・映像・音声を統合的にリアルタイム処理する包括的マルチモーダルシステム InternLM-XComposer2.5-O...
本記事は Qwen2.5-Omni Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Omniは、テキスト・画像・音声・動画を統合的に入力として受け取り、テキストと自然な音声をストリーミングで同時生成するend-to-endマルチモーダルモデルである。著者らは「Thinker-Talker」と呼ぶ新しいアーキテクチャを提案しており、Thin...
本記事は CopilotKit Blog: AG-UI Protocol: Bridging Agents to Any Front End の解説記事です。 ブログ概要(Summary) AG-UI(Agent-User Interaction Protocol)は、CopilotKitが提唱するオープンプロトコルであり、AIエージェントとフロントエンドアプリケーション間のリアルタイム...
本記事は arXiv:2406.03243 “Sarathi-Serve: Efficient LLM Inference by Piggybacking Decodes on Microbatches” の解説記事です。 論文概要(Abstract) Microsoft Research Indiaの研究チームによる本論文は、LLMサービングにおけるPrefillリクエストを固定サイズ...
本記事は arXiv:2302.01318 “Accelerating Large Language Model Decoding with Speculative Sampling” の解説記事です。 論文概要(Abstract) DeepMindのCharlie Chen, Sebastian Borgeaud, Geoffrey Hintonらによる本論文は、LLMの自己回帰デコー...
本記事は arXiv:2404.14294 “DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving” の解説記事です。 論文概要(Abstract) DistServeは、LLM推論の2つのフェーズ—Prefill(プロンプト処理)とDecodin...
本記事は arXiv:2504.17999 “Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving” の解説記事です。 論文概要(Abstract) Chang XiaoとBrenda Yangによる本論文は、LLMのストリーミング配信速度をコンテンツの認知的複雑さに応じて動的...