Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Apollo — 大規模マルチモーダルモデルにおける動画理解の体系的探索

本記事は Apollo: An Exploration of Video Understanding in Large Multimodal Models の解説記事です。 論文概要(Abstract) Apolloは、大規模マルチモーダルモデル(LMM)における動画理解の設計選択を体系的に探索した研究である。著者ら(Orr Zohar, Xiaohan Wang, Yann LeCun...

📄 論文解説: InternLM-XComposer2.5-OmniLive — リアルタイムストリーミングマルチモーダルシステム

本記事は InternLM-XComposer2.5-OmniLive の解説記事です。 論文概要(Abstract) Shanghai AI Laboratoryの Pan Zhang, Xiaoyi Dong, Yuhang Zang らによる本論文は、テキスト・画像・映像・音声を統合的にリアルタイム処理する包括的マルチモーダルシステム InternLM-XComposer2.5-O...

📄 論文解説: Qwen2.5-Omni — テキスト・画像・音声・動画の統合マルチモーダルモデル

本記事は Qwen2.5-Omni Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Omniは、テキスト・画像・音声・動画を統合的に入力として受け取り、テキストと自然な音声をストリーミングで同時生成するend-to-endマルチモーダルモデルである。著者らは「Thinker-Talker」と呼ぶ新しいアーキテクチャを提案しており、Thin...

✍️ AG-UIプロトコル解説: エージェント時代のフロントエンド通信標準

本記事は CopilotKit Blog: AG-UI Protocol: Bridging Agents to Any Front End の解説記事です。 ブログ概要(Summary) AG-UI(Agent-User Interaction Protocol)は、CopilotKitが提唱するオープンプロトコルであり、AIエージェントとフロントエンドアプリケーション間のリアルタイム...

📄 論文解説: Sarathi-Serve — チャンクPrefillによるTTFT/TBT同時最適化

本記事は arXiv:2406.03243 “Sarathi-Serve: Efficient LLM Inference by Piggybacking Decodes on Microbatches” の解説記事です。 論文概要(Abstract) Microsoft Research Indiaの研究チームによる本論文は、LLMサービングにおけるPrefillリクエストを固定サイズ...