本記事は Titans + MIRAS: Helping AI have long-term memory - Google Research Blog の解説記事です。 ブログ概要(Summary) Google Researchは、大規模言語モデル(LLM)に長期記憶を持たせるための新しいアーキテクチャ「Titans」と、それを一般化した統一フレームワーク「MIRAS」を公式ブログで...
本記事は Native LLM and MLLM Inference at Scale on Apple Silicon (arXiv:2601.19139) の解説記事です。 論文概要(Abstract) vLLM-MLXは、Apple SiliconのMLXフレームワークをネイティブバックエンドとしたLLM/MLLM推論フレームワークである。テキストモデルでllama.cpp比21〜...
本記事は Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming (arXiv:2407.06225) の解説記事です。 論文概要(Abstract) Mini-Omniは、音声入力から音声出力をテキスト中間変換なしにストリーミング生成する「any-to-any」LLMである。著者らは、テキストトークンと...
論文概要 本記事は NeurIPS 2024で発表された論文「Toward Efficient Inference for Mixture of Experts」の解説記事です。 論文URL: https://papers.nips.cc/paper_files/paper/2024/hash/98bf3b8505c611ac21055dd9d355c66e-Abstract-Co...
本記事は Performant local mixture-of-experts CPU inference with GPU acceleration in llama.cpp の解説記事です。 ブログ概要(Summary) Doctor ShotgunとGeechanが2026年1月30日にHugging Face Blogで公開した本ガイドは、Mixture-of-Experts(...
本記事は Gemini 2.0: Level Up Your Apps with Real-Time Multimodal Interactions - Google Developers Blog の解説記事です。 ブログ概要(Summary) Googleは、Gemini 2.0世代のMultimodal Live APIを発表した。このAPIは、テキスト・音声・映像を双方向にリアル...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2602.14038 の解説記事です。 FluxMemは、LLMエージェントのメモリシステムにおいて「どの構造で記憶するか」を会話コンテキストに応じて動的に選択するフレームワークである。3層のメモリ階層(短期・中期・長期)と3種のメモリ構造(線形・グラフ・階層)を組み合わせ、Beta混合モデル(BMM)に...
本記事は HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference (arXiv:2411.01433) の解説記事です。 論文概要(Abstract) HOBBITは、MoEモデルの推論においてエキスパートの重みをGPUメモリ外(CPU RAM/SSD)にオフロードする際の速度低下を、混合精度ロー...
本記事は OpenAI: Introducing gpt-realtime and Realtime API updates for production voice agents および Updates for developers building with voice の解説記事です。 ブログ概要(Summary) OpenAIは2024年10月にRealtime APIのパブリッ...
本記事は Memori: A Persistent Memory Layer for Efficient, Context-Aware LLM Agents (arXiv:2603.19935) の解説記事です。 論文概要(Abstract) Memoriは、LLMエージェントの長期記憶をデータ構造化問題として再定義した永続記憶層である。著者らは、非構造化の対話履歴をセマンティックトリプ...