Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Lost in the Middle at Birth — Transformer位置バイアスの厳密理論

本記事は https://arxiv.org/abs/2603.10123 の解説記事です。 論文概要 “Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias” (Borun D Chowdhury, 2026年3月) は、大規模言語モデル (LLM) で広く観測されてきた「中間部分の情報が失わ...

✍️ AWS解説: LLM応答コスト90%削減を実現するキャッシュ戦略の実践ガイド

本記事は Optimize LLM response costs and latency with effective caching の解説記事です。 ブログ概要 AWSデータベースブログで公開された本記事は、LLMアプリケーションにおけるキャッシュ戦略の包括的ガイドである。著者らは、プロンプトキャッシュとリクエスト-レスポンスキャッシュの2つの主要アプローチを提示し、Amazon M...

📄 論文解説: Inference Scaling for Long-Context RAG — 推論計算量スケーリングによるRAG性能の線形改善

本記事は https://arxiv.org/abs/2410.04343 の解説記事です。 論文概要 Zhenrui Yue, Honglei Zhuang, Aijun Bai らによる本論文は、知識集約型タスクにおいてテスト時計算量(inference compute)を拡大する際、単にコンテキストに投入する外部知識量を増やすだけでは性能が頭打ちになるという問題に取り組んでいる。著...

📄 ICML 2025論文解説: NoLiMa — リテラルマッチを超えるロングコンテキスト評価ベンチマーク

本記事は https://proceedings.mlr.press/v267/modarressi25a.html の解説記事です。 論文概要 NoLiMa(No Literal Matching)は、LLMのロングコンテキスト処理能力をリテラルマッチングに頼らず評価するベンチマークである。著者らは、既存のNIAHテストが質問文とneedleの間に高い語彙的重複を持ち、モデルが表層的パ...

📄 論文解説: Found in the Middle — 位置注意バイアスの較正によるロングコンテキスト活用の改善

本記事は https://arxiv.org/abs/2406.16008 の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)は、長い入力コンテキストを処理するよう訓練されていても、入力の中間に位置する関連情報を適切に捉えることが困難である。本論文では、この「Lost in the Middle」問題がLLMの固有のU字型位置注意バイアスに起因することを明らかにし...

📄 論文解説: ENOVA — 半教師ありVAEによるサーバーレスLLMサービングの自動構成とオートスケーリング

本記事は https://arxiv.org/abs/2407.09486 の解説記事です。 論文概要(Abstract) ENOVAは、マルチGPUクラスタ上でのサーバーレスLLMサービングにおいて、デプロイ構成の自動推定とオートスケーリングを統合的に解決するシステムである。著者らは、構成推薦モジュール(Configuration Recommendation)、性能検知モジュール(P...

📄 論文解説: Teaching Large Language Models to Self-Debug — LLMの自己デバッグ手法

本記事は Teaching Large Language Models to Self-Debug の解説記事です。 論文概要(Abstract) Self-Debuggingは、LLMが自身の生成したコードをデバッグする手法である。著者らは、外部のオラクルフィードバック(正解テスト等)なしでも、コードの実行結果の検査やコードの自然言語による説明(ラバーダックデバッグ)によってLLMが自...

✍️ AWS公式ブログ解説: Amazon Bedrock AgentCore — 7つのマネージドサービスでAIエージェントを本番運用する

本記事は AWS公式ブログ「Introducing Amazon Bedrock AgentCore: Securely deploy and operate AI agents at any scale」(著者: Danilo Poccia、2025年7月16日公開、2025年10月13日 GA更新) の解説記事です。公式ブログおよび AWS ドキュメントの内容を整理・補足しています...

📄 論文解説: Helium — データベースクエリ最適化でLLMエージェントワークフローを最大39倍高速化

本記事は https://arxiv.org/abs/2603.16104 の解説記事です。 本記事はAIによって生成されました。 論文概要(Abstract) Heliumは、エージェントワークフローにおけるLLM呼び出しの冗長性をデータベースクエリ最適化の手法で排除するフレームワークである。著者らは、相互依存するLLM呼び出しの連鎖をクエリ実行プランとしてモデル化し、Templat...