論文概要(Abstract) 「When Better Prompts Hurt: Evaluation-Driven Iteration for LLM Applications」(2025年1月、arXiv:2601.22025)は、LLMのプロンプトエンジニアリングにおける体系的な評価方法論の欠如がもたらす問題に取り組む論文です。直感的に「改善」と思える変更(Chain-of-Tho...
論文概要(Abstract) 本論文は、ベクトルデータベース管理システム(Vector DBMS)を体系的にサーベイした包括的な研究です。近年のLLM・RAGパイプラインの普及に伴い急増するベクトル検索需要に対し、ストレージ管理・インデックス構造・クエリ処理・システムアーキテクチャの4軸で主要なベクトルDBを分類・比較しています。pgvector、Milvus、Qdrant、Pinecon...
論文概要(Abstract) TextGradは、LLMを基盤とした任意の計算グラフに対して「テキストによる自動微分」を実装するフレームワークである。PyTorchがテンソルと自動微分を提供するのと同様に、TextGradはパイプライン内のあらゆる成果物(コード、テキスト、分子構造等)を表現するVariable抽象を提供し、LLMフィードバックによる自動微分をサポートする。ラベルデータ不要...
ブログ概要(Summary) LaunchDarkly AI Configsは、LLMアプリケーションにおけるモデル設定・プロンプト・ツール定義をランタイムに制御するための機能である。コードデプロイなしでモデル切り替え・プロンプト更新・段階的ロールアウト(5%→25%→100%)を実現し、ユーザーセグメント別のターゲティング・メトリクスベースの実験を可能にする。Completion Mod...
ブログ概要(Summary) Langfuseは、LLMアプリケーションのためのOSS(MITライセンス)オブザーバビリティ・評価基盤である。プロンプトのバージョン管理・ラベルベースのA/Bテスト・リアルタイムトレーシング・自動評価を統合的に提供する。GitHub Stars 19,000超、Y Combinator W23出身で、OpenTelemetry・LangChain・OpenA...
論文概要(Abstract) OPRO(Optimization by PROmpting)は、LLMをオプティマイザとして活用し、自然言語で記述された最適化タスクを解くフレームワークである。各最適化ステップでLLMは過去の解とスコアを含むメタプロンプトから新しい解を生成し、評価して軌跡に追加する。プロンプト最適化への応用で、人手設計プロンプトをGSM8Kで最大+8.4%、Big-Benc...
ブログ概要(Summary) Anthropicが2024年11月に公開した研究ブログ「A Statistical Approach to Model Evaluations」は、LLM評価における統計的厳密性の欠如を指摘し、5つの具体的な改善提言を行っています。核心的な問いは「モデル間の能力差は本物か、それとも質問の運で偶然そう見えただけか?」です。クラスター標準誤差がnaive計算の3...
論文概要(Abstract) LLMベースのチャットアシスタントの評価は、その広範な能力と既存ベンチマークの不十分さのため困難です。本論文は「強力なLLM(GPT-4)を審判(Judge)として使う」アプローチを体系的に研究し、MT-Bench(80問のマルチターンベンチマーク)とChatbot Arena(クラウドソーシング型対戦プラットフォーム)の2つの評価フレームワークを提案しました...
論文概要(Abstract) DSPy(Declarative Self-improving Python)は、LLMパイプラインを宣言的プログラムとして記述し、プロンプトの詳細をプログラマから分離するフレームワークである。手書きプロンプトへの依存を排除し、入出力の型仕様(Signature)・LLM操作の抽象化(Module)・自動最適化コンパイラ(Teleprompter)の三層構造に...
ブログ概要 NVIDIA Dynamoは、推論AIモデル(特にMoEアーキテクチャ)のスケーリングを目的とした低レイテンシ分散推論フレームワークである。2025年にオープンソースとして公開され(ai-dynamo/dynamoリポジトリ)、vLLM・SGLang・TensorRT-LLMと統合可能。中核技術はPrefill/Decode分離サービング、分散KVキャッシュ管理、NIXL(NV...