論文概要(Abstract) TextGradは、LLMを基盤とした任意の計算グラフに対して「テキストによる自動微分」を実装するフレームワークである。PyTorchがテンソルと自動微分を提供するのと同様に、TextGradはパイプライン内のあらゆる成果物(コード、テキスト、分子構造等)を表現するVariable抽象を提供し、LLMフィードバックによる自動微分をサポートする。ラベルデータ不要...
ブログ概要(Summary) LaunchDarkly AI Configsは、LLMアプリケーションにおけるモデル設定・プロンプト・ツール定義をランタイムに制御するための機能である。コードデプロイなしでモデル切り替え・プロンプト更新・段階的ロールアウト(5%→25%→100%)を実現し、ユーザーセグメント別のターゲティング・メトリクスベースの実験を可能にする。Completion Mod...
ブログ概要(Summary) Langfuseは、LLMアプリケーションのためのOSS(MITライセンス)オブザーバビリティ・評価基盤である。プロンプトのバージョン管理・ラベルベースのA/Bテスト・リアルタイムトレーシング・自動評価を統合的に提供する。GitHub Stars 19,000超、Y Combinator W23出身で、OpenTelemetry・LangChain・OpenA...
論文概要(Abstract) OPRO(Optimization by PROmpting)は、LLMをオプティマイザとして活用し、自然言語で記述された最適化タスクを解くフレームワークである。各最適化ステップでLLMは過去の解とスコアを含むメタプロンプトから新しい解を生成し、評価して軌跡に追加する。プロンプト最適化への応用で、人手設計プロンプトをGSM8Kで最大+8.4%、Big-Benc...
ブログ概要(Summary) Anthropicが2024年11月に公開した研究ブログ「A Statistical Approach to Model Evaluations」は、LLM評価における統計的厳密性の欠如を指摘し、5つの具体的な改善提言を行っています。核心的な問いは「モデル間の能力差は本物か、それとも質問の運で偶然そう見えただけか?」です。クラスター標準誤差がnaive計算の3...
論文概要(Abstract) LLMベースのチャットアシスタントの評価は、その広範な能力と既存ベンチマークの不十分さのため困難です。本論文は「強力なLLM(GPT-4)を審判(Judge)として使う」アプローチを体系的に研究し、MT-Bench(80問のマルチターンベンチマーク)とChatbot Arena(クラウドソーシング型対戦プラットフォーム)の2つの評価フレームワークを提案しました...
論文概要(Abstract) DSPy(Declarative Self-improving Python)は、LLMパイプラインを宣言的プログラムとして記述し、プロンプトの詳細をプログラマから分離するフレームワークである。手書きプロンプトへの依存を排除し、入出力の型仕様(Signature)・LLM操作の抽象化(Module)・自動最適化コンパイラ(Teleprompter)の三層構造に...
ブログ概要 NVIDIA Dynamoは、推論AIモデル(特にMoEアーキテクチャ)のスケーリングを目的とした低レイテンシ分散推論フレームワークである。2025年にオープンソースとして公開され(ai-dynamo/dynamoリポジトリ)、vLLM・SGLang・TensorRT-LLMと統合可能。中核技術はPrefill/Decode分離サービング、分散KVキャッシュ管理、NIXL(NV...
論文概要(Abstract) Qwen3はAlibaba Group Qwenチームが開発した最新世代の大規模言語モデルファミリーである。Dense(0.6B〜32B)とMoE(30B-A3B、235B-A22B)の包括的なモデルスイートを提供し、Thinking Mode(拡張推論)とNon-Thinking Mode(高速応答)を単一モデル内に統合した点が最大の特徴。約36兆トークンの...
論文概要(Abstract) Tri DaoとAlbert Guによる本論文は、状態空間モデル(SSM)とAttentionが半可分行列(Semiseparable Matrix)を介して数学的に等価であることを示すStructured State Space Duality(SSD)フレームワークを提案する。このフレームワークに基づき設計されたMamba-2は、状態遷移行列をスカラーに制...