本記事は Corrective Retrieval Augmented Generation(Yan et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、RAGシステムにおける検索結果の品質問題に対処するCorrective Retrieval Augmented Generation(CRAG)フレームワークを提案している。著者らは、軽量な検索品質評価器...
本記事は SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution の解説記事です。 論文概要(Abstract) SWE-RLは、オープンソースソフトウェアの進化プロセス(GitHub Pull Request)を強化学習(RL)の報酬信号として活用し、LLMのソフトウェア...
本記事は SWE-bench Verified の解説記事です。 論文概要(Abstract) SWE-bench Verifiedは、元のSWE-bench(2,294問のGitHub Issue解決タスク)から人手で検証された500問のサブセットです。元のSWE-benchには「利用可能な情報だけでは解決不可能なタスク」や「不正確なテストが誤った解法を正解と判定する」問題がありました...
本記事は OpenHands: An Open Platform for AI Software Agents の解説記事です。 論文概要(Abstract) OpenHands(旧OpenDevin)は、AIソフトウェアエージェントの開発・研究・評価を統一するオープンソースプラットフォームです。著者らは、人間の開発者と同等の操作——コード記述、ターミナル実行、Webブラウジング、API...
本記事は ChatDev: Communicative Agents for Software Development の解説記事です。 論文概要(Abstract) ChatDevは、LLM駆動の複数エージェントが役割分担してソフトウェア開発の全フェーズ(設計→コーディング→テスト→ドキュメント作成)を自動化するフレームワークです。著者らは「チャットチェーン」と呼ぶ対話形式のワークフロ...
本記事は Notion公式ブログ: Two years of vector search at Notion: 10x scale, 1/10th cost(2026年2月19日公開)の解説記事です。 ブログ概要(Summary) Notionは2023年11月のNotion AI Q&Aローンチ以降、ベクトル検索基盤を10倍にスケールしながらインフラコストを90%以上削減したと...
本記事は Gemini 1.5: Unlocking Multimodal Understanding Across Millions of Tokens of Context の解説記事です。 論文概要(Abstract) Gemini 1.5は、Googleが2024年3月に公開したマルチモーダル大規模言語モデルの技術報告である。Mixture-of-Experts(MoE)アーキテ...
本記事は arXiv:2505.06120(Laban et al., 2025)の解説記事です。 論文概要(Abstract) LLMを本番チャットボットに組み込む際、シングルターンでは高精度でもマルチターン会話では性能が大幅に劣化する。著者らは15モデル・600指示・27万以上のシミュレーション会話を用いて、マルチターン環境でのLLM性能を体系的に評価した。その結果、最先端モデルでも...
本記事は Searching for Best Practices in Retrieval-Augmented Generation(Wang et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、Retrieval-Augmented Generation(RAG)パイプラインを構成する6つのモジュール(クエリ分類、チャンキング、埋め込みモデル、検索手法...
本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering の解説記事です。 論文概要(Abstract) SWE-agentは、LLM(大規模言語モデル)がコンピュータと対話するためのAgent-Computer Interface(ACI)を体系的に設計し、GitHubの実際のIssu...