Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Is Self-Repair a Silver Bullet for Code Generation? — LLMコード自己修復の可能性と限界

論文概要 本記事は Is Self-Repair a Silver Bullet for Code Generation?(arXiv:2306.09896)の解説記事です。 本論文は、LLMが自ら生成したコードのバグを自己修復(self-repair)できるかを体系的に評価した研究である。CodeLlama-13b、GPT-3.5、GPT-4の3モデルをHumanEvalとAPPSの2...

📄 論文解説: AutoCodeRover — AST解析で実現する自律的プログラム改善エージェント

論文概要 本記事は AutoCodeRover: Autonomous Program Improvement(ISSTA 2024採択、arXiv:2404.05427)の解説記事です。AutoCodeRoverは、大規模言語モデル(LLM)と抽象構文木(AST)ベースのコード検索を組み合わせ、GitHubのIssueを自律的に解決するエージェントです。ソフトウェアプロジェクトをファイル...

📄 論文解説: BitsAI-CR — ByteDanceにおけるLLMコードレビュー自動化の実践

論文概要 本記事は BitsAI-CR: Automated Code Review via LLM in Practice(arXiv:2501.15134)の解説記事です。 この記事は Zenn記事: Claude Codeで本番プロジェクトにAI拡張開発を組み込む実践ワークフロー の深掘りです。 BitsAI-CRは、ByteDanceが開発・運用しているLLMベースの自動コード...

✍️ Anthropic公式レポート解説: 2026 Agentic Coding Trends Report — エージェント型開発の8つのトレンド

Anthropic公式レポート解説: 2026 Agentic Coding Trends Report ブログ概要(Summary) 本記事は 2026 Agentic Coding Trends Report(Anthropic, 2026年1月発表)の解説記事です。 このレポートは、コーディングエージェントがソフトウェア開発のライフサイクル全体をどのように変えつつあるかを、Fou...

📄 論文解説: CheckEval — チェックリストによるLLM評価の信頼性向上フレームワーク

本記事は CheckEval: Robust Evaluation Framework using Large Language Model via Checklist の解説記事です。 論文概要(Abstract) LLMを評価器として使用する際、スコアリング基準の曖昧さと評価結果の不安定性が課題となっている。著者らは、評価基準をチェックリスト項目(Yes/No判定可能な具体的な質問)...

📄 論文解説: G-Eval — GPT-4とChain-of-Thoughtによる自然言語生成の自動評価

本記事は G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment の解説記事です。 論文概要(Abstract) 自然言語生成(NLG)タスクの自動評価は、BLEU・ROUGEなどの従来指標では人手評価との相関が低いという長年の課題がある。著者らは、LLMのChain-of-Thought(CoT)能力を活用して評価ス...

📄 論文解説: PROMETHEUS — LLMに細粒度評価能力を誘導するオープンソースジャッジモデル

本記事は PROMETHEUS: Inducing Fine-grained Evaluation Capability in Language Models の解説記事です。 論文概要(Abstract) GPT-4などのプロプライエタリLLMを評価器として使う手法が一般化しているが、透明性の欠如、コスト、API依存性などの問題がある。著者らは、カスタムルーブリック(評価基準)を入力と...

✍️ Anthropic Engineering解説: Demystifying Evals for AI Agents

本記事は Demystifying Evals for AI Agents(Anthropic Engineering Blog, 2026年1月9日公開)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームが公開した、AIエージェント評価(Evals)の包括的ガイドである。エージェント評価における基本概念の定義から、3種類のグレーダー(Code-B...

📄 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)の評価において、人手評価はコストが高く再現性に欠ける課題がある。著者らは、強力なLLM(GPT-4等)を自動評価器として活用するLLM-as-a-Judgeアプローチを体系的に検証し、人手評価との...

📄 論文解説: AutoSearch — 強化学習による適応的検索深度制御でAgentic RAGの過剰検索を解消する

本記事は arXiv:2604.17337 (AutoSearch) の解説記事です。 論文概要(Abstract) AutoSearchは、Agentic RAGにおける「過剰検索(over-searching)」問題を強化学習で解決するフレームワークである。著者らはSearch Budget Token(SBT)と呼ばれる特殊トークン機構を導入し、LLMが「いつ検索を止めるか」を自律...