Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Benchmarking Large Language Models for Vulnerability Detection — LLM脆弱性検出の定量評価

論文概要(Abstract) LLMを用いたコード脆弱性検出は、従来のSAST(静的アプリケーションセキュリティテスト)ツールを補完する有望なアプローチとして注目されている。本論文は、CVEデータベースの実脆弱性コードを用いてGPT-4、Claude-3-Opus、Gemini等の主要LLMの脆弱性検出能力を体系的にベンチマーク評価した研究である。Zero-shot、Few-shot、Co...

✍️ Anthropic解説: Mitigating Prompt Injections in Browser Use — 強化学習による防御の最前線

ブログ概要(Summary) 2025年11月、Anthropicはブラウザ操作AIエージェントにおけるプロンプトインジェクション防御の技術詳細を公開した。本記事では、強化学習によるモデル訓練、分類器ベースの攻撃検出、専門レッドチーミングの3つのアプローチを組み合わせた防御戦略の技術的詳細を解説する。内部テストでは、適応型攻撃者が100回の攻撃試行を行った場合でも攻撃成功率を約1%まで低減...

📄 論文解説: Not What You've Signed Up For — 間接プロンプトインジェクションの体系的脅威分析

論文概要(Abstract) LLM(大規模言語モデル)がWeb閲覧・メール送受信・コード実行等のツールと統合され、自律的にタスクを遂行するエージェントとして機能する場面が急増している。本論文は、このようなLLM統合アプリケーションに対する間接プロンプトインジェクション(Indirect Prompt Injection)という新たな攻撃クラスを初めて体系化し、Bing Chat、GitH...

📄 論文解説: Prompt Injection Attacks on Agentic Coding Assistants — 5製品の実証評価

論文概要(Abstract) エージェント型AIコーディングアシスタントは、ターミナル操作・ファイル管理・Web閲覧・IDE操作を自律的に行う強力なツールだが、プロンプトインジェクション攻撃に対する脆弱性が大きな課題となっている。本論文は、Claude Code・GitHub Copilot・Gemini CLI・Amazon Q Developer・Cursorの5製品を対象に、4つの現...

✍️ NVIDIA解説: リランキングマイクロサービスによるRAG精度向上とコスト削減の両立

ブログ概要(Summary) NVIDIAのデベロッパーブログ記事は、リランキングマイクロサービスをRAGパイプラインに導入することで、精度向上とコスト削減を同時に実現する手法を定量的に分析する。3つの最適化シナリオ(精度最大化・コスト削減・バランス型)を提示し、リランカー導入によるLLM推論コスト21.5%削減のベンチマーク結果を報告する。NeMo Retriever Reranking...

✍️ NVIDIA Technical Blog解説: Teacher-Studentパラダイムで小規模LLMのコードレビュー精度を18%向上

ブログ概要(Summary) NVIDIAは、大規模LLM(Teacher)が生成した合成訓練データで小規模LLM(Student)をファインチューニングするTeacher-Studentパラダイムを開発した。LoRA(Low-Rank Adaptation)を用いたパラメータ効率的なファインチューニングにより、Llama 3 8Bモデルがベースラインから18%の精度向上を達成し、8倍大き...

✍️ ブログ解説: LangChain Self-Reflective RAG with LangGraph — 条件付きエッジで実現する自己修正型検索生成

ブログ概要(Summary) LangChainのAnkush Golaが2024年2月に公開した「Self-Reflective RAG with LangGraph」は、RAGパイプラインに自己反省ループを組み込む実装パターンを解説したテックブログです。LangGraphの状態グラフ(StateGraph)と条件付きエッジ(conditional edges)を活用し、Document...

✍️ Anthropic解説: Contextual Retrieval — チャンク文脈付与で検索失敗率67%削減

ブログ概要(Summary) Anthropicが2024年9月に公開した「Introducing Contextual Retrieval」は、RAGにおけるチャンキングの根本的な課題—チャンク分割時にコンテキスト情報が失われる問題—を解決する手法を提案している。Contextual Embeddings(文脈付き埋め込み)とContextual BM25(文脈付きキーワード検索)の2つ...

📄 論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する

論文概要(Abstract) WebArena(ウェブアリーナ)は、Carnegie Mellon大学(CMU)のShuyan Zhouらが2023年に提案した、自律Webエージェントの能力を評価するためのベンチマークです。ECサイト、フォーラム、GitLab、地図サービス、CMSの5種類の自己ホスト型Webアプリケーションを構築し、812の長期的な現実Webタスクを提供します。人間の成功...

📄 論文解説: Large Language Models are Zero-Shot Reasoners

論文概要(Abstract) 「Large Language Models are Zero-Shot Reasoners」は、LLMがタスク固有の例示なしでも推論能力を発揮できることを示した画期的な研究です。Kojima et al.(2022, 東京大学)は、プロンプトに「Let’s think step by step」(ステップバイステップで考えよう)の一文を追加するだけで、Mul...