Home
0h-n0 TechBLog
キャンセル

📄 論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク

論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク 論文概要 AgentBench: Evaluating LLMs as Agents (arXiv:2308.10848, 2023年8月) は、Large Language Model (LLM) をエージェントとして評価するための包括的なベンチマークフレームワークです。従来のLLM評価が自然言語処理タス...

✍️ DeepMind CodeMender解説: AI駆動型コードセキュリティ改善エージェント

1. ブログ概要 DeepMindが2025年に発表したCodeMenderは、コードセキュリティの脆弱性を自動的に検出・修正するAIエージェントシステムです。従来の静的解析ツールやLintが「脆弱性の指摘」に留まるのに対し、CodeMenderは修正パッチの自動生成から検証、アップストリームへの貢献までを実現しています。 主要な特徴: Gemini Deep Thinkモデル: ...

💻 AWS ML Blog解説: Amazon Bedrockの構造化出力 - スキーマ準拠AI応答の実現

ブログ概要 Amazon BedrockにStructured Outputs機能が追加され、Foundation ModelsがJSON Schemaに確実に準拠した応答を生成できるようになりました。本機能はConstrained Decodingを使用し、モデルがスキーマ違反を生成することを防ぎます。 Zenn記事ではPydanticによる事後検証を紹介しましたが、Amazon Be...

📄 論文解説: Hallucination Detection and Mitigation - LLMハルシネーションの多面的検出と緩和戦略

論文概要(Abstract) LLMが自信満々に誤った情報を生成する「ハルシネーション」問題に対し、検出と緩和の両面から取り組む包括的フレームワークを提案します。検出には不確実性推定・事実整合性チェック・推論検証の3つのアプローチを組み合わせ、緩和には知識グラウンディング・プロンプトエンジニアリング・モデル改良を用います。 実験では、複数の検出手法を組み合わせることで精度が向上し、タスク...

📄 論文解説: STED and Consistency Scoring - LLM構造化出力の信頼性評価フレームワーク

論文概要(Abstract) LLMの構造化データ生成(JSON/XML等)における出力一貫性を評価・改善するための包括的フレームワークです。本論文は、STED(Semantic Tree Edit Distance)という新しい類似度メトリクスと、一貫性スコアリングを組み合わせることで、従来のメトリクス(BERTScore、DeepDiff等)が抱えていた問題を解決します。 実験では、...

📄 EMNLP 2024論文解説: MiniCheck - 高速・高精度なLLMファクトチェック

論文概要(Abstract) MiniCheckは、LLM出力がグラウンディングドキュメント(参照文書)に基づいているかを検証する軽量・高速なファクトチェックモデルです。 従来のGPT-4ベース検証(APIコスト高、レイテンシ大)に対し、BERTベースの小型モデル(110M parameters)で同等以上の精度を達成します。Zenn記事の「引用接地(Citation Grounding...

📄 NeurIPS 2024論文解説: HaloScope - 未ラベルLLM生成データを活用したハルシネーション検出

論文概要(Abstract) HaloScopeは、ラベル付きデータを必要としないハルシネーション検出フレームワークです。LLMが生成した大量の未ラベルテキストから、自己教師あり学習によりハルシネーションを検出する手法を提案します。 従来手法が高コストな人手ラベリングに依存していたのに対し、HaloScopeは複数回サンプリング + 一貫性ベース検証により、教師なしでハルシネーションを特...

💻 Google Adsenseのads.txtをGithub pagesでホストされているjekyllのサイトへデプロイする方法

Google AdSenseの許可がおり、自分のサイトに広告を表示したいとき、ads.txtをドメイン直下に配置しなければなりません。。参考のリンク1にも記載していますが、ads.txtの配置は以下のような目的に基づきます。 [引用] ads.txt を使用すれば、購入者が偽の広告枠を判別できるため、サイト運営者様としても偽の広告枠に収益が流れるのを阻止し、その分収益を増やすことがで...

💻 書籍『テスト駆動開発』を読みつつ、Pythonで書き直してみる。

 オライリーの書籍『テスト駆動開発』を読みつつ、詰まったところや一部書き換えが必要なところをまとめました。そして一部のサンプルをpythonベースで書き換えています。詳しい内容は是非とも書籍を購入して確認してください。 前置き  この本を手に取っているということは、ある程度のエンジニア歴があると仮定します。このブログはMLE/DS向けに記載しているため、書籍ではJavaのサンプルコードが...

💻 第3章補足:書籍『SolidityとEthereumによる実践スマートコントラクト開発 ―Truffle Suiteを用いた開発の基礎からデプロイまで』

オライリーの書籍『SolidityとEthereumによる実践スマートコントラクト開発 ―Truffle Suiteを用いた開発の基礎からデプロイまで』を読みつつ、詰まったところや一部書き換えが必要なところをまとめました。この内容は本書の第三章の部分の補足となります。最初はsolidityで概要を学びつつ、いずれはRustに移行したいです。Rustでの開発も盛んなようですし1…。 環境構築...