サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類

本記事は arXiv:2412.04687 の解説記事です。

論文概要（Abstract）

Cuiらは、LLMを用いたNL2SQL（自然言語→SQL変換）の研究を「訓練軸」と「推論軸」の2次元で体系的に分類したサーベイを発表した。訓練軸ではPre-training、Supervised Fine-Tuning（SFT）、RLHF（人間フィードバックからの強化学習）の3段階を、推論軸ではPrompt Engineering、Agent-basedの2アプローチを整理している。著者らはNL2SQL_Handbookとしてリアルタイム更新のリーディングリストを公開している。

この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装するの深掘りです。

情報源

arXiv ID: 2412.04687
URL: https://arxiv.org/abs/2412.04687
著者: Xueling Cui, Fangting Wang, Yuzhe Zhang, Guosen Wang, Jingyun Sun, He Wang, Shijie Mei, Lingwei Zhang, Bo Wang, Yutai Hou, Qingfu Zhu, Wanxiang Che（HIT / HKUST）
発表年: 2024年12月（2025年1月更新）
分野: cs.CL, cs.AI

背景と動機（Background & Motivation）

NL2SQL（Natural Language to SQL）は、自然言語をSQLクエリに変換する長年の研究課題である。LLMの登場により、この分野は大きなパラダイムシフトを経験した。しかし、著者らは以下の課題を指摘している：

多数のNL2SQL手法が提案されているが、訓練方法と推論方法の両面を統合的に整理した文献が不足
Agent-basedアプローチ（MAC-SQL、TA-SQL等）の台頭により、従来のICLベースの分類体系では不十分
既存サーベイはベンチマーク（Spider、BIRD）の結果比較に偏り、手法の設計選択肢を体系化していない

本サーベイの動機は、実務者が「何を（どう訓練するか）」と「どう使うか（どう推論させるか）」の2つの設計判断を行うための包括的なガイドを提供することにある。

主要な貢献（Key Contributions）

貢献1: NL2SQL手法を訓練軸（Pre-training/SFT/RLHF）と推論軸（Prompt Engineering/Agent-based）の2次元で分類する体系を構築
貢献2: Agent-based手法（Multi-Agent、Tool-Augmented、RAG-based）を明示的に区別・整理
貢献3: NL2SQL_Handbook（GitHub）としてリアルタイム更新リーディングリストを公開

技術的詳細（Technical Details）

NL2SQLパイプラインの全体像

NL2SQLの処理は一般に以下の5段階で構成される：

\[q \xrightarrow{\text{(1) Understanding}} q' \xrightarrow{\text{(2) Schema Linking}} (q', \mathcal{S}') \xrightarrow{\text{(3) SQL Gen}} s \xrightarrow{\text{(4) Execution}} R \xrightarrow{\text{(5) Interpret}} a\]

ここで、

$q$: ユーザーの自然言語クエリ
$q’$: 意図解析済みクエリ
$\mathcal{S}’ \subseteq \mathcal{S}$: スキーマリンキングで選択されたテーブル・カラム
$s$: 生成されたSQL文
$R$: SQL実行結果
$a$: ユーザーへの最終回答

軸1: 訓練手法の分類

Pre-training

LLMのSQL理解能力を強化する事前学習手法。CodeX（Chen et al., 2021）はコードコーパスでの事前学習によりSQL生成能力を獲得した。CodeS（Li et al., 2024）はSQL特化の追加事前学習を行い、スキーマ理解を強化している。

Supervised Fine-Tuning (SFT)

NL2SQLタスクに特化した教師あり学習：

  
# SFTの典型的な訓練ループ（概念コード）
from typing import TypedDict


class NL2SQLSample(TypedDict):
    """NL2SQL訓練サンプル"""
    question: str        # 自然言語クエリ
    schema: str          # DBスキーマ情報
    gold_sql: str        # 正解SQL
    difficulty: str      # easy/medium/hard


def sft_loss(model, sample: NL2SQLSample) -> float:
    """NL2SQL SFTの損失計算

    Args:
        model: 言語モデル
        sample: 訓練サンプル

    Returns:
        クロスエントロピー損失
    """
    prompt = format_nl2sql_prompt(
        question=sample["question"],
        schema=sample["schema"],
    )
    predicted_sql = model.generate(prompt)
    loss = cross_entropy(predicted_sql, sample["gold_sql"])
    return loss

代表的手法：

RESDSQL (Li et al., 2023): スキーマ分離デコーディング
SENSE (Guo et al., 2024): スキーマ強化型SFT
ROUTE (Gao et al., 2025): マルチタスクFT（Schema Linking + SQL Skeleton + SQL Generation + SQL Refinement）

RLHF（Reinforcement Learning from Human Feedback）

SQL生成の信頼性を向上させる強化学習。SQL実行結果の正誤をリワードとして使用する手法が報告されている。

\[\mathcal{L}_{\text{RLHF}} = -\mathbb{E}_{s \sim \pi_\theta(q)} \left[ r(s, s^*) - \beta \log \frac{\pi_\theta(s|q)}{\pi_{\text{ref}}(s|q)} \right]\]

ここで、

$\pi_\theta$: 現在のポリシー（LLM）
$\pi_{\text{ref}}$: 参照ポリシー（SFT後のモデル）
$r(s, s^*)$: SQL実行結果ベースのリワード（正解一致: 1, 不一致: 0）
$\beta$: KLペナルティ係数

軸2: 推論手法の分類

Prompt Engineering

In-Context Learning (ICL):

DAIL-SQL（Gao et al., 2023）はデモ選択アルゴリズムを設計し、質問とスキーマの類似度に基づいて最適なデモを選択する。DIN-SQL（Pourreza & Rafiei, 2023）は分割統治法で複雑なクエリを分解する。

Chain-of-Thought (CoT) Prompting:

SQLの推論過程を段階的に生成させることで、複雑なJOINやサブクエリの正確性を向上させる。

Agent-based手法

サーベイの中核となるセクション。著者らは3つのAgent-basedアプローチを区別している：

1. Multi-Agent Systems（マルチエージェント）

MAC-SQL（Wang et al., 2024）は、Schema Linking Agent、SQL Generation Agent、SQL Refinement Agentの3つの専門エージェントがパイプラインを構成する。

  
class NL2SQLMultiAgentPipeline:
    """MAC-SQLスタイルのマルチエージェントパイプライン"""

    def __init__(self, schema_agent, gen_agent, refine_agent):
        self.schema_agent = schema_agent
        self.gen_agent = gen_agent
        self.refine_agent = refine_agent

    async def run(self, question: str, schema: str) -> str:
        """3段階のエージェントパイプラインを実行

        Args:
            question: 自然言語クエリ
            schema: DBスキーマ

        Returns:
            最終SQL文
        """
        # Step 1: Schema Linking
        relevant_schema = await self.schema_agent.invoke(
            question, schema
        )

        # Step 2: SQL Generation
        initial_sql = await self.gen_agent.invoke(
            question, relevant_schema
        )

        # Step 3: SQL Refinement
        refined_sql = await self.refine_agent.invoke(
            question, relevant_schema, initial_sql
        )
        return refined_sql

2. Tool-Augmented Methods（ツール拡張）

LLMに外部ツール（SQL実行エンジン、スキーマ取得API等）を提供し、ツール使用を含むエージェントループを構成する。Zenn記事のSQLDatabaseToolkitはこのアプローチに分類される。

3. RAG-based Methods（検索拡張生成）

スキーマ情報、類似SQLクエリ例、ドメイン知識をベクトル検索で取得し、コンテキストに含める手法。

Zenn記事のアーキテクチャのサーベイ上の位置づけ

Zenn記事のLangGraph StateGraph実装は、サーベイの分類体系では以下のように位置づけられる：

構成要素	サーベイの分類
Claude Sonnet 4.6 + with_structured_output	Prompt Engineering（ICL + 構造化出力）
SQLDatabaseToolkit	Tool-Augmented Method
ChromaDB検索	RAG-based Method
StateGraphルーティング	Agent-based（Multi-Agent Pipeline）

つまり、Zenn記事の実装はサーベイで整理されている3つのAgent-basedアプローチすべてを統合した構成である。

実験結果（Results）

サーベイ自体は新規手法の提案ではないため、独自の実験は含まれていない。ただし、収録されている主要手法のBIRD・Spiderベンチマーク結果を以下に整理する（サーベイ内の比較表より引用）：

手法	分類	BIRD Dev EX(%)	Spider Dev EX(%)
DAIL-SQL	ICL	54.8	86.6
DIN-SQL	ICL + CoT	55.9	85.3
CodeS-15B	Pre-training	58.5	85.4
SENSE	SFT	66.4	-
MAC-SQL	Multi-Agent	59.6	86.0
ROUTE	SFT + Multi-Agent	75.6	89.0

（数値はサーベイ内で引用されている各論文の報告値）

分析ポイント:

SFTベースの手法（SENSE、ROUTE）がICLベース（DAIL-SQL）を大きく上回る
Multi-Agent手法（MAC-SQL）は追加のFine-Tuningなしでも競争力がある
ROUTEはSFT+Multi-Agentの統合により最高性能を達成

実運用への応用（Practical Applications）

手法選択のガイドライン

サーベイの知見に基づく実務者向け選択ガイド：

Fine-Tuning可能な場合:

ROUTE系のマルチタスクSFTが最も高精度
自社ドメインのNL-SQLペアデータが100件以上あれば検討価値あり

Fine-Tuning不可の場合（API経由のみ）:

Zenn記事のようなTool-Augmented Agent構成が推奨
SQLDatabaseToolkit + with_structured_outputの組み合わせはICL+Tool-Augmented+RAGの統合

コスト制約がある場合:

ICL（DAIL-SQL型）が最もコスト効率が高い
デモ選択の品質がBIRDで10ポイント以上の差を生む

制約と限界

サーベイは2024年12月時点の情報であり、2025年以降の最新手法は未収録
実装可能なコードは付属しない（リーディングリストのみ）
BIRDベンチマーク中心の評価であり、実業務での評価は各論文に依存

まとめと今後の展望

NL2SQL手法は訓練軸（Pre-training/SFT/RLHF）×推論軸（Prompt/Agent）の4象限で整理できる
Agent-based手法は「Multi-Agent」「Tool-Augmented」「RAG-based」の3タイプに細分化される
Zenn記事のLangGraph実装は3タイプすべてを統合した先進的な構成
著者らは今後の方向として、より強力なLLM、Agentic手法の発展、マルチモーダル対応、ドメイン特化FTを挙げている

参考文献

arXiv: https://arxiv.org/abs/2412.04687
NL2SQL Handbook: https://github.com/HKUSTDial/NL2SQL_Handbook
Related Zenn article: https://zenn.dev/0h_n0/articles/58dc3076d2ffba

✍️ サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

NL2SQLパイプラインの全体像

軸1: 訓練手法の分類

Pre-training

Supervised Fine-Tuning (SFT)

RLHF（Reinforcement Learning from Human Feedback）

軸2: 推論手法の分類

Prompt Engineering

Agent-based手法

Zenn記事のアーキテクチャのサーベイ上の位置づけ

実験結果（Results）

実運用への応用（Practical Applications）

手法選択のガイドライン

制約と限界

関連研究（Related Work）

まとめと今後の展望

参考文献

✍️ サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

NL2SQLパイプラインの全体像

軸1: 訓練手法の分類

Pre-training

Supervised Fine-Tuning (SFT)

RLHF（Reinforcement Learning from Human Feedback）

軸2: 推論手法の分類

Prompt Engineering

Agent-based手法

Zenn記事のアーキテクチャのサーベイ上の位置づけ

実験結果（Results）

実運用への応用（Practical Applications）

手法選択のガイドライン

制約と限界

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: Text-to-SQL based QA on Product Catalogs — RAG vs SQL の定量比較

📄 論文解説: ROUTE — マルチタスクFTとエキスパートLLM協調でText-to-SQL精度76.4%を達成

✍️ サーベイ解説: リランキングモデルの進化 — ヒューリスティクスからLLMまでの体系的分類