LLM 题解自动生成：从问题描述到代码验证的闭环实践-编程实验室

LLM 题解自动生成：从问题描述到代码验证的闭环实践

一、题解的"质量参差"：官方题解看不懂，社区题解不靠谱

LeetCode 题解的最大问题不是"没有题解"，而是"题解质量参差不齐"。官方题解偏理论，缺少直觉解释；高赞题解偏技巧，缺少通用性；低赞题解可能有 bug。对于初学者，找到一篇"既正确又易懂"的题解，比做题本身还难。

LLM 生成题解的核心价值是"按需定制"——根据用户当前的理解水平，生成对应深度的解释。初学者需要从直觉出发的逐步推导，进阶者需要复杂度论证和变式分析。但 LLM 生成的题解存在准确性风险——代码可能有 bug，复杂度分析可能有误。必须建立"生成 + 验证"的闭环，才能保证题解质量。

二、题解生成与验证闭环

graph TB subgraph 生成阶段 A[题目描述] --> B[LLM生成题解<br/>思路+代码+复杂度] B --> C[结构化解析<br/>提取代码块] end subgraph 验证阶段 C --> D[编译检查<br/>语法正确性] D --> E[测试用例执行<br/>功能正确性] E --> F[复杂度验证<br/>时间/空间分析] F --> G{验证通过?} G -->|否| H[错误反馈+重新生成] H --> B G -->|是| I[输出最终题解] end

闭环的关键是"验证反馈驱动重新生成"。LLM 生成的代码如果测试不通过，将错误信息反馈给 LLM 重新生成，最多重试 3 次。这种"生成-验证-修复"的循环，可以将题解准确率从 60% 提升到 95% 以上。

三、题解生成系统实现

3.1 结构化题解生成

from dataclasses import dataclass from typing import List, Optional @dataclass class Solution: """结构化题解""" problem_id: str approach: str # 解题思路 intuition: str # 直觉解释 algorithm: str # 算法步骤 code: str # 代码实现 language: str # 编程语言 time_complexity: str # 时间复杂度 space_complexity: str # 空间复杂度 edge_cases: List[str] # 边界条件 variations: List[str] # 变式题目 class SolutionGenerator: """LLM 题解生成器""" def __init__(self, llm_client, max_retries: int = 3): self.llm = llm_client self.max_retries = max_retries def generate( self, problem_description: str, difficulty: str = "medium", language: str = "python", user_level: str = "intermediate" ) -> Solution: """生成题解，带验证闭环""" prompt = self._build_prompt( problem_description, difficulty, language, user_level ) for attempt in range(self.max_retries): response = self.llm.chat(prompt) solution = self._parse_response(response, language) # 验证代码 is_valid, errors = self._validate(solution) if is_valid: return solution # 验证失败，反馈错误信息重新生成 prompt = f"{prompt}\n\n上次生成的代码有以下问题，请修复：\n{errors}" raise RuntimeError(f"题解生成失败，重试 {self.max_retries} 次后仍不通过") def _build_prompt( self, description: str, difficulty: str, language: str, level: str ) -> str: level_instruction = { "beginner": "从最基础的概念出发，逐步推导，避免跳步", "intermediate": "给出直觉解释和关键推导步骤，省略显而易见的细节", "advanced": "聚焦复杂度优化和变式分析，简洁直接", } return f"""为以下算法题生成完整题解。 题目： {description} 难度：{difficulty} 语言：{language} 读者水平：{level_instruction.get(level, level_instruction['intermediate'])} 输出以下JSON格式： {{ "approach": "解题思路概述（2-3句话）", "intuition": "直觉解释（为什么这样想）", "algorithm": "算法步骤（编号列表）", "code": "完整可运行的代码，包含注释", "time_complexity": "O(?)，附推导", "space_complexity": "O(?)，附推导", "edge_cases": ["边界条件1", "边界条件2"], "variations": ["变式题目1", "变式题目2"] }}""" def _parse_response(self, response: str, language: str) -> Solution: """解析 LLM 输出为结构化题解""" import json data = json.loads(response) return Solution( problem_id="", approach=data["approach"], intuition=data["intuition"], algorithm=data["algorithm"], code=data["code"], language=language, time_complexity=data["time_complexity"], space_complexity=data["space_complexity"], edge_cases=data.get("edge_cases", []), variations=data.get("variations", []), ) def _validate(self, solution: Solution) -> tuple[bool, str]: """验证题解代码的正确性""" # 1. 编译检查 compile_ok, compile_err = self._compile_check(solution) if not compile_ok: return False, f"编译错误: {compile_err}" # 2. 测试用例执行 test_ok, test_err = self._run_tests(solution) if not test_ok: return False, f"测试失败: {test_err}" return True, ""

3.2 代码验证器

import subprocess import tempfile import os class CodeValidator: """代码验证器：编译检查 + 测试用例执行""" def compile_check(self, solution: Solution) -> tuple[bool, str]: """编译检查""" ext_map = {"python": ".py", "java": ".java", "cpp": ".cpp"} ext = ext_map.get(solution.language, ".txt") with tempfile.NamedTemporaryFile( mode='w', suffix=ext, delete=False ) as f: f.write(solution.code) temp_path = f.name try: if solution.language == "python": result = subprocess.run( ["python3", "-c", f"import py_compile; py_compile.compile('{temp_path}')"], capture_output=True, text=True, timeout=10 ) elif solution.language == "java": result = subprocess.run( ["javac", temp_path], capture_output=True, text=True, timeout=30 ) if result.returncode != 0: return False, result.stderr return True, "" except subprocess.TimeoutExpired: return False, "编译超时" finally: os.unlink(temp_path) def run_tests( self, solution: Solution, test_cases: list[dict] ) -> tuple[bool, str]: """执行测试用例""" errors = [] for tc in test_cases: input_data = tc["input"] expected = tc["expected_output"] # 执行代码并获取输出 actual = self._execute(solution, input_data) if actual != expected: errors.append( f"输入: {input_data}, 期望: {expected}, 实际: {actual}" ) if errors: return False, "\n".join(errors) return True, ""

四、题解生成的 Trade-offs 分析

LLM 幻觉风险：LLM 可能生成"看起来正确但实际有 bug"的代码，尤其是边界条件处理。验证闭环可以捕获大部分 bug，但无法保证 100% 正确。建议对生成的题解标注"AI 生成，仅供参考"，并鼓励用户自行验证。

生成成本：每次生成约消耗 2000-4000 tokens，加上验证失败后的重试，单次题解生成成本约 0.05-0.2 美元。批量生成时，可以通过缓存相似题目的题解来降低成本。

题解深度与可读性：LLM 倾向于生成"标准答案"式的题解，缺少直觉解释和思维过程。通过 Prompt 中明确要求"先讲直觉，再讲方法"，可以改善可读性，但深度仍不如高质量人工题解。

语言覆盖：Python 题解的生成质量最高（训练数据最多），C++ 和 Java 次之，Go 和 Rust 较差。对于冷门语言，建议先生成 Python 题解，再翻译为目标语言。

五、总结

LLM 题解生成的核心是"生成 + 验证闭环"。LLM 负责生成结构化题解，自动化验证器负责检查代码正确性，验证失败则反馈错误信息重新生成。这种循环机制将题解准确率从 60% 提升到 95% 以上，但仍需标注"AI 生成"并鼓励用户自行验证。

落地建议：先实现 Python 题解的生成和验证管线，验证闭环跑通；然后扩展到 C++ 和 Java；最后根据用户反馈优化 Prompt，提升题解的直觉解释和思维过程描述。全程监控生成成功率和用户满意度。

LLM 题解自动生成：从问题描述到代码验证的闭环实践