【AI自动生成STEM题目的方法:三种提示词策略研究】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-5-29 23:08

AI自动生成STEM题目的方法:三种提示词策略研究

作者：微信文章
生成式AI（如ChatGPT）在教育领域尤其是STEM（科学、技术、工程、数学）中的应用越来越广泛，教师和学生在教学和评估中都已开始使用AI。自动生成高质量评测题目，可以降低教师工作量、提高评测效率、实现个性化等，是当前教育评测技术的发展方向。AI（主要是大语言模型，LLM）虽能高效生成内容，但也存在“幻觉”风险，容易产生错误信息或误导学生。

尤其是在出题的时候。比如，出一个数学题其实不是那么随便的事情，有很多题目是无解的，有很多题目是无意义的。就拿最简单的7.11和7.9比大小的问题都经常有AI搞错，更麻烦的是，它不仅搞错，还会信誓旦旦地讲解。

如图，左侧是教育学人AIED做的微调大模型learnMath（研究用暂不公开），基于Qwen3和数学教育数据集微调，遇到这种题目没什么问题。右边这个Llama3不仅算错了还在瞎扯

LLM（如GPT-4）的加入，使题目生成更自然、个性化，也提高了效率和可访问性。现有研究表明，AI生成的题目在质量上已接近人类教师，但对于高难度、需要多步骤推理的问题，AI仍有局限。南洋理工大学国立教育学院的研究团队发表了一篇论文《Automatic item generation in various STEM subjects using large language model prompting》，讲了三种提示词策略的比较，其中最后一种策略是我从没想到的——亲测非常有效。

该研究的核心问题是：（1）LLM（GPT-3.5与GPT-4）在自动生成STEM科目的问答对时，概念准确性与解题步骤质量如何？（2）不同的提示工程方式有何影响？

其中第一个问题现在已经没什么意义了，这两种模型都已经被OpenAI下架（太落伍）。第二个问题仍然有着长久的意义，只要LLMs式AI还是用现在的文字对话形式交互，这个问题就持续有意义。这也告诉我们一个AI教育研究的趋势：探讨某一模型性能的研究很快会过时（像GPT-3.5，现在你想去验证都很难找了），而探讨AI模型交互/优化策略的研究将可以在较长的时期内保持生机。

感慨一句。谁会想做一个还没有发表就过时的研究呢？AI模型的更新速度比大多数核心期刊的审稿流程要快多了。

研究探讨了三种提示词方法：
标准提示（SP）：仅给出学科、题目背景等基本信息。链式思考提示（CoT）：在SP基础上，增加样例问答和分步推理。链式思考+代码（CoT-CL）：要求AI写Python代码验证答案正确性。

总共生成600组问答对，由学科专家按“题目清晰度、情境准确性、最终答案正确性、解题步骤质量”四维度评分。

接下来我们不再分析这篇论文，而是看看这篇论文里提到的三种提示词，以及为什么最后一种更适合计算类题目。

1. 标准提示（SP, Standard Prompt）

只告诉AI，你是某学科教师、学生年级、题目类型和具体题目情境，让AI直接生成一套题目和答案。

示例提示词：

你是一名高中物理老师，需要为高三学生设计一道练习用的计算题。请以“一个小球被以一定速度向上踢起并落入一个低洼地带”为情境，设计一道运动学计算题，并给出该题的详细答案步骤。请直接生成题目和答案方案，输出内容便于复制。

非常基础和通用，操作最简单。

2. 链式思考提示（CoT, Chain-of-Thought Prompt）

在标准提示基础上，给AI一个示范性样题和详细答案，并明确要求AI“按步骤”生成新题与答案；强化AI的分步推理和模拟人类专家的作答思路。

示例提示词：

你是一名高中物理老师，需要为高三学生设计一道练习用的计算题。

以下是一道样例题和对应的详细答案，请参考这种结构和解题步骤来创作新的题目和答案。

——

样例题：

一个小球以25 m/s的速度、与水平方向50°的夹角被踢出，落入一个2.0米深的凹地。请计算小球落地前的速度。

——

样例答案：

vy² = uy² + 2aysy

vy² = ((25sin(50))²) + 2×(−9.81)×(−2.0)

vy = 20.15 m/s

vx = 25cos(50) = 16.07 m/s

v² = vx² + vy²

v = sqrt((16.07)² + (20.15)²) = 25.8 m/s

tan(θ) = vy/vx = 20.15/16.07，θ = 51.4°低于水平线

——

请不要生成或运行代码。请生成便于复制的纯文本内容。

明确给“样例”，引导AI按照类似结构和推理方式出题和答题；这种很适合要求步骤详细、推理规范的题型，能显著提升生成内容的情境合理性和步骤清晰度；可是仍然不能避免AI解题步骤中算错的问题。

3. 链式思考+代码提示（CoT-CL, Chain-of-Thought with Coding Language）

在CoT基础上，要求AI写出用于验证答案的Python代码，并运行以确保答案正确。增加一个“自动化检测和验证”环节，最大限度减少计算和推理错误。

示例中文提示词：

你是一名高中物理老师，需要为高三学生设计一道练习用的计算题。

以下是一道样例题和详细解答，请按照类似结构和步骤生成新的题目与答案，并附上用于检验答案正确性的Python代码。

——

样例题：

[插入样例题目]

——

样例答案：

[插入详细解答步骤]

——

请编写Python代码，模拟评分标准，并运行代码以确保最终答案一致。如果发现不一致，请修改并重新运行代码直到答案正确。

请生成便于复制的纯文本内容。

通过代码“检验”，进一步提升答案的正确性和逻辑性，尤其适合多步复杂计算题；只适用于支持代码解释和执行的LLM，普通教师无需编程基础即可操作。

如图，控制台部分就是运行Python代码后的结果，可以用于验算AI给出的答案。

论文的实验数据（以GPT-4为例）发现：

SP：问题清晰度不错，但情境合理性和答案准确性有限，容易出错，尤其是多步复杂问题。

CoT：问题的情境合理性显著提升，多步推理步骤规范，但在答案的计算准确性上仍有缺陷（如有效数字、四舍五入、复杂公式处理）。

CoT-CL：几乎在所有方面都表现最好，尤其是在最终答案准确性（Final answer accuracy）和步骤合理性（Quality of working）方面优势明显。代码环节起到二次验证作用，极大减少了常见错误。

复杂计算题（尤其是多步推理题）建议优先用CoT-CL策略，用代码校验以保证答案的正确性；普通情境题或结构化题可用CoT或SP生成，再由专家快速筛查补充；领域专家审阅依然是保障高质量题库的必要环节，但CoT和CoT-CL能极大减少专家工作量。

参考文献：

Chan, K. W., Ali, F., Park, J., Sham, K. S. B., Tan, E. Y. T., Chong, F. W. C., Qian, K., & Sze, G. K. (2025). Automatic item generation in various STEM subjects using large language model prompting. Computers and Education: Artificial Intelligence, 8, Article 100344. https://doi.org/10.1016/j.caeai.2024.100344
我在「教育学人 AIED 知识社区」已经更新了 300 多篇内容，包括近百篇前沿论文解读和《AI 时代的教育》、《学记》、《布卢姆教育目标分类学》等书的专栏解读文章。我也在分享文中提到的微调大模型learnMath训练的经验。在快速迭代的AI时代，我们需要一个兼具前沿性与可靠性、能够定期更新教学技能与理念的专业发展平台。「教育学人AIED」要做一个云端“实验场”：围绕教师专业发展（TPD）核心目标，帮助教育者们在社区中跨学科对话、实践研讨与经验共创，实现线上“深度共学”。
https://mmbiz.qpic.cn/sz_mmbiz_jpg/Cfhib5CicBJfaFLDt1wUMxSnKCg9GpwPDzg4iaPAQr2SIibuOsxOrXSNM1icREfwGIevVIHDH2zNNZfEHp0cRGc4K1Q/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&tp=webp

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI自动生成STEM题目的方法:三种提示词策略研究