新闻 发表于 2025-5-29 23:08

AI自动生成STEM题目的方法:三种提示词策略研究

作者:微信文章
生成式AI(如ChatGPT)在教育领域尤其是STEM(科学、技术、工程、数学)中的应用越来越广泛,教师和学生在教学和评估中都已开始使用AI。自动生成高质量评测题目,可以降低教师工作量、提高评测效率、实现个性化等,是当前教育评测技术的发展方向。AI(主要是大语言模型,LLM)虽能高效生成内容,但也存在“幻觉”风险,容易产生错误信息或误导学生。

尤其是在出题的时候。比如,出一个数学题其实不是那么随便的事情,有很多题目是无解的,有很多题目是无意义的。就拿最简单的7.11和7.9比大小的问题都经常有AI搞错,更麻烦的是,它不仅搞错,还会信誓旦旦地讲解。



如图,左侧是教育学人AIED做的微调大模型learnMath(研究用暂不公开),基于Qwen3和数学教育数据集微调,遇到这种题目没什么问题。右边这个Llama3不仅算错了还在瞎扯

LLM(如GPT-4)的加入,使题目生成更自然、个性化,也提高了效率和可访问性。现有研究表明,AI生成的题目在质量上已接近人类教师,但对于高难度、需要多步骤推理的问题,AI仍有局限。南洋理工大学国立教育学院的研究团队发表了一篇论文《Automatic item generation in various STEM subjects using large language model prompting》,讲了三种提示词策略的比较,其中最后一种策略是我从没想到的——亲测非常有效。



该研究的核心问题是:(1)LLM(GPT-3.5与GPT-4)在自动生成STEM科目的问答对时,概念准确性与解题步骤质量如何?(2)不同的提示工程方式有何影响?

其中第一个问题现在已经没什么意义了,这两种模型都已经被OpenAI下架(太落伍)。第二个问题仍然有着长久的意义,只要LLMs式AI还是用现在的文字对话形式交互,这个问题就持续有意义。这也告诉我们一个AI教育研究的趋势:探讨某一模型性能的研究很快会过时(像GPT-3.5,现在你想去验证都很难找了),而探讨AI模型交互/优化策略的研究将可以在较长的时期内保持生机。

感慨一句。谁会想做一个还没有发表就过时的研究呢?AI模型的更新速度比大多数核心期刊的审稿流程要快多了。

研究探讨了三种提示词方法:
标准提示(SP):仅给出学科、题目背景等基本信息。 链式思考提示(CoT):在SP基础上,增加样例问答和分步推理。 链式思考+代码(CoT-CL):要求AI写Python代码验证答案正确性。

总共生成600组问答对,由学科专家按“题目清晰度、情境准确性、最终答案正确性、解题步骤质量”四维度评分。

接下来我们不再分析这篇论文,而是看看这篇论文里提到的三种提示词,以及为什么最后一种更适合计算类题目。

1. 标准提示(SP, Standard Prompt)

只告诉AI,你是某学科教师、学生年级、题目类型和具体题目情境,让AI直接生成一套题目和答案。

示例提示词:

你是一名高中物理老师,需要为高三学生设计一道练习用的计算题。请以“一个小球被以一定速度向上踢起并落入一个低洼地带”为情境,设计一道运动学计算题,并给出该题的详细答案步骤。请直接生成题目和答案方案,输出内容便于复制。

非常基础和通用,操作最简单。

2. 链式思考提示(CoT, Chain-of-Thought Prompt)

在标准提示基础上,给AI一个示范性样题和详细答案,并明确要求AI“按步骤”生成新题与答案;强化AI的分步推理和模拟人类专家的作答思路。

示例提示词:

你是一名高中物理老师,需要为高三学生设计一道练习用的计算题。

以下是一道样例题和对应的详细答案,请参考这种结构和解题步骤来创作新的题目和答案。

——

样例题:

一个小球以25 m/s的速度、与水平方向50°的夹角被踢出,落入一个2.0米深的凹地。请计算小球落地前的速度。

——

样例答案:

vy² = uy² + 2aysy

vy² = ((25sin(50))²) + 2×(−9.81)×(−2.0)

vy = 20.15 m/s

vx = 25cos(50) = 16.07 m/s

v² = vx² + vy²

v = sqrt((16.07)² + (20.15)²) = 25.8 m/s

tan(θ) = vy/vx = 20.15/16.07,θ = 51.4°低于水平线

——

请不要生成或运行代码。请生成便于复制的纯文本内容。

明确给“样例”,引导AI按照类似结构和推理方式出题和答题;这种很适合要求步骤详细、推理规范的题型,能显著提升生成内容的情境合理性和步骤清晰度;可是仍然不能避免AI解题步骤中算错的问题。

3. 链式思考+代码提示(CoT-CL, Chain-of-Thought with Coding Language)

在CoT基础上,要求AI写出用于验证答案的Python代码,并运行以确保答案正确。 增加一个“自动化检测和验证”环节,最大限度减少计算和推理错误。

示例中文提示词:

你是一名高中物理老师,需要为高三学生设计一道练习用的计算题。

以下是一道样例题和详细解答,请按照类似结构和步骤生成新的题目与答案,并附上用于检验答案正确性的Python代码。

——

样例题:

[插入样例题目]

——

样例答案:

[插入详细解答步骤]

——

请编写Python代码,模拟评分标准,并运行代码以确保最终答案一致。如果发现不一致,请修改并重新运行代码直到答案正确。

请生成便于复制的纯文本内容。

通过代码“检验”,进一步提升答案的正确性和逻辑性,尤其适合多步复杂计算题;只适用于支持代码解释和执行的LLM,普通教师无需编程基础即可操作。



如图,控制台部分就是运行Python代码后的结果,可以用于验算AI给出的答案。

论文的实验数据(以GPT-4为例)发现:

SP: 问题清晰度不错,但情境合理性和答案准确性有限,容易出错,尤其是多步复杂问题。

CoT: 问题的情境合理性显著提升,多步推理步骤规范,但在答案的计算准确性上仍有缺陷(如有效数字、四舍五入、复杂公式处理)。

CoT-CL: 几乎在所有方面都表现最好,尤其是在最终答案准确性(Final answer accuracy)和步骤合理性(Quality of working)方面优势明显。代码环节起到二次验证作用,极大减少了常见错误。


复杂计算题(尤其是多步推理题)建议优先用CoT-CL策略,用代码校验以保证答案的正确性;普通情境题或结构化题可用CoT或SP生成,再由专家快速筛查补充;领域专家审阅依然是保障高质量题库的必要环节,但CoT和CoT-CL能极大减少专家工作量。

参考文献:

Chan, K. W., Ali, F., Park, J., Sham, K. S. B., Tan, E. Y. T., Chong, F. W. C., Qian, K., & Sze, G. K. (2025). Automatic item generation in various STEM subjects using large language model prompting. Computers and Education: Artificial Intelligence, 8, Article 100344. https://doi.org/10.1016/j.caeai.2024.100344
我在「教育学人 AIED 知识社区」已经更新了 300 多篇内容,包括近百篇前沿论文解读和《AI 时代的教育》、《学记》、《布卢姆教育目标分类学》等书的专栏解读文章。我也在分享文中提到的微调大模型learnMath训练的经验。在快速迭代的AI时代,我们需要一个兼具前沿性与可靠性、能够定期更新教学技能与理念的专业发展平台。「教育学人AIED」要做一个云端“实验场”:围绕教师专业发展(TPD)核心目标,帮助教育者们在社区中跨学科对话、实践研讨与经验共创,实现线上“深度共学”。
https://mmbiz.qpic.cn/sz_mmbiz_jpg/Cfhib5CicBJfaFLDt1wUMxSnKCg9GpwPDzg4iaPAQr2SIibuOsxOrXSNM1icREfwGIevVIHDH2zNNZfEHp0cRGc4K1Q/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&tp=webp
页: [1]
查看完整版本: AI自动生成STEM题目的方法:三种提示词策略研究