提示词工程课程

用户1672

用户5190

用户1005

2024年7月19日修改

引入

1.
总体结构介绍​

2.
模块构成​

3.
内部元素设计​

4.
编写实战​

5.
通关要求​

近期研究发现，LLM在对比数字时表现不佳，例如认为13.8<13.11：​

要求：利用LangGPT优化提示词，使LLM输出正确结果。

5.1 能力提高

参考huggingface Open LLM Leaderboard (V1) 的任务设置进行任务划分，共6个任务：ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k。​

•

AI2 Reasoning Challenge (25-shot) - 一套小学级别的科学问题；

•

HellaSwag (10-shot) - 常识推理测试，这对人类来说很容易，但对 SOTA 模型来说却具有挑战性。

•

MMLU (5-shot) - 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务，包括初等数学、美国历史、计算机科学、法律等。

•

TruthfulQA (0-shot) - 是一项用于衡量模型复制网上常见虚假信息倾向的测试。

•

Winogrande (5-shot) - 一个更具有对抗性，难度更高的常识推理测试。

•

GSM8k (5-shot) - 多样化的小学数学单词问题，以衡量模型解决多步骤数学推理问题的能力。

通过抽签的方式分配任务，每人为其中1个任务编写提示词，基于LangGPT格式。使用OpenCompass进行评测，LLM为internlm2.5-chat-7b，编写的提示词作为系统提示。​

达标要求：不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline，提交的系统提示词要指导LLM表现出比baseline更高的性能。​

提交文件：编写的6个任务的提示词；评测的结果文件（会根据提交的提示词进行复核，复核失败的组认定不通过）​

提示词工程课程​