分享
提示词工程课程
输入“/”快速插入内容
提示词工程课程
用户1672
用户1672
用户5190
用户5190
用户1005
用户1005
2024年7月19日修改
引入
1.
总体结构介绍
2.
模块构成
3.
内部元素设计
4.
编写实战
5.
通关要求
近期研究发现,LLM在对比数字时表现不佳,例如认为
13.8<13.11
:
要求:利用LangGPT优化提示词,使LLM输出正确结果。
5.1 能力提高
参考huggingface Open LLM Leaderboard (V1) 的任务设置进行任务划分,共6个任务:ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k。
•
AI2 Reasoning Challenge
(25-shot) - 一套小学级别的科学问题;
•
HellaSwag
(10-shot) - 常识推理测试,这对人类来说很容易,但对 SOTA 模型来说却具有挑战性。
•
MMLU
(5-shot) - 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等。
•
TruthfulQA
(0-shot) - 是一项用于衡量模型复制网上常见虚假信息倾向的测试。
•
Winogrande
(5-shot) - 一个更具有对抗性,难度更高的常识推理测试。
•
GSM8k
(5-shot) - 多样化的小学数学单词问题,以衡量模型解决多步骤数学推理问题的能力。
通过抽签的方式分配任务,每人为其中1个任务编写提示词,基于LangGPT格式。使用OpenCompass进行评测,
LLM为internlm2.5-chat-7b
,编写的提示词
作为系统提示
。
达标要求:不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline,提交的系统提示词要指导LLM表现出比baseline更高的性能。
提交文件:编写的6个任务的提示词;评测的结果文件(会根据提交的提示词进行复核,复核失败的组认定不通过)