分享
Chapter8
输入“/”快速插入内容
Chapter8
用户5190
2024年7月30日修改
1.DPO 之后的生活
[
幻灯片
]
建议阅读:
1.
RewardBench:评估语言建模的奖励模型
2.
D2PO:具有响应评估模型的判别器引导 DPO
3.
人工智能协同的社会选择:处理不同的人类反馈
2.ConvNets、树递归神经网络和成分分析
https://web.stanford.edu/class/cs224n/slides/cs224n-spr2024-lecture16-CNN-TreeRNN.pdf
建议阅读(暂定):
1.
用于句子分类的卷积神经网络
2.
通过防止特征检测器的共同适应来改进神经网络
3.
用于句子建模的卷积神经网络
4.
使用组合向量文法进行解析。
5.
使用自注意力编码器进行成分解析
最终项目报告
[
说明
]