Chapter8

输入“/”快速插入内容

Chapter8

用户5190

2024年7月30日修改

1.DPO 之后的生活

建议阅读：

1.

RewardBench：评估语言建模的奖励模型

2.

D2PO：具有响应评估模型的判别器引导 DPO

3.

人工智能协同的社会选择：处理不同的人类反馈

2.ConvNets、树递归神经网络和成分分析

https://web.stanford.edu/class/cs224n/slides/cs224n-spr2024-lecture16-CNN-TreeRNN.pdf

建议阅读（暂定）：

1.

用于句子分类的卷积神经网络

2.

通过防止特征检测器的共同适应来改进神经网络

3.

用于句子建模的卷积神经网络

4.

使用组合向量文法进行解析。

5.

使用自注意力编码器进行成分解析

最终项目报告