您当前的位置: 首页 >> 标签:7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型 浏览全文>>