2025-05-23
只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
新智元报道 编辑:KingHZ 【新智元导读】南加州大学团队只用9美元,就能在数学基准测试AIME 24上实现超过20%的推理性能提升,效果好得离谱!而其核心技术只需LoRA+强化学习,用极简路径实现超高性价比后训练。 只用9美元,在数学基准测试AIME 24上,实现了超过20%的推理性能提升! 来自南加州大学(University of Southern California,USC)的研究团队,基于LoRA的强化学习(RL)训练了1.5B推理模型—— 这种极简的方法训练出的模型不仅能与当前...
查看更多