您当前的位置: 首页 >> 标签:只激活3
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

只需激活60%的参数,就能实现与全激活稠密模型相当的性能。微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。 浏览全文>>