SAS

Abstract

稠密activation映射为稀疏activation,从而提高表达能力,不同的activation选择不同的weight,所以思想也类似于MOE