FMViT:一种多频混合视觉转换器

- FMViT是一种高效的混合ViT架构,通过混合高频特征和低频特征,有效地捕捉局部和全局信息。 - FMViT在TensorRT平台上的ImageNet数据集上,比Resnet101在top-1准确率上提高了2.5%(83.3% vs. 80.8%),同时维持了类似的推理延迟。 - FMViT在CoreML上的ImageNet数据集上,比MobileOne在top-1准确率上提高了2.6%(78.5% vs. 75.9%),推理延迟与MobileOne相当。 - FMViT的推理速度比EfficientNet-B5提高了43%。 - FMViT的代码可以在https://github.com/tany0699/FMViT找到。

评论