谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

日期：2021-05-08 来源：量子位作者：itcg 浏览：560 我要评论

导读：本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。谷歌大脑的视觉Transformer团队（ViT），搞了�

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

谷歌大脑的视觉Transformer团队（ViT），搞了个复古操作。

他们不用卷积神经网络（CNN）、也不用Transformer，仅凭最早的AI视觉任务采用的多层感知机（MLP）结构，就实现了接近SOTA的性能，更是在ImageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

这个架构名为MLP-Mixer，采用两种不同类型的MLP层，可以看做是一个特殊的CNN，使用 1×1卷积进行通道混合（按位操作），同时全感受野和参数共享的的单通道深度卷积进行字符混合（跨位操作）。

在JFT-300M数据集上预训练、微调到224分辨率的Mixer-H/14版本取得了86.32%的准确率，比SOTA模型ViT-H/14仅低0.3%，但运行速度是其2.2倍。

论文地址：
https://arxiv.org/abs/2105.01601

项目地址：
https://github.com/google-research/vision_transformer/tree/linen

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

西部数据推出 26TB 3.5 英寸硬盘，为创意专业人士和内容创作者增加容量	麒麟9006C：华为5纳米家族的新成员
中国大陆显示器线上市场：2023年11月销售火爆，创下新高	高通骁龙X Elite芯片挑战苹果M系列：硬件性能对决

相关资讯

• 安卓16 Beta 4新功能：谷歌如何精准识别折叠屏	• 涉嫌利用个人数据建模，爱尔兰数据保护监管机构
• Pixel 9 Pro Fold手机壳渲染图曝光	• 谷歌大动作：硬件与Android团队合并，将创造怎
• 谷歌Nest Secure安防系统今日起正式停用	• 引入谷歌Gemini模型，一加、OPPO手机新增智能功
• 谷歌Pixel 9系列将支持紧急卫星通信，引领手机	• 谷歌10月新品发布会预热，Pixel 9 Pro Fold或将
• 蚂蚁、谷歌等联手出击，AI安全有了新保障？！	• 谷歌豪掷千亿美元加速AI研发，DeepMind领航未来