跳转至

9.6 常见视觉模型

视觉领域的骨干网络(Backbone)和任务模型经过多年迭代,形成了相对稳定的主流体系。理解各类模型的结构特点和适用边界,是选型和落地的前提。


一、图像分类模型

1.1 演进脉络

AlexNet(2012)→ VGG(2014)→ GoogLeNet/Inception(2014)→ ResNet(2015)
    → DenseNet(2016)→ SENet(2017)→ EfficientNet(2019)→ ViT(2020)
    → ConvNeXt(2022)→ DeiT3 / EVA 等

1.2 典型模型对比

模型 Top-1(ImageNet) 参数量 特点
ResNet-50 ~76% 25 M 残差连接,经典基线
EfficientNet-B4 ~83% 19 M 复合缩放,精度/效率均衡
ViT-B/16 ~81%(无预训练) 86 M 全注意力,大数据优势明显
ConvNeXt-T ~82% 28 M 现代化 CNN,与 ViT 对标
DeiT-III-B ~85% 86 M 数据增广弥补 ViT 数据需求

二、目标检测模型

2.1 两阶段检测

输入图 → 骨干网络 → RPN(候选框生成)→ ROI Pooling → 分类 + 回归头
  • Faster R-CNN:RPN 共享特征图,精度高,适合离线检测
  • Mask R-CNN:在 Faster R-CNN 基础上加掩模分支,同时输出实例分割

2.2 单阶段检测

输入图 → 骨干网络 → FPN → 每格预测框 + 置信度 + 类别(无候选区步骤)
模型系列 特点 适用场景
YOLO(v5/v8/v9) 极快,工程友好 实时视频检测,嵌入式
SSD 多尺度锚框,早期单阶段代表 轻量化场景
RetinaNet Focal Loss 解决类别不均衡 小目标密集场景
DETR / RT-DETR 无锚框,Transformer 解码器 通用检测,端到端

2.3 后处理:非极大值抑制(NMS)

检测头输出大量重叠框,NMS 保留置信度最高框,抑制 IoU 超阈值的冗余框:

按置信度降序排列 → 取最高分框加入结果集
    → 计算其与剩余框的 IoU → 删除 IoU > 阈值的框
    → 重复直到框集为空

Soft-NMS 将抑制改为分数衰减,减少漏检。


三、目标跟踪模型

类别 代表算法 原理 特点
相关滤波 KCF、MOSSE 频域相关响应 快速,单目标
Siamese 网络 SiamFC、SiamRPN 模板匹配 精度高,适应外观变化
Transformer 跟踪 TransT、OSTrack 注意力融合 SOTA,多目标泛化强
多目标跟踪(MOT) ByteTrack、OC-SORT 检测 + 卡尔曼 + 匹配 工业落地主流

四、生成模型

4.1 生成对抗网络(GAN)

生成器 G:噪声 z → 生成图像
判别器 D:图像 → 真/假概率
训练目标:min_G max_D  E[log D(x)] + E[log(1-D(G(z)))]

代表应用:图像超分辨率(ESRGAN)、风格迁移(CycleGAN)、人脸生成(StyleGAN3)

4.2 扩散模型(Diffusion Model)

在前向过程逐步加高斯噪声,训练网络学习逆过程(去噪):

  • 代表:DDPM、Stable Diffusion(LDM)
  • 在生成质量上超越 GAN,且训练更稳定;缺点是采样步数多、速度慢(DDIM 等加速采样解决)

五、轻量化与边缘部署模型

模型 策略 目标硬件
MobileNetV3 深度可分离卷积 + NAS ARM 移动端
ShuffleNetV2 通道shuffle + 分组卷积 ARM / NPU
RepVGG 训练多分支,推理重参数化为单卷积 通用工业相机
YOLO-NAS NAS 搜索块结构 嵌入式实时检测

六、模型选型建议

首先确认任务类型(分类/检测/分割/生成)
评估推理硬件(GPU服务器 / NPU / ARM CPU)
确认数据量和标注成本(小数据→迁移学习,大数据→从头训练)
先选精度高的基线(如 ResNet50、YOLOv8m)测量瓶颈
再按延迟/显存要求向轻量化方向替换

参考资料

  • YOLO 官方仓库:https://github.com/ultralytics/ultralytics
  • Carion et al., \"End-to-End Object Detection with Transformers (DETR)\", ECCV, 2020
  • Ho et al., \"Denoising Diffusion Probabilistic Models\", NeurIPS, 2020

更新时间

2026-03-03