跳转至

9.4 图像质量评价指标

图像质量评价(Image Quality Assessment, IQA)是客观衡量系统输出好坏的量化手段。根据是否有参考图像,分为全参考(FR)、无参考(NR)和减参考(RR)三类;根据评价对象,又分为通用质量指标和特定任务指标。


一、全参考指标(Full-Reference IQA)

有标准参考图像,直接与之比较。

1.1 峰值信噪比(PSNR)

$$PSNR = 10 \log_{10} \frac{MAX^2}{MSE}, \quad MSE = \frac{1}{MN} \sum_{i,j} (I(i,j) - \hat{I}(i,j))^2$$

  • $MAX$:最大像素值(uint8 时为 255,float 时为 1.0)
  • 单位:dB,越高越好
  • 优点:计算简单;缺点:与人眼感知相关性有限,30 dB 图像可能看起来差异明显

1.2 结构相似性(SSIM)

$$SSIM(x, y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$$

  • 同时考虑亮度($\mu$)、对比度($\sigma$)、结构($\sigma_{xy}$)三个维度
  • 取值 $[-1, 1]$,越接近 1 越好;实用中 $>0.9$ 通常可接受
  • MS-SSIM(多尺度版本)与人眼相关性更高

1.3 LPIPS(感知相似度)

$$LPIPS = \sum_l \frac{1}{H_l W_l} \sum_{h,w} | w_l \odot (\hat{y}{hw}^l - y^l) |_2^2$$

使用 VGG/AlexNet 等预训练网络提取特征,在特征空间计算距离。相比 PSNR/SSIM,与人眼主观评价相关性更高(r > 0.9),是超分辨率、生成模型的标准评价指标。

1.4 各指标对比

指标 优势 局限 典型场景
PSNR 快速,无歧义 与感知相关性弱 去噪、压缩基准
SSIM 感知接近 局部敏感,对对比度饱和 图像恢复评估
LPIPS 感知最强 需预训练模型、较慢 生成模型、超分辨率

二、无参考指标(No-Reference IQA)

无干净参考图,直接从图像本身估计质量,适合在线检测和工程验收。

2.1 清晰度指标

指标 原理 公式/说明
拉普拉斯方差(Laplacian Variance) 清晰图像梯度大 $\text{Var}(\nabla^2 I)$,值越大越清晰
Tenengrad Sobel 算子响应总能量 $\sum (G_x^2 + G_y^2)$
BRISQUE 统计自然场景特征偏离 用 SVR 回归映射感知分数

拉普拉斯方差是工程中最常用的快速焦点清晰度判断方式。

2.2 自然图像统计(NSS)

自然图像满足特定的统计分布(如归一化亮度系数的广义高斯分布)。质量下降时分布偏离,NIQE / BRISQUE 等指标正是利用这一规律建立无参考评价。

2.3 AI 质量评分

NIMA(Neural Image Assessment)用 CNN 直接预测 MOS(主观平均分)分布,比传统无参考方法更接近人眼感知,适合面向用户的质量评分场景。


三、任务相关评价指标

不同任务有专用指标,IQA 结果应与任务指标联合使用。

3.1 目标检测

指标 公式 说明
IoU $\frac{ A \cap B
AP(平均精度) PR 曲线下面积 指定类别性能
mAP 各类 AP 均值 多类别综合指标
AR 平均召回率 衡量漏检

3.2 分类

  • Top-1 / Top-5 Accuracy:预测最高/前五概率是否包含真实类别
  • 混淆矩阵:展示各类别的混淆情况,便于分析错误模式
  • F1 Score:$F1 = \frac{2PR}{P+R}$,适合类别不均衡场景

3.3 超分辨率 / 图像复原

PSNR + SSIM + LPIPS 联合报告,三者之间存在权衡(感知好的模型 PSNR 不一定最高)。


四、主观评价(MOS)

客观指标无法完全替代人眼评价时,组织主观评测:

评测流程:
选取代表性测试图像集(含多类失真类型和程度)
招募评测者(≥15 人,需排除色觉异常)
ACR(绝对类别分级,1-5分)或 DSCQS(双激励连续质量评分)
计算 MOS(均值)和 SOS(标准差)
与对比方案做统计显著性检验(t-test / ANOVA)

五、工程选型建议

场景 推荐指标
相机/系统调试 拉普拉斯方差(实时清晰度)
去噪 / 压缩算法对比 PSNR + SSIM
生成模型 / 超分辨率 LPIPS + FID(生成质量)
目标检测系统验收 mAP@0.5:0.95
用户体验评价 MOS 或 NIMA

参考资料

  • Wang et al., \"Image Quality Assessment: From Error Visibility to Structural Similarity\", IEEE TIP, 2004
  • Mittal et al., \"No-Reference Image Quality Assessment in the Spatial Domain\", IEEE TIP, 2012
  • Zhang et al., \"The Unreasonable Effectiveness of Deep Features as a Perceptual Metric\", CVPR, 2018

更新时间

2026-03-03