9.4 图像质量评价指标¶

图像质量评价（Image Quality Assessment, IQA）是客观衡量系统输出好坏的量化手段。根据是否有参考图像，分为全参考（FR）、无参考（NR）和减参考（RR）三类；根据评价对象，又分为通用质量指标和特定任务指标。

一、全参考指标（Full-Reference IQA）¶

有标准参考图像，直接与之比较。

1.1 峰值信噪比（PSNR）¶

$$PSNR = 10 \log_{10} \frac{MAX^2}{MSE}, \quad MSE = \frac{1}{MN} \sum_{i,j} (I(i,j) - \hat{I}(i,j))^2$$

$MAX$：最大像素值（uint8 时为 255，float 时为 1.0）
单位：dB，越高越好
优点：计算简单；缺点：与人眼感知相关性有限，30 dB 图像可能看起来差异明显

1.2 结构相似性（SSIM）¶

$$SSIM(x, y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)}$$

同时考虑亮度（$\mu$）、对比度（$\sigma$）、结构（$\sigma_{xy}$）三个维度
取值 $[-1, 1]$，越接近 1 越好；实用中 $>0.9$ 通常可接受
MS-SSIM（多尺度版本）与人眼相关性更高

1.3 LPIPS（感知相似度）¶

$$LPIPS = \sum_l \frac{1}{H_l W_l} \sum_{h,w} | w_l \odot (\hat{y}{hw}^l - y^l) |_2^2$$

使用 VGG/AlexNet 等预训练网络提取特征，在特征空间计算距离。相比 PSNR/SSIM，与人眼主观评价相关性更高（r > 0.9），是超分辨率、生成模型的标准评价指标。

1.4 各指标对比¶

指标	优势	局限	典型场景
PSNR	快速，无歧义	与感知相关性弱	去噪、压缩基准
SSIM	感知接近	局部敏感，对对比度饱和	图像恢复评估
LPIPS	感知最强	需预训练模型、较慢	生成模型、超分辨率

二、无参考指标（No-Reference IQA）¶

无干净参考图，直接从图像本身估计质量，适合在线检测和工程验收。

2.1 清晰度指标¶

指标	原理	公式/说明
拉普拉斯方差（Laplacian Variance）	清晰图像梯度大	$\text{Var}(\nabla^2 I)$，值越大越清晰
Tenengrad	Sobel 算子响应总能量	$\sum (G_x^2 + G_y^2)$
BRISQUE	统计自然场景特征偏离	用 SVR 回归映射感知分数

拉普拉斯方差是工程中最常用的快速焦点清晰度判断方式。

2.2 自然图像统计（NSS）¶

自然图像满足特定的统计分布（如归一化亮度系数的广义高斯分布）。质量下降时分布偏离，NIQE / BRISQUE 等指标正是利用这一规律建立无参考评价。

2.3 AI 质量评分¶

NIMA（Neural Image Assessment）用 CNN 直接预测 MOS（主观平均分）分布，比传统无参考方法更接近人眼感知，适合面向用户的质量评分场景。

三、任务相关评价指标¶

不同任务有专用指标，IQA 结果应与任务指标联合使用。

3.1 目标检测¶

指标	公式	说明
IoU	$\frac{	A \cap B
AP（平均精度）	PR 曲线下面积	指定类别性能
mAP	各类 AP 均值	多类别综合指标
AR	平均召回率	衡量漏检

3.2 分类¶

Top-1 / Top-5 Accuracy：预测最高/前五概率是否包含真实类别
混淆矩阵：展示各类别的混淆情况，便于分析错误模式
F1 Score：$F1 = \frac{2PR}{P+R}$，适合类别不均衡场景

3.3 超分辨率 / 图像复原¶

PSNR + SSIM + LPIPS 联合报告，三者之间存在权衡（感知好的模型 PSNR 不一定最高）。

四、主观评价（MOS）¶

客观指标无法完全替代人眼评价时，组织主观评测：

评测流程：
选取代表性测试图像集（含多类失真类型和程度）
    ↓
招募评测者（≥15 人，需排除色觉异常）
    ↓
ACR（绝对类别分级，1-5分）或 DSCQS（双激励连续质量评分）
    ↓
计算 MOS（均值）和 SOS（标准差）
    ↓
与对比方案做统计显著性检验（t-test / ANOVA）

五、工程选型建议¶

场景	推荐指标
相机/系统调试	拉普拉斯方差（实时清晰度）
去噪 / 压缩算法对比	PSNR + SSIM
生成模型 / 超分辨率	LPIPS + FID（生成质量）
目标检测系统验收	mAP@0.5:0.95
用户体验评价	MOS 或 NIMA

参考资料¶

Wang et al., \"Image Quality Assessment: From Error Visibility to Structural Similarity\", IEEE TIP, 2004
Mittal et al., \"No-Reference Image Quality Assessment in the Spatial Domain\", IEEE TIP, 2012
Zhang et al., \"The Unreasonable Effectiveness of Deep Features as a Perceptual Metric\", CVPR, 2018

更新时间¶

2026-03-03