文献阅读-DETRs Beat YOLOs on Real-time Object Detection

Scroll Down

Abstract

近年来,基于transformer的端到端检测器(DETRs)取得了令人瞩目的进展。然而,高计算成本限制了der的实际应用,使其无法充分发挥无后处理(non-maximum suppression, NMS)等优点。本文首先分析了NMS对现有实时目标检测器的精度和速度的负面影响,并建立了端到端的速度基准。为了解决上述问题,我们提出了实时检测变压器(RT-DETR),这是我们所知的第一个实时端到端对象检测器。具体来说,我们设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效地处理多尺度特征,并提出了iou感知查询选择,通过向解码器提供更高质量的初始对象查询来进一步提高性能。此外,我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,而无需再训练,这有利于在各种实时场景中的实际应用。我们的RT-DETR-L在COCO val2017上实现了53.0%的AP,在T4 GPU上实现了114 FPS,而RT-DETR-X实现了54.8%的AP和74 FPS,在速度和精度上都优于同等规模的最先进的YOLO检测器。此外,我们的RT-DETR-R50达到53.1%的AP和108 FPS,在精度上优于DINO-Deformable DETR-R50 2.2%的AP和大约21倍的FPS。源代码和预训练模型可在https://github.com/lyuwenyu/RT-DETR上获得。

Introduction

目标检测是一项基本的视觉任务,涉及识别和定位图像中的物体。现代目标检测器有两种典型的架构:基于cnn的和基于transformer的。在过去的几年里,人们对基于cnn的物体检测器进行了广泛的研究。这些检测器的框架涉及初始的两阶段和一阶段的,并且出现了两种检测范式,基于anchor[23,26,17,13,38]和anchor free[36,10,41,18,14]。这些研究在检测速度和准确性方面都取得了重大进展。基于transformer的目标检测器(DETRs)[5,34,39,49,27,40,24,20,46,6]自提出以来,由于其消除了各种手工制作的组件,例如非最大抑制(NMS),因此受到了学术界的广泛关注。该体系结构大大简化了目标检测的主线,实现了端到端的目标检测。

实时目标检测是一个重要的研究领域,具有广泛的应用,如目标跟踪[45,48]、视频监控[28]、自动驾驶[2,44]等。现有的实时探测器一般采用基于cnn的架构,在检测精度和速度上实现了较好的均衡。然而,这些实时检测器通常需要NMS进行后处理,这通常难以优化且不够鲁棒,导致检测器的推理速度延迟。近年来,由于研究人员在加速训练收敛和降低优化难度方面的努力,基于transformer的检测器取得了显著的性能。然而,DETRs计算成本高的问题尚未得到有效解决,这限制了DETRs的实际应用,导致无法充分发挥其优势。这意味着虽然简化了目标检测流水线,但由于模型本身的计算成本较高,很难实现实时目标检测。以上问题自然激发我们考虑是否可以将DETR扩展到实时场景,充分利用端到端检测器的优势,避免NMS对实时检测器造成的延迟。

为了实现上述目标,我们对DETR进行了重新思考,并对其关键组件进行了详细的分析和实验,以减少不必要的计算冗余。具体来说,我们发现虽然多尺度特征的引入有利于加速训练收敛和提高性能[49],但它也会导致输入编码器的序列长度显著增加。因此,transformer编码器由于计算成本高,成为模型的计算瓶颈。为了实现实时目标检测,我们设计了一种高效的混合编码器来取代原来的transformer编码器。通过解耦尺度内的相互作用和多尺度特征的跨尺度融合,编码器可以有效地处理不同尺度的特征。

此外,先前的研究[40,24]表明,解码器的对象查询初始化方案对检测性能至关重要。为了进一步提高性能,我们提出了IoU感知查询选择,通过在训练过程中提供IoU约束,为解码器提供更高质量的初始对象查询。此外,我们提出的检测器通过使用不同的解码器层来灵活调整推理速度,而不需要再训练,这得益于解码器在DETR架构中的设计,有利于实时检测器的实际应用。

在本文中,我们提出了一个实时检测变压器(RT-DETR),这是我们所知的第一个实时端到端对象检测器。RT-DETR不仅在精度和速度上优于当前最先进的实时检测器,而且不需要后处理,因此检测器的推理速度不会延迟且保持稳定,充分发挥了端到端检测流水线的优势。我们提出的RT-DETRL在COCO val2017上实现了53.0%的AP,在NVIDIA Tesla T4 GPU上实现了114 FPS,而RT-DETRL - x实现了54.8%的AP和74 FPS,在速度和精度上都优于当前同等规模的最先进的YOLO检测器。因此,我们的RT-DETR成为实时目标检测的新SOTA,如图1所示。此外,我们提出的RT-DETR-R50达到53.1%的AP和108 FPS,而RT-DETR-R101达到54.3%的AP和74 FPS。其中,RT-DETR-R50的准确率比dino deformable - detr - r50高2.2% (53.1% AP对50.9% AP), FPS比dino deformable - detr - r50高约21倍(108 FPS对5 FPS)。

本文的主要贡献如下:(i)提出了第一个实时端到端目标检测器,该检测器不仅在速度和精度上优于当前的实时检测器,而且不需要后处理,因此其推理速度不会延迟并且保持稳定;(ii)详细分析了NMS对实时检测器的影响,并从后处理的角度得出了当前实时检测器的结论;(iii)我们的工作为当前端到端检测器的实时实现提供了可行的解决方案,并且所提出的检测器可以通过使用不同的解码器层灵活调整推理速度,而无需再训练,这是现有实时检测器所难以做到的。

2. Related Work

2.1 实时目标检测器

经过多年的不断发展,YOLO系列[29、1、37、26、17、13、10、41、18、38、14]已成为实时目标探测器的代名词,大致可分为基于锚点的[29、1、37、13、38]和无锚点的[10、41、18、14]两类。从这些探测器的性能来看,锚不再是制约YOLO发展的主要因素。然而,上述检测器会产生许多冗余的边界框,需要在后处理阶段利用NMS将它们过滤掉。不幸的是,这会导致性能瓶颈,NMS的超参数对检测器的准确性和速度有重大影响。我们认为这与实时目标探测器的设计理念是不相容的。

2.2 端到端目标检测器

端到端目标检测器[5,34,39,49,27,40,24,20,46,6]以其流线型管道而闻名。
Carion等[5]首先提出了基于Transformer的端到端对象检测器,命名为DETR (DEtection Transformer)。它因其独特的特点而引起了极大的关注。特别是,DETR消除了传统检测管道中手工设计的锚和NMS组件。相反,它采用二部匹配,直接预测一对一的对象集。通过采用这种策略,DETR简化了检测管道,缓解了NMS带来的性能瓶颈。尽管有明显的优势,但DETR存在两个主要问题:训练收敛缓慢和查询难以优化。已经提出了许多DETR变体来解决这些问题。具体而言,Deformable - detr[49]通过提高注意机制的效率,加速了多尺度特征的训练收敛。Conditional DETR[27]和Anchor DETR[40]降低了查询的优化难度。DAB-DETR[24]引入4D参考点,逐层迭代优化预测框。DN-DETR[20]通过引入查询去噪来加速训练收敛。

Group-DETR[6]通过引入分组一对多分配来加速训练。DINO[46]建立在以前的工作基础上,并取得了最先进的结果。虽然我们正在不断改进DETR的组件,但我们的目标不仅是进一步提高性能,还要创建一个实时的端到端对象检测器。

2.3 用于目标检测的多尺度特征

现代目标探测器已经证明了利用多尺度特征来提高性能的重要性,特别是对于小目标。FPN[22]引入了一种融合相邻尺度特征的特征金字塔网络。随后的研究[25,11,35,13,18,38,14]对该结构进行了扩展和改进,并被广泛应用于实时目标探测器中。Zhu等[49]首先在DETR中引入了多尺度特征,提高了性能和收敛速度,但这也导致DETR的计算成本显著增加。虽然可变形注意机制在一定程度上减轻了计算成本,但多尺度特征的加入仍然导致了较高的计算负担。

为了解决这个问题,一些工作尝试设计计算效率高的DETR。高效的DETR[43]通过初始化具有密集先验的对象查询来减少编码器和解码器层的数量。稀疏DETR[32]选择性地更新编码器令牌,期望被解码器引用,从而减少计算开销。Lite DETR[19]通过交错的方式降低底层特征的更新频率来提高编码器的效率。虽然这些研究降低了DETR的计算成本,但这些工作的目的并不是为了促进DETR作为实时检测器。
image.png

3. 端到端检测器的速度

3.1 NMS的分析

NMS是一种广泛应用于目标检测的后处理算法,用于消除检测器输出的重叠预测框。网管需要设置两个超参数:分数阈值和IoU阈值。特别地,分数低于分数阈值的预测框直接被过滤掉,当两个预测框的IoU均超过IoU阈值时,分数较低的预测框将被丢弃。这个过程迭代地执行,直到每个类别的所有盒子都被处理完。因此,NMS的执行时间主要取决于输入预测框的数量和两个超参数。

为了验证这一观点,我们利用YOLOv5(基于锚点的)[13]和YOLOv8(无锚点的)[14]进行实验。我们首先计算用相同的输入图像对输出框进行不同的分数阈值过滤后剩余的预测框的数量。我们从0.001到0.25选取一些分数作为阈值,对两个检测器的剩余预测框进行计数,并将其绘制成直方图,直观地反映了NMS容易受到其超参数的影响,如图2所示。进一步,我们以YOLOv8为例,评估不同NMS超参数下COCO值2017上的模型精度和网管操作的执行时间。请注意,我们在实验中采用的NMS后处理操作是指TensorRT efficientNMSPlugin,它涉及多个CUDA内核,包括EfficientNMSFilter,RadixSort、effentnms等,我们只报告effentnms内核的执行时间。我们在T4 GPU上测试了速度,上述实验的输入图像和预处理是一致的。我们使用的超参数和相应的结果显示在Tab 1中.
image.png
image.png

3.2 端到端速度基准

为了能够公平地比较各种实时检测器的端到端推理速度,我们建立了端到端速度测试基准。考虑到NMS的执行时间会受到输入图像的影响,有必要选择一个基准数据集,计算多个图像之间的平均执行时间。基准测试采用COCO val2017作为默认数据集,对需要后处理的实时检测器附加TensorRT的NMS后处理插件。具体地说,我们测试了检测器的平均推理时间通过对应基准数据集上的精度,不包括IO和Memory-Copy操作。我们利用这个基准测试了基于锚点的探测器YOLOv5[13]和YOLOv7[38],以及无锚点的探测器PP-YOLOE[41]、YOLOv6[18]和YOLOv8[14]在T4 GPU上的端到端速度。试验结果见表2。根据结果,我们得出结论,对于需要NMS后处理的实时检测器,无锚点检测器在同等精度下优于基于锚点的检测器,因为前者的后处理时间明显少于后者,这在以前的工作中被忽略了。

造成这种现象的原因是,基于锚点的检测器比无锚点的检测器产生更多的预测框(在我们测试的检测器中是三倍多)。

4. 实时DETR

4.1 模型概览

提出的RT-DETR由主干网、混合编码器和带辅助预测头的transformer解码器组成。模型体系结构的概述如图3所示。具体来说,我们利用主干的最后三个阶段{S3, S4, S5}的输出特征作为编码器的输入。混合编码器通过尺度内交互和跨尺度融合将多尺度特征转换为一系列图像特征(见第4.2节)。

随后,使用iou感知查询选择从编码器输出序列中选择固定数量的图像特征作为解码器的初始对象查询(见第4.3节)。最后,带有辅助预测头的解码器迭代优化对象查询以生成方框和置信度分数。
image.png

4.2 高效混合编码器

计算瓶颈分析。为了加速训练收敛,提高性能,Zhu等[49]建议引入多尺度特征,并提出可变形注意力机制来减少计算量。然而,尽管注意机制的改进减少了计算开销,但输入序列长度的急剧增加仍然使编码器成为计算瓶颈,阻碍了DETR的实时实现。据文献[21]报道,编码器占GFLOPs的49%,但在deformable - detr中仅贡献11%的AP[49]。为了克服这一障碍,我们分析了多尺度变压器编码器中存在的计算冗余,并设计了一组变体来证明尺度内和跨尺度特征同时相互作用是计算效率低下的。

高级特征是从包含图像中对象的丰富语义信息的低级特征中提取出来的。直观地看,在串联的多尺度特征上进行特征交互是冗余的。为了验证这一观点,我们重新思考编码器结构,并设计了一系列不同编码器的变体,如图5所示。这组变量逐步提高模型精度并且显著降低了计算损失,通过将多尺度特征相互作用解耦为尺度内相互作用和跨尺度融合两步操作(详细指标见表3)。我们首先移除DINO-R50[46]中的多尺度变压器编码器作为基线A。接下来,在基线a的基础上,插入不同形式的编码器,产生一系列变体,具体如下:

  • A→B:变体B插入单尺度transformer编码器,使用一层transformer块。
    每个尺度的特征共享编码器进行尺度内特征交互,然后将输出的多尺度特征串联起来。
  • B→C:变体C在B的基础上引入跨尺度特征融合,将拼接的多尺度特征输入编码器进行特征交互.
  • C→D:变体D解耦了尺度内的相互作用和多尺度特征的跨尺度融合。首先,采用单尺度transformer编码器进行尺度内交互,然后采用类似panet[25]的结构进行跨尺度融合。
  • D→E:变体E在D的基础上进一步优化了尺度内的相互作用和多尺度特征的跨尺度融合,采用了我们设计的高效混合编码器(详见下文)
    image.png

混合设计。在此基础上,我们重新思考了编码器的结构,提出了一种新型的高效混合编码器。如图3所示,本文提出的编码器由两个模块组成,即基于注意力的尺度内特征交互(AIFI)模块和基于cnn的跨尺度特征融合(CCFM)模块。AIFI在变体D的基础上进一步减少了计算冗余,变体D只在S5上执行尺度内交互。我们认为,将自注意操作应用于语义概念更丰富的高级特征,可以捕获图像中概念实体之间的联系,从而便于后续模块对图像中物体的检测和识别。同时,由于缺乏语义概念,并且存在与高级特征交互重复和混淆的风险,低级特征的尺度内交互是不必要的。
为了验证这一观点,我们只对变量D中的S5进行尺度内相互作用,实验结果见表3,见DS5行。与普通版本D相比,DS5显著降低了延迟(快了35%),但提高了准确性(高出0.4%)。这一结论对实时探测器的设计至关重要。CCFM还基于变体D进行了优化,在融合路径中插入了多个由卷积层组成的融合块。融合模块的角色是来把相邻的特征融合成一个特征,其结构如图4所示。融合块包含N个repblock,两条路径的输出通过元素添加进行融合。我们可以将这个过程表述为:
image.png
式中,Attn表示多头自注意,Reshape表示将特征的形状恢复到与S5相同,这是Flatten的相反操作。

4.3 IoU-aware Query Selection

DETR中的对象查询是一组可学习的嵌入,由解码器进行优化,并通过预测头映射到分类分数和边界框。然而,这些对象查询很难解释和优化,因为它们没有明确的物理意义。后续工作[40,24,49,43,46]改进了对象查询的初始化,并将其扩展到内容查询和位置查询(锚点)。其中,[49,43,46]都提出了查询选择方案,它们的共同之处在于他们利用分类分数来从编码器中选择最重要的K个特征来初始化对象查询(或只初始化位置查询[46])。但由于分类分数和位置置信度分布不一致,部分predict box分类分数高,但与GT盒不接近,导致分类分数高、IoU分数低的盒子被选择,分类分数低、IoU分数高的盒子被丢弃。这会损害检测器的性能。为了解决这个问题,我们提出了IoU感知查询选择,通过约束模型在训练过程中对IoU分数高的特征产生高分类分数,对IoU分数低的特征产生低分类分数。因此,模型根据分类得分选择的前K个编码器特征所对应的预测框具有高分类得分和高IoU得分。我们将探测器的优化目标重新表述如下:
image.png
image.png

有效性分析为了分析所提出的IoU感知查询选择的有效性,我们在val2017上可视化查询选择所选择的编码器特征的分类分数和IoU分数,如图6所示。具体来说,我们首先根据分类分数选择前K个(实验中K = 300)编码器特征,然后可视化分类分数大于0.5的散点图。红点和蓝点分别从应用vanilla查询选择和iou感知查询选择训练的模型中计算出来。点越靠近图的右上方,对应特征的质量越高,即分类标签和边界框更有可能描述图像中的真实物体。根据可视化结果,我们发现最显著的特征是大量的蓝色点集中在图的右上方,而红色点则集中在右下方。这表明,使用iou感知查询选择训练的模型可以产生更多高质量的编码器特征,在此基础上,定量分析了两类点的分布特征。图中蓝色点比红色点多138%,即分类分数小于等于0.5的红色点较多,可以认为是低质量特征。然后,我们分析分类分数大于0.5的特征的IoU分数。我们发现IoU分数大于0.5蓝色点比红色点多120%,定量结果进一步表明,IoU感知查询选择可以为对象查询提供更多准确分类(高分类分数)和精确定位(高IoU分数)的编码器特征,从而提高检测器的准确性。详细的定量结果见第5.4节。
image.png

4.4 Scaled RE-DETR

为了提供一个可扩展的RT-DETR版本,我们用HGNetv2取代了ResNet[16]主干。我们使用深度乘法器和宽度乘法器一起缩放主干和混合编码器。因此,我们得到两个版本的RT-DETR具有不同的参数数量和FPS。对于混合编码器,我们分别通过调整CCFM中repblock的数量和编码器的嵌入维数来控制深度乘法器和宽度乘法器。值得注意的是,我们提出的不同尺度的RT-DETR保持了一个均匀的解码器,这有利于使用高精度大DETR模型对光探测器进行蒸馏,这将是未来一个可探索的方向。

5. Experiments

5.1 Set-up

数据集 我们在Microsoft COCO数据集上进行了实验。我们在COCO train2017上进行训练,在COCO val2017数据集上进行验证。我们使用带有单个尺度图像的标准COCO AP度量作为输入
实现细节 我们使用ResNet[15,16]和HGNetv2系列在ImageNet[33]上进行预训练,并以PaddleClas1的SSLD[8]为骨干。AIFI由1个变压器层组成,CCMF中的融合块默认由3个repblock组成。在iou感知查询选择中,我们选择前300个编码器特征初始化解码器的对象查询。

解码器的训练策略和超参数几乎遵循DINO[46]。我们使用AdamW优化器训练检测器,base_learning_rate = 0.0001,weight_decay = 0.0001,global_gradient_clip_norm = 0.1,linear_warmup_steps = 2000。主干设置的学习率如下[5]。我们也使用指数移动平均线(EMA), EMA衰减= 0.9999。1x配置意味着总历元为12,如果没有指定,所有消融实验都使用1x。报告的最终结果使用6x配置。数据增强包括随机{颜色扭曲,扩展,裁剪,翻转,调整大小}操作。

5.2 Comparision with SOTA

表2将所提出的RT-DETR与其他实时端到端目标检测器进行了比较。我们提出的RT-DETR-L实现了53.0%的AP和114 FPS,而RT-DETR-X实现了54.8%的AP和74 FPS,在速度和精度上都优于当前同规模的最先进的YOLO探测器。此外,我们提出的RT-DETR-R50实现了53.1%的AP和108 FPS,而RT-DETR-R101实现了54.3%的AP和74 FPS,在速度和精度方面都优于同一骨干网的最先进的端到端检测器。

与实时探测器相比。为了公平比较,我们在端到端设置中将缩放后的RTDETR的速度和精度与当前实时检测器进行了比较(速度测试方法参见第3.2节)。我们在表2中将缩放后的RT-DETR与YOLOv5[13]、PP-YOLOE[41]、YOLOv6v3.0(以下简称YOLOv6)[18]、YOLOv7[38]、YOLOv8[14]进行比较。与YOLOv5-L / PP-YOLOE-L / YOLOv7-L相比,RT-DETR-L的精度提高了4.0% / 1.6% / 1.8% AP, FPS提高了111.1% / 21.3% / 107.3%,参数数量减少了30.4% / 38.5% / 11.1%。与YOLOv5-X / PP-YOLOE-X / YOLOv7-X相比,rtder - x精度提高4.1% / 2.5% / 1.9% AP, FPS提高72.1% / 23.3% / 64.4%,参数数量减少22.1% / 31.6% / 5.6%。与YOLOv6-L / YOLOv8-L相比,RT-DETR-L精度提高0.2% / 0.1% AP,速度提高15.2% / 60.6% FPS,参数数量减少45.8% / 25.6%。与YOLOv8-X相比,rt - der - x在精度上提高了0.9%,在速度上提高了48.0%的FPS,在参数数量上减少了1.5%。

image.png

与端到端检测器相比。为了公平比较,我们只比较使用相同主干的基于transformer的端到端检测器。考虑到目前的端到端检测器不是实时的,我们没有在T4 GPU上测试它们的速度,除了DINO-DeformableDERT[46]进行比较。我们根据val2017上相应精度的设置测试检测器的速度,即使用TensorRT FP16测试DINO-Deformable-DETR,输入尺寸为(800,1333)。表2显示,具有相同主干的RT-DETR优于最先进的端到端检测器。和DINO-Deformable-DETR-R50相比,RT-DETR-R50显著提高了2.2% AP的准确率(53.1% AP对50.9% AP)和21倍的速度(108 FPS对5 FPS),并减少了10.6%的参数数量。与SMCA-DETR-R101相比[9],RT-DETR-R101的准确率显著提高了8.0%。

5.3 Ablation Study on Hybrid Encoder

为了验证我们对编码器分析的正确性,我们评估了第4.2节中设计的一组变量的指标,包括AP、参数数量和延迟。实验结果如表3所示。变体B的准确率提高了1.9%,延迟增加了54%。这证明了尺度内特征交互是重要的,但普通的transformer编码器的计算成本很高。变体C比B提供了0.7%的AP改进,并增加了20%的延迟。由此可见,跨尺度特征融合也是必要的。变体D比C提供了0.8%的AP改进,但延迟减少了8%。这表明解耦尺度内相互作用和跨尺度融合可以在提高精度的同时减少计算量。与变体D相比,DS5减少了35%的延迟,但提供了0.4%的AP改进。这表明不需要较低级别特征的尺度内相互作用。最后,配备我们提出的混合编码器的变体E比d提供1.5%的AP改进,尽管参数数量增加了20%,延迟减少了24%,使编码器更高效.

image.png

5.4 Ablation Study on IoU-aware Query Selection

我们对iou感知查询选择进行了消融研究,定量实验结果如图4所示。我们采用的查询选择根据分类得分选择top K (K = 300)个编码器特征作为内容查询,这些被选择特征对应的边界框作为初始位置查询。我们比较了val2017上两个查询选择所选择的编码器特征并且计算了分类得分大于0.5和均大于0.5的比例,分别对应“Propcls”和“Propboth”列。结果表明,通过IoU感知查询选择的编码器特征不仅增加了高分类分数的比例(0.82% vs 0.35%),而且提供了更多高分类分数和高IoU分数的特征(0.67% vs 0.30%)。我们还评估了在val2017上使用两种类型的查询选择训练的检测器的准确性,其中iu感知查询选择实现了0.8% AP的改进(48.7% AP对47.9% AP)。

5.5 Ablation Study on Decoder

表5显示了RT-DETR在不同解码器层下各解码器层的精度和速度。当解码器层数为6时,检测器的最佳准确率为53.1% AP。我们还分析了每层解码器对推理速度的影响,得出每层解码器消耗约0.5 ms。此外,我们发现解码器相邻层之间的精度差随着解码器层索引的增加而逐渐减小。以6层解码器为例,使用5层进行推理只损失0.1%的AP (53.1% AP vs 53.0% AP),同时减少0.5 ms的延迟(9.3 ms vs 8.8 ms)。因此,RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而不需要对推理进行再训练,这有利于实时检测器的实际应用。

image.png

6.结论

在本文中,我们提出RT-DETR,这是我们所知的第一个实时端到端检测器。我们首先对NMS进行了详细的分析,并建立了端到端速度基准,验证了当前实时检测器的推理速度被NMS延迟的事实。我们还从NMS的分析中得出结论,在相同的精度下,无锚点检测器优于基于锚点的检测器。为了避免NMS造成的延迟,我们设计了一个实时端到端检测器,其中包括两个关键的改进组件:混合编码器,可以有效地处理多尺度特征和iou感知查询选择,这改进了对象查询的初始化。大量的实验表明,与其他实时探测器和类似大小的端到端探测器相比,RT-DETR在速度和精度方面都达到了最先进的性能。此外,我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,而无需重新训练,这有利于实时目标检测器的实际应用。我们希望这项工作能够付诸实践,为研究人员提供启发。