SCI期刊查询网提供SCI、AHCI、SSCI、国内核刊等期刊目录查询选刊服务,助力上万名科研人员成功评职晋升!

中文、英文期刊目录查询系统

快速了解学术期刊目录级别、选刊、行业刊物等解决方案

工矿自动化投稿论文格式参考:基于深度学习的煤矿井下人员不安全行为检测与识别

SCI期刊目录查询2025年06月16日 04时:49分

关键词:井下不安全行为识别;目标检测;深度学习;自注意力机制;YOLOv5s;高分辨率特征提取网络;时空图卷积网络

作者:郭孝园;朱美强;田军;朱贝贝

作者单位:中煤科工集团常州研究院有限公司; 天地(常州)自动化股份有限公司;中国矿业大学 信息与控制工程学院

  摘要:针对井下目标发生多尺度变化、运动目标遮挡及目标与环境过于相似等问题,提出了一种基于深度学 习的煤矿井下人员不安全行为检测与识别方法。采用自上而下的策略,构建了一种基于自注意力机制的目标检 测 模 型 YOLOv5s_swin: 在 基 于 自 注 意 力 机 制 的 模 型 Transformer 基 础 上 引 入 滑 动 窗 口 操 作 , 得 到 Swin−Transformer,再利用 Swin−Transformer 对传统 YOLOv5s 模型进行改进,得到 YOLOv5s_swin。针对井下人 员与监控探头间距不定导致的人体检测框多尺度变化问题,在检测出人员目标的基础上,使用高分辨率特征提取 网 络 对 人 体 的 关 节 点 进 行 提 取 , 再 通 过 时 空 图 卷 积 网 络 (ST−GCN) 进 行 行 为 识 别 。 实 验 结 果 表 明 : YOLOv5s_swin 的精确度达 98.9%,在 YOLOv5s 的基础上提升了 1.5%,推理速度达 102 帧/s,满足实时性检测要 求;高分辨率特征提取网络能够准确提取不同尺度的目标人体关节点,特征通道数更多的 HRNet_w48 网络性能 优于 HRNet_w32;在复杂工矿条件下,ST−GCN 模型的准确率和召回率都较高,可准确地对矿工行为进行分类, 推理速度达 31帧/s,满足井下监测需求。

  0 引言

  煤矿安全事故中,超过八成是由生产人员的不 安全行为所引发[1]。因此,对井下人员的行为规范 进行及时且有效的监管显得尤为重要。目前,煤矿 主要是通过监控视频对井下人员的实时行为进行人 工监控[2-3]。这种方式易导致因个人主观意识疲惫而 出现漏检的情况,且配备大量摄像机也会造成资源 浪费。如何利用监控手段实时准确地识别井下人员 的不安全行为是一个亟待解决的问题。

  早期基于图像的人类行为识别主要是通过对单 个图像进行特征提取实现的[4-5]。但该方式忽略了连 续动作之间的相关性,难以准确描述复杂动作且识 别准确率普遍不高。随后,越来越多学者专注于利 用视频流进行人员行为识别,主要包括基于双流卷 积神经网络[6-9]和基于长短期记忆(LongShort-Term Memory,LSTM)网络[10-11]的方法。由于煤矿环境中 粉尘和光照的影响及人体遮挡等问题,上述方法无 法准确有效地识别井下人员的行为。利用人体关节 信息进行行为识别可大大减少环境等因素的干扰。 因此,部分学者提出了基于人体关节信息的人员行为 识别方法,利用姿态估计方法检测人体关节信息, 再将该信息输入图卷积网络(Graph Convolutional Networks,GCN)进行分类[12-14]。文献[15]设计了一种 时空图卷积网络(SpatialTemporalGraphConvolutional Networks,ST−GCN),开创性地提出了时空图的概 念,通过将人体骨架序列建模为一个同时包含空间 和时间维度的无向图,有效处理关节信息在空间距 离和时间方向上的变化情况。文献[16]提出了注意 力增强图卷积 LSTM 网络(AttentionEnhancedGraph ConvolutionalLSTM, AGC−LSTM) ,首次将图卷积 与 LSTM 结合并应用在基于人体关节的行为识别 上。AGC−LSTM 不仅能够很好地捕获关节信息的 空间和时间特征,还能探索其在空间和时间域的关 系,为理解人体关节信息的复杂变化情况提供了支 持。文献[17]提出了双流自适应图卷积神经网络 (Two-Stream Adaptive Graph Convolutional Networks, 2S−AGCN),将基于自注意力机制的邻接矩阵与根据 人体关节物理结构预先定义的邻接矩阵相加,表达 人体关节点之间的关系。文献[18]提出了语义引导 神经网络,将语义信息和动力学结合完成行为识别 任务,通过语义引导增强节点的特征表达能力。

  煤矿井下全天候使用灯光照明,空气中充满煤 灰、粉尘等,导致井下视频图像亮度低、背景与目标 难以区分等问题。井下设备繁多且形状各异,大多 数设备与工装的颜色相近,给人体位置检测带来较 大干扰,影响后续人员行为识别。同时,由于井下作 业空间有限,监控摄像机大多安装在井下人员活动 空间的斜上方,监控视角所覆盖的巷道大多呈现狭 长状态,运动目标在远近距离的活动过程中,摄像机 捕获到的目标尺度不断变化,运动目标离摄像机越远, 目标在捕获的画面中所占像素比越小,井下视频中 目标的这种特殊性给行人检测及行为识别带来很大 困难。

  针对井下目标发生多尺度变化、运动目标遮挡 及目标与环境过于相似等问题,本文提出了一种基 于深度学习的煤矿井下人员不安全行为检测与识别 方法,通过对井下人员进行目标检测、姿态估计和行 为识别,分析井下人员行为是否符合规定,并可在目 标人员出现不安全行为时进行报警提示指导。

  1 方法架构与数据集

  1.1 方法架构

  基于深度学习的煤矿井下人员不安全行为检测 与识别方法架构如图 1 所示。首先,获取煤矿井下 监控视频流数据,并提取视频帧图像。其次,利用基 于注意力机制的目标检测方法提取视频帧图像中的 人员目标并标记位置,避免将背景设备等其他物体 误检成人员。然后,对检测到的人员目标进行骨骼 关键点特征提取,以生成人员整体骨架信息。最后, 利用基于姿态估计的井下人员行为识别方法分析人员骨架的位置和状态,得出人员实时行为信息,并对 其行为进行安全评估和判断。

煤矿井下人员不安全行为检测与识别方法架构

  1.2  数据集

  1.2.1 井下人员检测数据集

  从中央变电站、巷道、选煤厂和泵房等关键场景 采集视频,将视频进行切帧处理,每隔 20 帧提取 1 张图像,最终生成 2200 张原始图像。在此基础 上,运用图像增强技术(缩放、翻转、随机裁剪和高 斯模糊)对原始图像进行扩增,生成 4000 张增强图 像。经过整合,数据集中共计 6200 张图像。鉴于本 研究的目标是井下人员,数据集中仅标注了 1 个类 别,即使用 LabelImg 软件对图像中的人体进行标注, 标注标签为“person”。部分数据集图像如图 2 所示。

部分井下人员检测数据集图像

  1.2.2 人员姿态估计数据集

  对于人员姿态估计数据集,选用公共数据集 MS COCO 来训练人体关节点提取模型。MSCOCO 姿 态估计数据集中将人体关节点表示为 17 个关节点, 关节点的具体标签和名称见表 1。由于环境与目标 人体的遮挡,导致每张图像中标注的样本关节点个 数不同,当样本中关节点个数过少时,关节点之间关 联信息减少,影响姿态估计网络对骨架信息提取的 准确度;而关节点个数过多时,会增加数据集的复杂 性。为了更好地适应煤矿井下图像中人体关节点的 特征提取,选取关节点个数为 10~15 的样本作为训 练数据集,模拟井下环境对人体关节点检测的影响, 数据集共包 括 35000 张图像。

MS COCO 数据集中人体关节点分类

  1.2.3 人员行为识别数据集

  人员行为识别数据集同样由煤矿监控摄像机拍 摄的视频图像构成。为了保证数据集的多样性,监 控场景主要选取地面的带式输送机运输区、物料搬 运库房及井下的中央变电站、巷道和泵房等区域。 将采集的视频按照 20 帧间隔进行切分提取,最终生 成了 3200 张原始图像,主要包括人员的行走、跑 步、倒地与摘安全帽等行为,每种行为分别包含 800 张原始图像。需要说明的是,除了人员行走与跑 步动作外,其余行为均是在确保相对安全的情况下, 安排具体人员在实际工矿场景模拟的,以保证人员 行为准确有效。使用 LabelImg 软件对数据集中的 人员动作进行标注,对应上述行为的标签分别为 “walking”“running”“falling”“detaching”,部分数据 集图像如 图 3 所示。

 

  2 基于自注意力机制的目标检测部分人员行为识别数据集图像

  利用人体关节信息进行行为识别的方法通常可 分为自上而下和自下而上 2 种[19]。自上而下的方法 首先使用检测器对图像中的人体目标进行检测,并 将其单独框选,再对各人体框进行单独姿态估计和 行为识别。自下而上的姿态估计方法则是先检测并 定位被测图像中所有存在的人体关节点,然后通过 关节连接器将这些关节点分组匹配至不同目标,实 现人体关节信息提取。对关节点的分组匹配过程通 常涉及大量超参数,使得训练过程复杂[20]。因此,本 文采用自上而下的策略,构建一种基于自注意力机 制的目标检测模型,以更加准确、高效地提取人体关 节信息。

  2.1 自注意力机制原理

  自注意力机制最初被广泛应用在自然语言处理 (NaturalLanguageProcessing,NLP)领域,是一种基于 自注意力计算的深度神经网络[21-22]。与其他注意力 机制不同的是,自注意力机制内部进行注意力计算 的对象来源相同,例如可以是同一句话中的不同单 词或者同一张图像中不同的像素块。在处理图像 时,网络将图像划分成一定的像素块,通过计算不同 像素块之间的相关性来提高检测精度。

  Transformer 是基于自注意力机制的模型,具有 强大的并行编码能力[23]。Transformer 模型结构如 图 4 所示,由 N 个编码器和 N 个解码器堆叠而成,能 够处理不同的像素块输入。每个编码器内部包含多 头注意力层(Multi-headattention) 、前馈神经(Feed forward network) 网 络 、 残 差 连 接 (Residual connection) 及 层 归 一 化 (Layer normalization) 等 组 件。每个解码器由带掩码的多头注意力层(Masked multi-headattention) 、多头注意力层、前馈神经网 络、残差连接及层归一化等模块构成。

  自注意力机制通过矩阵运算将每个输入的像素 块映射到 3 个不同的空间向量矩阵,分别为查询矩 阵 Q、键矩阵 K 和值矩阵 V:

  式中:Wq,Wk,Wv 分别为 Q,K,V 的权重矩阵;X 为输 入序列数据。

  自注意力 Attention 的计算公式为

Transformer 模型结构

  式中 dk 为 Q,K 的列数,即向量维度。

  将 Q 和转置后的 K 做点乘,计算 2 个向量之间 的相似度得分,再将相似度得分除以缩放因子 , 将得到的结果经过 softmax 函数,再与 V 相乘,得到 包含当前像素块与其他像素块间相关性的特征向 量。对输入的每个像素块都进行相同操作,使得新 向量中包含该像素块的上下文信息。

  多头自注意力模块包括多个并行计算的自注意 力模块,每个自注意力模块单独进行自注意力计算, 然后合并所有子空间中的注意力信息。多头自注意 力模块包含多组权重矩阵,可并行地从输入像素块 中获取多组信息,每个注意力头关注输入像素块的 不同特征。多个自注意力模块通过按位相加得到多 头自注意力 MultiHead:

  独立的自注意力模块各自关注不同信息,包括 局部信息和全局信息。与单头自注意力模块相比, 多头注意力模块可获取更加丰富的视觉信息。

  2.2 Swin−Transformer 网络结构

  Swin−Transformer 在 Transformer 的基础上引入 滑动窗口操作,并借鉴卷积神经网络中的层次化构 建方式。随着网络深度加深,通过跨层连接和自注意力计算来提高模型的感受野和特征提取能力。滑 动窗口操作将注意力计算限制在窗口中,能大量节 省全局自注意力计算带来的计算开销。

  Swin−Transformer 网络由多 个 Swin 块堆叠而 成,每个 Swin 块由 2 个连续的 SwinTransformer 块 构成,结构如图 5 所示。SwinTransformer 块由窗口 多头自注意力模块(Window-basedMSA,W−MSA)和 滑动窗口多头自注意力模块(ShiftedWindow-based MSA,SW−MSA)组成。一个 SwinTransformer 块(图 5 左 半 部 分 ) 由 多 层 感 知 机 (Multi-layer Perceptron, MLP) 和 W−MSA 组 成 , 在 每 个 W−MSA/SW−MSA 模块和 MLP 之间使用正则化层(LayerNorm,LN)及 残差连接。另一个 SwinTransformer 块(图 5 右半部 分)由带高斯误差线性单元的非线性 2 层 MLP 和 SW−MSA 组成。

 Swin−Transformer 网络结构

  Swin−Transformer 网络整体包含 4 个阶段,每个 阶段会将输入特征图的分辨率缩小一半,逐层扩大 感受野。将 H×W(高×宽)的输入图像切成一个个不 重叠的大小为 4×4 的像素块,并将每个像素块嵌入 到通道维度,得到(H/4)×(W/4)的特征图。每个阶段 包括像素块合并和多个 Swin 块,在下采样的同时特 征通道的维度扩展 2 倍。这样层级化的设计使得网 络能够更多地学习到全局信息。W−MSA 在每个窗 口内进行自注意力计算,不可避免地忽略了窗口间 的信息互动,而 SW−MSA 可解决跨窗口像素块无法 建立信息连接的问题。在实际操作中,W−MSA 将 8×8 的特征图划分成不重合的 4 个窗口,每个窗口包 含 4×4 个像素块。SW−MSA 在特征图上进行窗口的 循环滑动,在上一层相邻的不重合窗口之间引入连 接,在变换后的窗口内进行自注意力计算。

  根据自注意力计算公式可得大小为 H×W×C 的特征图计算量:

  引入窗口机制后的计算量为

  式中 M 为滑动窗口的单边大小。

  由以上分析可知,当 H 和 W 较大、M 较小时,窗 口自注意力模型的计算量远小于自注意力模型。

  2.3 YOLOv5s_swin 模型

  YOLOv5s 是 YOLOv5 系列目标检测模型中最小 的版本,专为轻量化设计,适用于资源受限的计算环 境[24]。该模型基于 CSPDarknet53 架构,通过调整 深度和宽度系数,显著降低了参数量,同时保持了较 高的推理速度,在标准测试环境下,推理延迟约为 3.6ms/帧。尽管其检测精度略低于同系列中的其他 版本,但在 COCO 数据集上全类平均精度(mAP)仍 达 37.4%,表现出良好的性能平衡。YOLOv5s 的轻 量化特性使其特别适合于移动设备、嵌入式系统及 对实时性要求较高的应用场景。

  YOLOv5s 模型包括 3 个部分:特征提取骨干网 络(Backbone)、特征融合颈部网络(Neck)和检测头 (Detection)。本文利用 Swin−Transformer 网络对传 统 YOLOv5s 模型进行了改进,以进一步提升其检测 性能,将改进后模型命名为 YOLOv5s_swin,其结构 如图 6 所示。

  YOLOv5s_swin 模型的检测过程大致分为 3 个 步 骤 : ①特征提取。将输入图像的比例调整 为 608×608, 并 输 入 至 Backbone 网 络 。 经 过 Swin− Transformer 模块输出 3 种不同比例的特征图,大小 分别为 76×76,38×38 和 19×19,这 3 种特征图包含不 同的特征信息。Backbone 网络中的 SPPF 模块参照 空间金字塔的构造原理,通过融合特征图的局部特 征和全局特征,使得特征图的信息更加丰富,能在一 定程度上解决目标多尺度的问题。②特征融合。通 过 Backbone 网络获得 3 种不同尺度的特征图并传输 到 Neck 网络,通过执行上采样、卷积、信道级联等 操作,充分整合特征图提供的信息。Neck 网络采用 特征金字塔和路径聚合网络结合的结构,有利于模 型充分利用不同特征层的信息,提高对多尺度目标 和密集目标的检测效果。③检测结果输出。Neck 网络完全整合这些特征后,最终由 Detection 网络输 出 3 个尺寸分别为 76×76,38×38 和 19×19 的检测结 果,对应的 3 个具有不同参数的检测头分别用于检 测大物体、中物体和小物体。目标检测任务中分类 器会得到多个候选框和候选框中目标类别的置信 度,存在冗余结果,根据分类器得到的类别置信度进 行排序,使用非极大值抑制操作剔除不满足阈值条 件的冗余预测框,选出最佳结果。这种操作可增强 模型对多目标和存在遮挡目标的检测能力,提升检测效果。

YOLOv5s_swin 模型结构

  通过引入滑动窗口的操作,不仅可有效降低 Transformer 模型中全局自注意力计算的计算量,同 时可增加窗口之间的信息交互,融合图像中的局部 信息和全局信息 ,有效提升目标检测的精确度。

  3 基于姿态估计的井下人员行为识别

  煤矿井下人员在狭长巷道中作业时,人体与摄 像机之间的距离远近交替,人体检测框常呈现出多 尺度特征。针对该问题,本文在 YOLOv5s_swin 检测 模型检测出人体框的基础上,选用多尺度特征提取 网络对检测框中行人的骨骼关节点信息进行提取, 再将检测框和骨骼关节点信息送入 ST−GCN 对人员 行为进行识别和分类。

  3.1 基于多尺度特征融合的人体姿态估计

  检测多尺度目标的关节信息时需要解决 2 个难 题:①由于尺度变化较大,如何在准确检测中目标、 大目标人体关节点的同时提高小目标人体关节点的 检测精度。②如何生成更精准的预测热图,提高小 目标人体关节点的检测精度。

  为了解决尺度不一的问题,主流方法是引入特 征金字塔模块进行多尺度特征融合,但是在特征金 字塔进行下采样的特征融合过程中,分辨率小的小 目标人体关节点可能已经损失了部分语义信息,会 导致最终预测的关节点热图精度较低。因此,需要 增大输入图像的分辨率,但是当分辨率增大到一定 程度时,大目标人体关节点的检测精度开始降低。 同时,人体的不同关节点在不同特征层上具有不同 的检测精度。基于此,学者们设计了多尺度特征融 合网络,这类网络可使多尺度特征充分融合,利用不 同尺度的特征信息进行关节点热图预测,有效提高 关节点检测精度。本文采用不同的高分辨率特征提 取网络(High-ResolutionNetwork,HRNet)对比分析 多尺度特征融合提取效果。

  HRNet 通过并行子网来连接不同尺度的信息。 由于 HRNet 在提取人体骨架关节点过程中没有复杂 的预处理环节,可有效减少特征提取过程中的信息 损失,保留与实际行为高度相关的关节位置信息。 HRNet 包含多个分辨率逐渐降低的平行子网络,平 行的子网络之间并行连接并通过多尺度信息融合进 行信息交流。随着网络加深,模型在生成低分辨率 特征图的同时保持高分辨率特征图,将高分辨率和 低分辨率特征图并行连接,可在扩大特征感受野的 同时保留低层语义信息,交叉融合不同分辨率的特 征,即多尺度融合。

  HRNet 多尺度融合方式如图 7 所示。对分辨率 相同的特征图执行复制操作;对分辨率较低的特征 图执行最近邻差值法上采样操作,将低分辨率特征 图转换为高分辨率特征图;对分辨率较高的特征图 执行跨步卷积下采样操作,将高分辨率特征图转换 为低分辨率特征图。最后将 3 种经过处理的同分辨 率的特征图融合。这种融合方式结合了高、中、低 语义信息,可增强网络模型的分类能力,在二维人体 关节点检测应用中准确度较高。

HRNet 多尺度融合方式

  3.2 基于 ST−GCN 的行为识别

  ST−GCN 通过在时间和空间序列对动态骨架进 行建模,完成对骨骼关节点的行为识别。ST−GCN 模型建立在一系列骨架时空图之上,骨架时空图有 2 个维度,分别是符合人体关节自然连通性的空间维 度和在连续时间步长中连接相同关节的时间维度。 在空间维度中,每个节点表示人体骨架中的关节点, 每个边表示同一时间关节点之间的连接关系,称之 为第 1 类边。时间维度中的边表示某个关节点在各 个时间之间的连接关系,称为第 2 类边。在此基础 上,ST−GCN 构建了多层时空图卷积,多层级化结构 使得信息能够沿着空间和时间维度进行整合。

  在空间维度上,人体在活动时骨骼关节点会产 生局部小范围移动,一定区域内所有关节点的共同 移动可引起人体产生某种动作。ST−GCN 对关节点 进行动态建模时,遍历全部关节点,按照小组的形式 将人体关节点划分成若干个区域,构成邻接矩阵,再 通过卷积神经网络学习这些区域内的特征变化,得 出动作信息。在遍历时,遍历的当前关节点称为根 节点,与该节点相连的节点称为子节点。骨骼关节 点分区策略如图 8 所示。

骨骼关节点分区策略

  单一划分策略将根节点和子节点全部划分为一 个子集。基于距离划分策略将中心节点分为一类, 邻域节点分为另一类。基于空间配置划分策略按照 关节点到骨骼重心的距离将关节点分为 3 类。计算 所有关节点的平均坐标值并作为人体骨骼的重心, 再对关节点进行分区,第 t 帧第 m 个根节点下第 j 个 子节点的分区为

  式中:dj 为子节点到骨骼重心的距离;rm 为根节点到 骨骼重心的平均距离。

  当 dj=rm 时,该节点为根节点;当 dj<rm 时,该节 点称为向心点;当 dj>rm 时,该节点为离心点。实验 证明,基于空间配置划分策略更能表征人体关节点 的向心运动和离心运动。

  与空间维度的关节点分布不同,同一个关节点 在时间维度上是连续的,与图像具有相同的序列信 息,因此在时间维度上可直接使用卷积神经网络 进行学习,得到同一关节点在时间维度上的动态 信息。

  4 实验结果与分析

  4.1 井下人员检测性能验证

  将检测模型在开源的 MSCOCO 数据集上训练 300 个 epoch,在 MSCOCO 数据集中只选取标签为 “person”的样本进行训练,并将训练得到的模型权 重作为预训练权重。利用预训练权重,在本文构建 的井下人员检测数据集上进行二次训练并微调模型 参数,以进一步优化模型权重并提高检测准确率。 模型训练的硬件配置:处理器为 AMDRyzen95950x, 显卡为 NVIDIA RTX3090,内存为 32 GiB,系统为 ubuntu22.04,软件开发平台为 CUDA11.0,Python3.7。

  将 YOLOv5s_swin 与 YOLOv5s 及基于无锚框的 一阶段检测模型 Centernet 进行对比。训练参数设置: batch_size 为 64,迭代次数为 300,使用余弦退火策略 调整学习率,优化器选择 SGD。输入图像大小设置 为 608×608。目标检测模型性能比较结果见表 2。

目标检测模型性能比较结果

  由表 2 可看出,YOLOv5s 系列的检测模型检测 速度高于 Centernet,训练时长远小于 Centernet。在 YOLOv5s 模型中引入自注意力机制后,训练时长比 基准模型只增加了 1.2h。在精确度指标上,YOLOv5s_ swin 在 YOLOv5s 的基础上提升了 1.5%,达 98.9%, 推理速度达 102 帧/s,满足实时性检测要求。

  模型损失函数变化曲线如图 9 所示。可看出,YOLOv5s_swin 比 YOLOv5s 的损失值低,在 300 个 epoch 后,YOLOv5s_swin 模型的损失值已经降低到 0.019。因此,融入自注意力机制后的检测模型鲁棒 性更好。

模型损失函数变化曲线

  YOLOv5s 和 YOLOv5s_swin 模型的可视化激活 热力图如图 10 所示。可视化激活热力图反映出神 经网络在预测目标时关注的像素区域,即不同位置 像素点对结果的影响程度。由图 10 可看出,相比 YOLOv5s 模型,引入自注意力机制后的检测模型重 点关注了人体区域的像素点,减少了对于周围环境 的关注,从而降低了环境对目标检测的影响,进而提 升了网络检测精度。

模型的可视化激活热力图

  4.2 姿态估计性能验证

  根据并行分支的特征通道数不同,高分辨率特 征提取网络可分为 HRNet_w32 和 HRNet_w48。这 2 个版本的网络模型分别在 MSCOCO 姿态估计数 据集上训练和测试。对人体关节点提取器训练 300 个 epoch,输入图像尺寸固定为 384×288。模型 使用 Adam 作为优化器,初始学习率设置为 0.0001, 为防止模型出现过拟合的情况,第 200 个 epoch 及之 后的学习率设置为 0.00001。

  选用经典的自上而下的姿态估计网络 Alphapose 与高分辨率特征提取网络进行对比实验,并使用 mAP、 平均目标关键点相似度 (Average Precision, APOKS=0.50)、中等目标平均预测正确率 APM 和大目标 平均预测正确率 AP L 作为评价指标,实验结果见表 3。

 姿态估计网络实验结果

  由表 3 可看出,高分辨率特征提取网络对人 体关节点的提取精度比其他姿态估计网络高,能 够准确提取不同尺度的目标人体关节点。随着特征 通道数的增加,HRNet_w48 网络比 HRNet_w32 网络 的 mAP 高 0.97%,其中 HRNet_w48 对中等目标人体 的检测精度达 70.9%,对大目标人体的检测精度达 86.0%,平均精度达 78.2%,平均目标关键点相似度超 过 87%。

  针对煤矿井下环境,高分辨率特征提取网络对 人体关节点的提取效果如图 11 所示。由图 11(a)可 知,HRNet_w32 网络误将环境背景识别成人体的一 部分。在相同场景下,HRNet_w48 网络消除了这种 误检的情况,说明 HRNet_w48 网络比 HRNet_w32 网 络在人体骨架特征提取方面更具优势,同时对环境 的抗干扰能力更强。

HRNet 网络的实验效果

  4.3 行为识别性能验证

  选择 Adam 作为优化器,设置 batch_size 为 16, 学习率为 0.001,模型训练 60 个 epoch。ST−GCN 识 别各动作类别的准确率和召回率见表 4。可看出, ST−GCN 的准确率和召回率都较高,可准确地对矿工 行为进行分类。测试模型的推理速度可达 31帧/s, 满足井下监测需求。

 ST−GCN 的准确率和召回率

  YOLOv5s_swin+HRNet+ST−GCN 模型的行为识 别结果如图 12 所示。可看出,在复杂工矿条件下, 模型可准确检测并识别出工作人员的具体行为,同 时克服图像背景的干扰。

行为识别结果

  5 结论

  1)采用自上而下的策略,构建了一种基于自注 意力机制的目标检测模型 YOLOv5s_swin,以更加准 确、高效地提取人体关节信息。针对井下人员与监 控探头间距不定导致的人体检测框多尺度变化问 题,在检测出人员目标的基础上,使用高分辨率特征 提取网络对人体的关节点进行提取,再通过 ST− GCN 进行行为识别。

  2)实验结果表明:YOLOv5s_swin 的精确度达 98.9%,在 YOLOv5s 的基础上提升了 1.5%,推理速度 达 102 帧/s,满足实时性检测要求;高分辨率特征 提取网络能够准确提取不同尺度的目标人体关节 点,特征通道数更多的 HRNet_w48 网络性能优于 HRNet_w32;在复杂工矿条件下,ST−GCN 模型的准 确率和召回率都较高,可准确地对矿工行为进行分 类,推理速度达 31帧/s,满足井下监测需求。