SCI期刊查询网提供SCI、AHCI、SSCI、国内核刊等期刊目录查询选刊服务,助力上万名科研人员成功评职晋升!

中文、英文期刊目录查询系统

快速了解学术期刊目录级别、选刊、行业刊物等解决方案

都市快轨交通投稿论文格式参考:基于骨架识别的城轨车站监控视频 乘客行为特征辨识研究

SCI期刊目录查询2025年07月15日 11时:00分

关键词:轨道交通;骨架识别;模式识别;城轨车站安全;乘客行为特征辨识;ST-GCN

作者:管洋;贾利民;陶思涵;豆飞

作者单位:北京交通大学;北京全路通信信号研究设计院集团有限公司;北京联合大学

  摘 要: 城市轨道交通领域传统监控分析方法对视频监控图像(如摔倒、晕倒和打斗等异常行为识别)漏识率高、参 数调整复杂,且难以高效地应用于现实城轨车站监控场景,针对此问题,采用基于骨架模式识别的人体姿态特征 辨识框架,引入基于人体骨架的姿态估计技术,采用 Alpha Pose 模型对乘客姿态进行精确估计,并结合时空图卷 积网络(spatial temporal graph convolutional networks,ST-GCN)模型的方法,实现对城轨车站监控场景中异常行为 的辨识。在 COCO 数据集和 MPII 数据集上分别达到了 72.3 mAP 和 82.1 mAP 的效果,相比较于 OpenPose 模型 提升高达 17%,验证了模型的有效性和实用性。结果表明,本文所提出的方法不仅提高了乘客行为的识别速度, 同时具备对复杂场景的适应能力,为城轨安全监控提供一种新的技术方案。

  1 研究背景

  随着城市轨道交通的快速发展,确保乘客安全已 成为公共安全管理的重要部分。当前,视频监控系统 作为安全管理的关键技术,在实时监控和异常行为识 别方面发挥着核心作用[1-2] 。尽管如此,目标检测与异 常行为识别在复杂场景下仍面临挑战,特别是在高峰 时段和多种遮挡条件下的效果不佳,这主要是由于传 统方法高度依赖于视频质量和监控角度[3] 。传统方法 在视频监控图像异常行为识别应用中效果不佳,存在 漏识率较高,且识别用时较长等问题[4] 。

  目标检测技术是视频监控系统中的基础,它涉及 在图像中自动识别和定位人体等目标物。尽管传统算法 如方向梯度直方图(histogram of oriented gradient,HOG) 和基于部件的可变型模型(deformable part model,DPM) 在目标检测方面取得了进展,但它们在遮挡和动态背 景下的应用效果有限[5] 。近年来,深度学习的兴起带 来了新的解决方案,如如基于区域的卷积神经网络算 法(regions with CNN features,R-CNN) [6] 和 YOLO 算 法(you only look once) [7] ,它们通过学习大量数据提高 检测的准确性和鲁棒性[5] 。这些算法已广泛应用于不 同场景的目标检测任务中,但在城市轨道交通复杂环 境中的表现仍有待提升[1] 。

  在异常行为识别领域,现有技术多依赖于复杂的 前处理和后处理技术。虽然基于深度学习的方法在一 些标准数据集上表现良好,但它们在实际应用中往往 因视角变化、遮挡和光照变化等问题而受限[8] 。例如, 刘雨萌等[3] 提出基于关键帧定位的人体异常行为识别 模型,通过筛选和提取视频中的关键帧来提高识别效 率。然而,这些方法在处理高密度客流和复杂背景时, 仍存在一定的局限性[9] 。

  人体骨架识别技术,特别是 Alpha Pose [10] 和 OpenPose [11] 等模型,通过提取人体关键点估计姿态,显示了 在复杂环境下识别人体动作的巨大潜力。Alpha Pose [10] 模型采用区域多人姿态估计技术(regional multi-person pose estimation,RMPE),显著提高了在复杂背景下的 识别准确率[5] 。这些技术能有效地从遮挡和动态背景 中识别出人体,为进一步的行为分析提供了基础[11-12] 。 此外,通过结合时空图卷积网络(spatial-temporal graph convolutional network,ST-GCN)模型,进一步分析人 体动作的时空序列变化,进而提高异常行为的检测精 度和效率。

  现有的视频分析技术中,行为识别算法已取得了 一定进展。例如,吴田等[9] 提出基于改进 ST-GCN 的 10 kV 带电作业人员视频异常行为识别方法,通过引 入通道注意力模块提升了识别准确率。此外,章东平 等[8] 提出的基于多通道耦合的时空增强异常行为检测 方法,通过引入时间增强模块和空间增强模块,从而 提高了特征提取的效果。

  本研究基于城市轨道交通视频监控系统,整合了 前沿的目标检测与人体骨架识别技术,开发了一种高 效的异常行为识别系统。系统采用 Alpha Pose 模型提 取区域多人行为特征,结合时空图卷积网络(ST-GCN) 深度分析人体动作时空序列变化,能有效识别诸如 摔倒、晕倒及打斗等复杂监控场景中的异常行为。

  2 基于 Alpha Pose 模型的乘客行为特征

  提取 2.1 Alpha Pose 人体姿态估计模型 人体姿态估计是目前计算机视觉领域的一个重点 研究方向,其通过算法来对视频或图像中的人体进行 关键点位置的识别,从而进行姿态估计,被广泛应用 于智能监控、动画制作等领域。在多人姿态估计领域, 目前主要存在两种框架,即自顶向下(top-down)和自底 向上(bottom-up)。

  本文面向的场景是城轨车站,这类场景面临着客 流聚集、遮挡严重等问题,因此应部署多视角监控, 覆盖车站不同的区域,避免漏检目标,同时使用高分 辨率设备,提升高密度人流中人体特征识别质量。综 合考虑硬件设施资源和视频分析框架对自底向上和自 顶向下方法的处理,可以得出以 Alpha Pose 人体姿态 估计模型为代表的自顶向下方法更适用于这类复杂场 景。因此,本文选择 Alpha Pose 模型进行城轨车站内 的乘客行为特征提取。不同于其他模型,Alpha Pose 采用区域多人姿态估计框架(RMPE)代替单人姿态 估计框架(single-person pose estimation,SPPE),解 决了检测框定位错误和姿态冗余的问题,有效提升 了算法的性能。RMPE 框架主要由对称空间变化网络 (symmetric spatiotemporal transformer networks,SSTN)、 姿态引导区域框生成器(pose-guided proposals genetrator, PGPG)和参数化非极大值抑制(parametric pose NMS, P-NMS)组成,如图 1 所示。

区域姿态估计框架 RMPE

  第一个组成部分对称空间变化网络(SSTN)主要 用于解决检测框定位错误的问题,由空间变换网络 (spatial transformer networks,STN)和反向空间变换网 络(spatial de-transformer networks,SDTN)两部分组成, 如图 2 所示,当检测框质量较差时,利用空间变换重 新调整检测框使目标人体位于检测框的中心,优化检 测效果。

SSTN 对称空间变换网络

  PGPG 考虑应用环境以及人体在监控中被截断 的可能性,根据不同人体姿态检测器的分布生成额外 的检测框用于 SSTN+SPPE 模块的训练,以此进行数 据增强,这种做法能够大大提升姿态估计的准确度。 P-NMS 则使用新的姿态距离度量方法消除多余的 姿态,提高人体姿态估计的精度。

  P-NMS 由置信度消 除和距离消除两种消除标准组成,置信度消除是指置 信度相似的关节点,而距离消除则是指位置相近的关 节点,只要满足二者之一即会被消除。消除过程如下: 以得分最高的姿态作为基准,消除与之相近的其他姿 态,直至剩下单一姿态为止。

  基于上述改进点,Alpha Pose 作为一种自顶向下 的多人姿态估计模型,首次在 COCO 数据集上达到72.3 mAP,相对于运用自底向上框架的 OpenPose 模型 提高 17%,如表 1 所示。

各开源系统在 COCO 数据集上的效果对比

  此外,Alpha Pose 在 MPII 数据集上也表现优异, 达到 82.1 mAP,具有较高的精度和跟踪速度,如表 2 所示。

各开源系统在 MPII 数据集上的效果对比

  2.2 数据集及关键点标注方案

  本文选用 COCO 数据集进行 Alpha Pose人体姿态 估计模型的训练。COCO 数据集是一个包含大规模图 像、字幕和对象类别的数据集,主要用于对象检测、 分割等任务[13] 。其中,COCO 数据集中的关键点标注 方案如图 3 所示,对于每一个人体,都有 17 个关键点 数量,各个关键点代表的含义如表 3 所示。

COCO 数据集关键点标注方案

  3 基于 ST-GCN 的乘客行为特征识别

  在运用Alpha Pose人体姿态估计模型提取出乘客 行为特征后,使用时空图卷积网络模型(ST-GCN)对乘 客行为特征进行识别,判断其属于哪一类行为动作。 图 4 所示为 ST-GCN 的骨架序列时空图,蓝点表示 身体的关节,人体关节之间的连接根据人体自然构 造来定义,帧间边根据视频连续帧之间的相同关节 来连接。

骨架序列时空图

  ST-GCN 结构为堆叠时空块的层次结构,其内部 由空间卷积(GCN)和时间卷积(TCN)组成。空间卷积模 块具体实现公式为

  式中,VG 为空间卷积的特征结果;Vin 为输入的节点 特征向量矩阵;Ks为在空间维度上的卷积核;Ak为卷 积核内连接无向图的相邻矩阵;Wk为在训练过程中可 学习权重矩阵;Dk 是度矩阵; k A是对原始邻接矩阵 Ak 的变换处理,I 为单位矩阵; ij Dk 是度矩阵 Dk 中对 应元素的计算结果。

  时间卷积模型(TCN)是基于空间卷积模块的输 出,引入时间维度的卷积(V,T),具体实现公式为

  式中,VT 为时空卷积输出特征,Cin 为输入通道数;T 为时间维度。

  图 5 所示为 ST-GCN 网络。基于 ST-GCN 网络,使 用人体姿态估计算法对输入的视频序列进行姿态估 计,获得关节点的坐标,其次以人体自然构造和时间 作为连接构建骨架序列时空图,之后应用多层时空图 卷积对其进行卷积,逐步生成更高层次的特征图,最后运用标准 Softmax 分类器将其分类到相应的动作类 别,实现人体姿态的识别。

ST-GCN 网络

  4 乘客行为特征辨识

  4.1 数据集构建

  常见的需要识别的乘客行为包括行走、坐立、站 立等正常行为,以及摔倒、晕倒、打架斗殴等对自身 及车站客流状态危害较大的异常行为。

  本文所使用的 ST-GCN 模型提供了预训练权重, 为提高数据集的质量,使最终训练得到的模型能够更 好应用于城轨车站场景下,本文以北京地铁西直门枢 纽站为场景面向城轨车站的乘客行为收集数据集,并 将其运用于预训练模型的增量训练中,以期得到更好的 模型效果。图 6 展示了收集的城轨车站乘客行为数据集 的部分视频图像。经过筛选,本数据集共有 2 000 余 张视频图像投入最终训练,数据集类别包含摔倒、晕倒、打架斗殴、行走、坐立、站立六种不同行为类别图像 各 400 余张,其中摔倒、晕倒、打架斗殴为异常行为 数据,行走、坐立、站立为正常行为数据。在样本预 处理阶段,使用尺度不变特征变换(SIFT)特征匹配方 法,评估视频图像质量,过滤掉畸变的样本数据。

城轨车站乘客行为数据集示例

  4.2 模型训练

  本实验通过 AutoDL 提供的环境进行训练,CPU 为 12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50 GHz,GPU 为 RTX 3090(24 GB)*1,内存为 43 GB, 操作系统为 ubuntu 20.04,开发语言为 Python 3.8,深 度学习框架为 Pytorch 1.11.0。

  基于深度学习训练平台,将收集的城轨车站乘客 行为数据集投入模型的训练中。随机抽取数据集的 20%作为测试集,其余的 80%则作为训练集。

  模型训练需要对数据预处理,首先基于 Excel 表 格逐帧对城轨车站乘客行为视频图像进行行为类别标 注,其次利用预先训练好的 Alpha Pose 模型提取每帧 视频图像的人体骨骼关节的坐标,然后对所得人体骨 骼关节的坐标数据进行归一化处理等,得到最终输入 模型训练的数据。

  基于上述所得数据进行 ST-GCN 时空图卷积网络 模型的训练,训练参数的设置为批处理大小取值 32, 迭代轮数为 50,类目数为 6,学习率为 0.001。

  在训练过程中,选取 Adam 优化器进行神经网络 模型参数的更新及优化,同时选取交叉熵作为损失函 数,判断模型在样本上的表现。Adam 优化器的更新方法为

  式中,Δwt为第 t 步参数的更新量;α 为学习率;ε 为能 够使分母稳定的系数;mt 为一阶矩;vt 为二阶矩,交 叉熵损失函数计算式为

  式中,N 为样本量;M 为类别数;yic为符号函数,当 样本 i 的真实类别为 c 时则取 1,否则为 0;pic为样本 i 属于类别 c 的概率,机器学习函数处理中默认是自然 对数为底,因此常用 log 函数代表 ln 函数。

  4.3 训练结果分析

  利用 plt函数绘制出训练集和测试集的损失及精度 变化曲线,如图 7 所示,训练集的训练效果较好,训 练曲线能够在短时间内较好地收敛;测试集的训练曲线 有所波动,但在训练约 10 轮后其损失及精度曲线也 均趋于平稳。最终在经过 50 轮训练后,训练集的精 度达到 99.66%,测试集的精度达到 99.49%,平均精度 达到 99.59%。

训练过程损失及精度变化曲线

  4.4 乘客行为特征辨识过程

  在得到训练好的模型后开始乘客行为特征的辨 识,具体过程如下:

  1) 输入城轨车站视频采集装备采集到的监控视 频图像。

  2) 利用 Alpha Pose 人体姿态估计模型提取目标乘 客的人体骨架序列。

  3) 利用 ST-GCN 时空图卷积网络模型对提取的人 体骨架序列进行分析,识别目标乘客的行为特征。

  4) 输出乘客行为特征辨识结果。

  4.5 乘客行为特征辨识结果展示

  运用Alpha Pose人体姿态估计模型提取目标乘客 人体骨架序列,再利用 ST-GCN 分析人体骨架序列,从 而识别出目标乘客的行为特征。基于视频图像的车站 乘客行为特征辨识结果如图 8 所示,对于车站内乘客 的行为类别(如打架、躺倒、逗留和坐座等)均能较为 准确地识别。

基于城轨车站视频图像的乘客行为特征辨识结果

  5 结论

  本研究利用人体骨架技术,通过 Alpha Pose 模型 精准地估计乘客的人体姿态,并结合 ST-GCN 模型深 入识别其行为特征,实现了视频图像中乘客行为类别 的准确判定。主要结论如下:

  1) 通过对 Alpha Pose 多人姿态估计模型的若干改 进,在 COCO 数据集上具有 72.3 mAP,在 MPII 数据 集上具有 82.1 mAP 的较高精度和跟踪速度。

  2) 基于深度学习训练平台进行实验,在 50 轮训练 后,训练集和测试集分别达到了 99.66%和 99.49%的高 精度,平均精度达到 99.59%。

  3) 利用 ST-GCN 时空图卷积网络模型对提取出来 的人体骨架序列进行分析,识别目标乘客的行为特征, 能有效识别诸如摔倒、晕倒及打斗等复杂监控场景中 的异常行为,对于提升城轨车站的安全管理水平具有 显著意义。未来,该技术有望在城市交通安全管理领 域发挥更加重要的作用。