近日,必赢626net入口计算机视觉研究中心穆亚东课题组在计算机视觉国际会议CVPR 2023发表论文 “Neural Koopman Pooling: Control-Inspired Temporal Dynamics Encoding for Skeleton-Based Action Recognition” (第一作者为必赢71886网址登录2021级博士生王星瀚,二作为2019级本科生徐昕,通讯作者为必赢626net入口计算机视觉研究中心长聘副教授穆亚东),提出了基于非线性控制Koopman算子的序列数据池化(pooling)方法。针对现有的深度神经网络的池化层无法捕捉到序列数据中高阶动态信息的问题,该文基于Koopman算子提出了一种即插即用的参数化池化模块。将非线性系统进行线性化,使用线性演化矩阵来表示复杂系统,并提出了一种特征值正则化方法,来对习得的线性系统进行稳定性约束。实验证明该方法在全监督和单样本学习两种设定下都能显著提升模型性能。本工作的代码已开源在https://github.com/Infinitywxh/Neural_Koopman_pooling。
骨架人体动作识别是计算机视觉领域的一项重要基础任务,旨在利用人体的骨架序列来对其动作进行分类。近年来,随着深度学习的兴起,大多数方法使用卷积网络或图神经网络来提取骨架序列的时空特征,并使用平均池化来聚合时序信息(如图1所示)。然而,时序平均池化只包含一阶信息。为此,最近的一些研究提出使用双线性池化、协方差池化等二阶池化方法,来捕捉相邻帧或不同通道特征之间的交互,从而提取特征序列的二阶信息。然而,骨架序列具有复杂的动力学性质,现有的池化方法并未对序列的动力系统进行显式描述,这导致了很多时序信息的流失。
图1 时序平均池化(左)与基于线性动力学的高阶池化(右)的比较
本工作的核心想法是利用Koopman理论来对序列动力学进行显式刻画。Koopman理论旨在将复杂的非线性动力系统映射为线性系统,以利用谱分析等数学工具对系统进行研究与操作,该方法在时间序列分析等问题中得到了广泛应用。除了传统的动态模式分解(DMD)外,近年来一些工作将深度学习和Koopman理论相结合,采用自编码器框架,并使用特别设计的损失函数来确保系统的线性演变,以端到端的方式进行学习。然而,现有工作大多聚焦于序列预测任务,并未探索Koopman算子在序列识别任务中的应用。
针对上述提到的现有池化方法的局限性,本工作利用Koopman理论设计了一种端到端可训练的即插即用高阶池化模块,能够直接显式建模特征的时空交互。如图2所示,相较于以往的方法,该方法将骨架序列的时序演化视为一个动力系统,并使用骨干网络将其映射至一个新的嵌入空间,使其特征在这一空间中的时序演化是线性的。特征在这一线性空间的演化矩阵K则可被视为这个序列的签名,其中包含丰富的高阶时序信息。对于分类任务,由于每个类别有其特定的动力学模式,我们设置了了N个可学习的Koopman矩阵K_i(尺寸为C*C,其中C表示特征维度,N为类别数量)来表示每个类别的线性演化模式。在分类时,通过比较给定序列的线性演化矩阵K和每个类别的演化矩阵K_i,即可得到分类结果。
图2 Koopman池化模型示意图
Koopman方法相比循环神经网络(RNN)等时间序列模型,具有更好的理论可解释性,其线性演化矩阵K的频谱和特征值决定了整个系统的动力学特征。大多数Koopman理论的相关工作主要关注系统的稳定性对长期预测误差的影响,但并没有工作探讨稳定性在识别任务中的作用。本工作强调了系统稳定性在识别任务中的重要性。如图3所示,‘original’指原始序列的特征轨迹,标注为‘i’的轨迹则为使用第i类的演化矩阵对特征进行1步演化的结果。理想情况下,蓝色线条(原始轨迹)和黑色线条(通过真实类别的演化矩阵进行演化的轨迹)应该重合。可以观察到,衰减或不稳定的系统会导致线性拟合的误差,从而降低分类的准确率。针对这一问题,我们提出了一种特征值正则化技术,将线性演化矩阵K的特征值推向单位圆,使其模长接近1,从而确保习得的线性系统稳定且不衰减。
图3 衰减的线性系统导致匹配和分类错误
该方法在单样本(one-shot)学习中的性能尤为突出。在单样本学习中,由于每个测试类别仅提供一个示例样本,因此充分利用其时序信息对分类准确率至关重要。现有方法大都使用时序平均池化对特征进行聚合后,使用cosine距离等测度进行匹配和分类。这些匹配技术仍然依赖于示例样本的一阶信息,忽略了序列的复杂动力学特征。我们将Koopman池化方法与动态模态分解(DMD)结合,设计了一种基于时序动力学匹配的单样本分类框架。具体而言,对测试类别i的示例样本X,我们使用DMD方法计算得到其线性演化矩阵K_i,作为该类别的动力学模式样板。对于每个测试样本,通过将其线性演化矩阵K和习得的类别样板K_1~K_N进行匹配,即可得到其分类结果。
为验证Koopman池化的有效性,论文在NTU RGB+D、NTU RGB+D 120和NW-UCLA三个骨架动作识别基准数据集上,分别进行了全监督和单样本两种设定的实验。实验结果展示在加入Koopman池化模块后,基准模型CTR-GCN的性能在各个数据集上都有较为明显的提升,尤其是在单样本学习的设定下,所提出的模型相比以往工作在NTU120和NW-UCLA数据集上的准确率分别提升了2.5%和6.6%,效果显著。图4展示了特征值正则化后Koopman池化模型的可视化结果,采用PCA降维将线性空间中的特征轨迹嵌入到二维平面中进行可视化。可以看出,经过特征值正则化后系统的衰减问题得到了很大缓解,模型可以针对不同类别习得特定的演化模式,从而进行准确的分类。
图4 线性空间中特征演化轨迹的可视化结果
本工作展示了传统控制论与深度学习、计算机视觉进行结合后的技术威力,对于捕获序列数据中的高阶动态信息提供了一种有效的途径,可广泛用于更多的计算机视觉和机器人学的任务。