一种基于深度学习的视频分类方法以及设备--专利交易--嘉权专利商标事务所

申请号：201910133098.0

申请日：2019-02-22

公开号：

公开日：

授权日：

授权公告日：

所属类型：发明专利

国别省市：

发明名称：一种基于深度学习的视频分类方法以及设备

国际分类号：

范畴分类号：

发明人：哈尔滨工业大学（深圳）

法律状态：审查中

交易方式：

本发明公开了一种基于深度学习的视频分类方法以及设备。其中，所述方法包括：获取视频的数据集及其类别标签，和将该获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，和通过卷积神经网络，提取该分为N段后的视频的视频空间加权特征，和通过卷积神经网络，提取该分为N段后的视频的视频时间加权特征，和获得该分为N段后的视频的视频多尺度特征，和融合该N段视频特征计算预测得分，得到最终视频分类，和存储该训练好的视频分类模型，应用该训练好的视频分类模型，对测试视频进行分类。通过上述方式，能够实现提高视频特征提取的效果和准确度。

1.一种基于深度学习的视频分类方法，其特征在于，包括：

获取视频的数据集及其类别标签；

将所述获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像；

通过2D卷积神经网络，提取所述分为N段后的视频的视频空间加权特征；

通过3D卷积神经网络，提取所述分为N段后的视频的视频时间加权特征；

获得所述分为N段后的视频的视频多尺度特征；

融合所述N段视频特征计算预测得分，得到最终视频分类；

存储所述的训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类；

其中，所述将所述获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，包括：

将视频等分为N段，训练阶段每段视频随机选择M帧，测试阶段每段视频选择等距离M帧，将n＝N×M帧图像堆叠，得到通道数为3的图像块，设置输入网络的视频帧分别记为X＝{x1,x2,…,xn},n表示输入网络的总帧数；

其中，所述通过2D卷积神经网络，提取所述分为N段后的视频的视频空间加权特征的步骤，包括：设置每帧图像提取到的某层空间特征为V＝{v1,v2,....,vn}，空间提取的最后一层特征图为g，每一帧特征图与最后一层特征图点乘后做归一化处理得到每帧权重wi＝softmax(vi·g)，将权重与原始特征相乘得到加权空间特征V′＝{v1w1,v2w2,....,vnwn}；

其中，所述通过3D卷积神经网络，提取所述分为N段后的视频的视频时间加权特征的步骤，包括：设置网络中某一层的特征图大小为H×W×C，通道数为C，计算时间权重，每层特征图乘上权重获得带有区分性的时间特征；

其中，所述融合所述N段视频特征计算预测得分，得到最终视频分类的步骤，包括：不同段视频对视频分类结果的重要性不同，设每段视频的重要性分别为w1,w2,…wN 视频的预测得分分别为C1,C2,.....,CN，权重乘上得分后累加得到最终融合分数，即由以下公式计算得到：

其中，权重设置倾向于中间段权重偏高，开始和结束段权重偏低，权重和为1；

其中，所述获得所述分为N段后的视频的视频多尺度特征，可以包括：

设置卷积神经网络最后一层特征图大小为H×W×C，直接利用大小为H×W的池化核获得1×1×C的特征送入全连接层计算预测分值将导致较大信息损失；

采用不同大小的池化核和池化方式包括取平均值或者取最大值的方式，获得多尺度的特征，然后拼接送入全连接层将避免信息损失。

2.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述卷积神经网络，包括：

至少一个三维卷积层、至少一个三维池化层和至少一个全连接层。

3.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述计算时间权重的步骤，包括：

将特征图利用卷积操作将通道数缩小r倍，即通道数变为C/r；

利用大小为H×W的平均池化将特征图大小变为1×1，即特征图变为1×1×C/r ；

在第三维度上利用ReLU函数做非线性变换；

同样利用卷积操作将通道数恢复至C，最后通过sigmoid函数获得归一化时间权重W＝{w1,w2,...,wC}。

4.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述存储所述训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，包括：

存储所述得到的训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，通过训练好的卷积神经网络获得最后预测得分，选择分数最高类别作为分类结果。

5.一种基于深度学习的视频分类设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的基于深度学习的视频分类方法。

4000-268-228