本发明公开了一种基于多特征融合和时空注意力机制相结合的视频描述方法,首先对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作以及光流等特征,并将这些特征融合拼接成一个特征向量,然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,最后输入到单向长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。本发明对待描述视频分别提取了物体、场景以及运动特征,表征了视频的对象信息与对象之间的关系以及运动信息,同时考虑到视频在空间维度和时间维度上的变化,利用3D卷积特征进一步捕捉到视频流的运动信息。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号