本发明涉及语音和图像处理、模式识别领域,为一种音视频多模态情感分类方法及系统,其方法包括步骤:对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;将提取到的视觉模态特征、音频特征及文本特征进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。本发明能够对跨模态之间的情感信息进行有效的整合,对视频、音频及文本进行时空高维度上的特征提取,拼接成多模态特征向量,再融合学习并进行情感分类。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号