多模态融合思考

0

音频没有太多技巧要么直接使用原始波,要么直接STFT
视频其实可以拆分成为时间和空间,取一个颜色空间作为时间信息,然后最后定格图片作为空间信息,感觉有搞头。