上海市智能信息处理重点实验室 Shanghai Key Laboratory of Intelligent Information Processing

复旦大学 | 计算机科学与工程系
简介 | 宗旨 | 研究内容 | 管理架构
知识科学 | 文本处理 | 算法分析与设计 | 并行编译 | 自然语言理解、语义网 | 认知科学 | 网格计算 | 量子计算 | 图像识别、机器学习、人工生命 | 生物信息学
学术委员会 | 行政领导 | 室务委员会 | 科研队伍
学术会议 | 学术报告 | 学术交流 | 最新成果
开放课题管理办法 | 开放课题申请指南 | 开放课题申请表 | 开放课题年度报告 | 课题资助列表
基于Web的语言驱动足球赛 | 皮影数字动画 | 分形城 | 基因数据仓库
small logo

视频流处理和检索技术概述

薛向阳 杨娜

在当今网络技术高速发展、各种媒体信息大量涌现的背景下,为了实现对多媒体信息的高效访问,多媒体信息处理和检索工具的研制成为当务之急。视频实际上是集图像序列、图像、文字等为一体的、被人们广泛使用的一种综合性媒体,视频信息处理和检索已成为当前研究热点。

视频是在时间上连续的一系列图像帧的集合,是一种没有结构的图像流。我们可以把视频看作一本没有目录和索引的书,那么一幅图像帧就相当于书中的一页。由于视频这部书缺乏目录和索引信息,人们就无法对它进行高效浏览和检索,无法快速阅读。为寻找感兴趣的视频片段,人们只能采取“快进”和“快倒”这种耗时的阅读方式线性浏览。

随着数字视频数据量迅速增加,传统的“线性”浏览方式已远不能满足人们对视频内容的访问和查询需求。用惯了文本搜索引擎的用户越来越希望能在海量视频库中快速找到自己感兴趣的视频片段,因此就需要为视频建立有效的目录结构,以方便查找。一般来说,按照视频内容粒度可以把视频分为多个层次,从高到低依次为:节目、场景(故事)、镜头组、镜头和关键帧。

镜头是指摄像机从打开到关闭的过程中记录下来的一组连续图像帧。镜头边界是客观存在的,可以采用一定的方法自动检测镜头边界。在实际应用中,用户浏览一个镜头中所有图像帧是非常耗时的,因此常用关键帧技术实现快速浏览。关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧或构造一个关键帧。为了在语义层建立视频结构模型,需要对视频进行场景划分。场景定义为语义上相关、时间上相邻的一组镜头,它们能够表达视频的高层次概念或故事等。镜头是组成视频的基本物理单位,而场景(又称故事)则是视频在语义层的单位,通常只有场景才能向观看者传达相对完整的语义。镜头组是一组在时间上相邻并在内容上相似的一组镜头,它是界于镜头和场景之间的一组连续的物理实体,是联系镜头和场景的桥梁。节目则是由时间上有序的场景组成,例如新闻节目、娱乐节目、体育节目、天气预报等。

基于上述的视频内容的结构化分析框架,自动镜头边界检测和关键帧提取技术的研究是视频内容分析中的重要研究课题,也是场景构造的基础。在镜头边界检测之后,就要提取相应的关键帧。提取关键帧的方法有很多,最简单的方法是提取每个镜头的第一帧和最后一帧作为关键帧。更好的方法是根据镜头的视觉内容和运动提取关键帧,甚至可以用拼接方法生成一个全景图作为关键帧。

一旦镜头和关键帧提取出来后,一种简单且直观的方法就是用关键帧的顺序排列来表示或展现视频内容。用户可以通过浏览关键帧序列来了解视频内容,并可根据自己感兴趣的关键帧来选择性播放或下载视频片段。当视频长度较短且内容简单时,少量的关键帧就可以较好地表示整段视频;然而当镜头和关键帧数量巨大时,这种方法对用户检索和浏览来说仍是困难的和繁琐的。例如,一部故事片可能包含数千个镜头和更多的关键帧,如果仅用这些关键帧序列来表示节目内容是没有意义的,因为人们更关心的是故事情节而不是镜头和关键帧。为了使用户更好地访问视频数据库,人们提出了视频摘要技术。顾名思义,视频摘要是对视频内容的高度概括,是视频中最重要、最精彩的总结。如何为视频构造良好的摘要是视频处理和检索中的另一个重要研究课题。目前,对视频摘要的研究主要集中在场景分割上,人们试图通过对视频场景的分析来实现视频摘要。

在视频流的层次性结构建立后,就可以对视频内容进行快速浏览和检索了。在视频浏览中,用户可以通过对视频摘要的浏览来确定是否观看某段视频,并可直接定位到感兴趣的关键帧,从而免去“快进”和“快倒”的烦恼。除了方便浏览外,还应为用户提供高效检索手段。通过检索,用户可以快速查找到自己感兴趣的视频内容。实现检索的关键是为视频内容建立有效索引结构,其中视频片段、关键帧、关键词、目录结构、特定对象(例如人脸、汽车等)、叠加字符、伴音和特定运动等都是建立索引的重要内容。建好索引的视频数据库相当于一个层次式的语义网络,用户可以根据需要采用多种不同的方式提出查询请求,实现多模态的人机查询界面。

视频信息处理和检索技术具有非常广阔的应用前景,目前世界上很多著名的研究机构在研究视频信息检索技术及其应用,并开发了一些原型系统,如UIUC的MARS系统、IBM的CueVideo系统、Microsoft的新闻视频浏览系统、Columbia大学的VideoQ系统以及CMU的IDVLS系统等等。

视频信息处理和检索是一个内容非常广泛的、交叉性很强的研究领域,涉及到多方面关键技术。一个高效的视频处理和检索系统需要由各个处理模块的相互配合,而其中每一个模块的实现都是一项细致的、复杂的工程。从目前的研究来看,要实现真正实用的视频处理和检索系统,还需要做很多工作。相信随着网络技术和多媒体技术的发展,在研究人员的共同努力下,视频处理和检索技术的研究将跨上一个新的台阶。

Copyright © 2002-2006 上海市智能信息处理重点实验室 版权所有

地址:上海邯郸路220号 电话:+8621-65654549 传真:+8621-65654253 Email: Webmaster