广播音视频分析与编目中的关键技术研究
文献类型:学位论文
作者 | 曾智![]() |
学位类别 | 工学博士 |
答辩日期 | 2009-05-31 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院自动化研究所 |
导师 | 张树武 |
关键词 | 视频检索 视频编目 视频分类 视频分割 视频结构分析 音频文档分类 概率潜在语义模型 新闻条目分割 播音员镜头检测 新闻标题字幕检测 video retrieval video cataloging video genre classification video segmentation video structure analysis audio document categorization pLSA news story segmentation anchor shot detection topic caption detection |
其他题名 | Research on Key Techniques of Analysis and Cataloging for Broadcast Audios/Videos |
学位专业 | 模式识别与智能系统 |
中文摘要 | 随着计算机技术、多媒体技术以及通讯技术的飞速发展,以及各种压缩技术和大容量存储技术的不断出现,以图像、声音和视频为主要内容的多媒体信息迅速成为信息交流与服务的主流,互联网上的信息类型也逐步从单一的文本方式转变为以图像、动画、视频等多媒体信息为主的表现方式。如何有效的管理和利用如此庞大的多媒体数据资源,以及从这些庞大的多媒体数据中快速找到用户需要的数据和资源,是当今多媒体技术研究中需要重点解决的问题。 视频是集图像、声音、文本于一体的综合性多媒体信息,具有数据量大,信息丰富,且非结构化的特点,而广播视频是一种传播给用户的经过加工、编辑的视频形式,是人们生活、休闲、娱乐、信息和社会生活的重要组成部分。为了有效的组织和管理广播视频数据,为基于内容的视频检索及视频点播提供前提和基础,需要对广播视频进行编目。根据实际需求,本文对视频结构分析与自动编目分类技术进行了较深入的分析和研究。论文的工作主要表现在以下几个方面: (1) 广播视频中有大量的音频信息,为了将这些音频信息用于广播视频的结构分析及编目,本文首先提出了一种基于概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型的音频文档分类算法。该算法使用改进的PLSA模型对每一类音频文档进行建模,使用建立的模型来提取音频文档的特征,实现音频文档的自动分类。同时,为了加强模型的区分性能,本文结合自适应贝叶斯潜在语义分析(Adaptive Bayesian Latent Semantic Analysis)的增量学习思想,提出该模型的一种迭代参数估计算法。使用该参数估计算法进行训练,能够使模型得到更好的分类性能。本文提出的音频文档分类算法能够对各种音频文档进行分类,在实验中,我们将其用于音乐流派分类,实验结果证明了该算法的有效性。 (2) 本文回顾了各种基于音频特征,视觉特征,文本特征以及多种特征融合的视频分类算法,并对其优缺点进行的分析。针对广播视频编目的需求,本文结合上文所提出的音频文档分类算法,提出了一种基于音频特征的广播视频节目分类算法。实验表明,该算法能很好地区分新闻、电视剧、篮球赛、谈话类栏目、综艺类栏目、音乐电视、戏曲以及电视教学八类广播电视节目,在自建的测试视频集上,达到94.1%的分类准确率。 (3) 从广播视频本身的结构和制作特点出发,本文提出了一种广播视频编目的框架。在此框架下,使用视频重复段检测技术检测视频中的非节目内容(广告、片花等),并且结合一个保存已知非节目内容的数据库,将广播视频以节目为单位进行分割;对分割后的节目,利用节目分类算法获得其节目类别信息;最终得到广播视频的节目级结构和编目信息。实验结果表明,该编目框架非常有效。 (4) 新闻视频作为广播视频中最为常见的节目类型之一,本文对其进行了针对性的研究。本文提出了一套非监督的新闻条目精细编目方案。该方案利用提出的播音员镜头检测和新闻标题字幕检测算法,结合音频端点及镜头边界检测,自动获取新闻条目之间的边界,并通过对检测出来的新闻标题字幕进行自动识别,获得每个新闻条目的标题信息,最终实现新闻... |
英文摘要 | Due to the rapid development in various areas of computer infrastructure such as increased processing power, bigger and less expensive capacity of storage devices, and faster networks, the amount of multimedia data has grown enormously in recent years. How to effectively manage and use of these massive multimedia data, and how to effectively and quickly find the useful multimedia data for users is the key problems in multimedia processing and retrieval. Video is a most popular kind of multimedia and it is information rich and unstructed. Broadcast video is a kind of edited video which is transmitted to an audience. It is an important part of our lives, leisure, entertainment, information and social life. In this thesis, we study the structure analysis and content catalogue for broadcast video. The main work and contributions of this thesis are listed as follows: (1) A novel approach to automatic categorize general audio documents into various categories by using Probabilistic Latent Semantic Analysis (PLSA) model is presented. In this approach, PLSA is used to model the categories of audio documents and a proposed iterative Bayesian incremental learning procedure is utilized to make the models more discriminative. This procedure is based on adaptive Bayesian latent semantic analysis. Our experiments on musical genre classification demonstrate the efficiency of our approach for content-based audio document categorization. (2) We review and analyze the existing methods of automatic video classification, which are text-based, audio-based, visual-based and combination methods, and an audio-based broadcast video program classification algorithm is proposed, which is based on the proposed automatic audio document categorization algorithm. Experiment results show that our algorithm can calssify video into one of eight classes: news, teleplay, basketball, talkshow, variety show, music, traditional Chinese opera, or education. (3) From the structure and production characteristics of broadcast video, we propose a framework of broadcast video cataloging in program level. In this framework, we first detect repeated video sequences in broadcast video by a proposed algorithm and treat them as non-program contents. Then, the detected non-program contents and a database which preserved video clips of non-program contents are used to segment the broadcast video into several programs. The proposed video genre classification algorithm is utilized to categorize the detect... |
语种 | 中文 |
其他标识符 | 200618014628053 |
源URL | [http://ir.ia.ac.cn/handle/173211/6204] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 曾智. 广播音视频分析与编目中的关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2009. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。