一种形式与内容相结合的多媒体分类方法研究与实现

时间:2023-06-20 10:54:02 公文范文 来源:网友投稿

摘 要:侧重多媒体资源分类标引方面的探讨,分析了当前多媒体分类、检索技术研究状况及实施难度,给出一种可以更充分反映出多媒体新学科与传统学科之间的联系、注重多媒体资源的主题内容与中图法分类的关联,同时也兼顾多媒体的外在形式的分类方法。

关键词:多媒体;著录;分类

中图分类号:G255.72 文献标志码:A 文章编号:1673-291X(2016)23-0142-02

引言

自20世纪90年代开始,出现了一种先进的超文本检索——WWW。超文本是一种信息的组织方法,它把包括文字、图像、音频、视频等各种不定长的基本信息单元存放在各个结点上,通过复杂的链路联系在一起,得以检索出内容更广泛的各种信息。这种包含听觉、视觉等多种元素的图文并茂、声像并举的各种媒体的总和产生了多媒体概念[1]。多媒体在图书馆现代化建设中越来越显示出它的巨大作用。因此,如何能够更有效地组织起多媒体文件与检索特征词特别是分类法之间的内在关联,以方便广大读者检索利用,成为当前图书馆及计算机学术界的重要课题。

一、当前多媒体分类检索方法概述

(一)传统非纸本资源的著录标引分类状况及其局限

传统图书馆经历电子化时代后也收藏了很多非纸本资源,包括音像资料、缩微资料、机读资料等,因其类型繁多、内容复杂,根据不同标准有多种不同的划分结果[2]。这些语音资料、图像资料或其综合体给我们的传统图书分类方法造成了一定的麻烦。现在各高校图书馆的传统非纸本资源的著录标引有多种方法,但都有其共同特点:一是都采用CNMARC/USMARC格式,需要专业图书著录人员录入;二是都依赖于纸本图书数据库发布及检索,难于体现多媒体标识的特殊性;三是字段烦琐,人工著录的工作量很大。缺点也是显而易见的,它很难包含网络获得的种类繁多的多媒体资源,不能充分直观地反映多媒体资源的特征与类型,在分类标引上也单一化,组织及检索存在较大的难度。

目前,Internet网上的多媒体资源分类方法多种多样,有根据音视频的艺术形式、创作题材或压缩方式来进行分类的,如将电影资源分为纪录片、言情片、战争片、恐怖片、灾难片,喜剧片等;有将音频资源分为MIDI、MP3等的。这些分类方法也有明显缺陷,经常互相包含甚至存在矛盾。如只从电影资源方面看,在纪录片中也存在战争题材或表示自然或人为灾难的。而且无法反映多媒体资源的多样性,但也可以作为借鉴参考。

(二)当前多媒体资源的分类、检索技术研究状况及实施难度

当前,在多媒体资源分类、检索方面的前端研究课题有两个方向:一是基于元数据的多媒体信息分类检索,代表是DublinCore元素;二是基于内容的多媒体信息分类检索,代表是MPEG7标准接口。这两种分类检索技术的侧重点不同,前者的主要目的是方便电子文献的著录;后者主要是对多媒体内容描述的步骤定义一系列的方法和工具,起到检索标准接口、方便计算机自动分类检索的目的[3]。

与MARC相比,Dublin Core有结构简单、字段较少等优点,但也有一定缺陷,即在大型数据库建设中,通过限定词进行数据标引以加以区分,容易造成非经过特殊培训的专业人员不易掌握的缺陷。区分过粗就影响数据的使用效率,区分过细又著录复杂,形同MARK著录方式。但是,随着对DC的研究发展,从图书馆的电子文献组织分类方面来说,DC还将是一个发展方向,应用前景不容置疑[4]。

MPEG7是MPEG(运动图像专家组)的新一代多媒体标准。因为MPEG-7标准本身不提供对描述特征的自动提取机制,现在还没有一个真正与之配合的科学实用的检索系统出现,还只处于研究阶段,是多媒体检索界的重大课题。

通过对以上两种多媒体分类检索前沿技术发展的概括,我们可以发现在大多数图书馆的现有软硬件环境下,这两种方式都存在要求过高、很难实现的共同特点。

二、在现有软硬件环境下建设多媒体资源

针对高校图书馆的具体现状和软硬件现有配置,在不需增添设备、不需另行研究开发高端技术、不需增加大量劳动量的基础上,因地制宜地建设一个结合本馆实际的多媒体资源数据库及方便快捷的检索系统,应该是我们当前的主要实现目标。综合大量研究实践,笔者认为应该侧重以下三个方面。

1.充分利用现有资源及技术。现有资源包括平时上网浏览积累的多媒体素材、开设某专题特意寻找的多媒体资料、经过数字化转换的本馆传统电子介质资源等。现有技术则指本馆原有网络设备软硬件、网络常用多媒体压缩处理及转换软件、具有普适性的网络数据库技术、网络多媒体传输技术等。

2.在多媒体分类标引方面,坚持分类标准,兼顾多样。采用国内最通用的中国图书馆分类法第四版作为分类标准,具有科学性、连续性、前瞻性、预见性的特点。同时,为了充分反映多媒体新学科与传统学科的联系,要注重多媒体资源的主题内容与中图法各类的关联,也要兼顾多媒体的外在形式,创建出一种同时具备两种分类标准的分类检索方式。

3.在多媒体数据库及检索方面,设计一个不直接依赖于MARC字段式著录方式的简单明了的录入窗口程序有其必要性,而且使其成为能够脱离图书馆广泛应用的基于CNMARC/USMARC的纸本图书数据库的自动化系统,采用单独特殊的数据库,利用现有的图书馆数字化平台建设一个多媒体数据库检索系统。

三、探讨一种形式与内容相结合的分类标引

通过对几种当前多媒体资源的分类、检索技术研究状况比较研究,笔者认为,在现阶段来说,还是目前仍广泛应用于图书馆方面的基于文本的多媒体信息检索最直接、最简单、最实用。为了尽量避免它的缺陷,借鉴DC元数据的结构简单、字段少的发展方向,应采用以最少最必要的字段来揭示尽可能多的多媒体内容特征的方法进行著录。

而在分类方面,针对图书馆应用的特点,采用国内最通用的“中图法”对图片、音频、视频进行分类标引有其必要性。再结合互联网上普遍采用的对多媒体文件的类别划分,得出内容与形式相结合的分类方法。因此,可以同时采用两种分类并存并互为补充的方式进行分类标引,分别为按形式分类和按内容分类。以按内容分类为主,体现多媒体源文件的题材内涵;以形式分类为辅,体现多媒体文件的表像区别。

例如,在形式分类上为军事题材的故事片,因其表现的是二次世界大战的历史,在内容分类上就将分在历史类。推而广之,这样就能很好地解决科技类多媒体文献的分类标引,如一部描写环境生态保护方面的记录片,按形式分类为艺术类的记录片,按内容分类即为环境保护类。再举一个图像的例子。一张毛泽东在1949年开国大典上的照片,在形式上将归到艺术大类的新闻摄影小类当中,而从内容上分类则是马列主义毛泽东思想大类中的毛泽东生平小类。

这样同时保留两种分类方法,让读者可以根据自己的需要,除了利用题名、关键词等检索方法外,还可以通过不同的两种分类类别检索到自己所需的多媒体资源。

例如,在视频及音频库著录字段方面,“名称”、“关键词”、“主题词”、“简介”、“作者”、“来源”、“大小”、“出版日期”等为必备字段。而图像库字段与音视频库略有不同,要增加“图像属性”、“DPI”、“尺寸”三个字段,以突出图像方面的特殊属性。在此基础上,在所有多媒体资源的著录字段中添加“按内容分类”与“按形式分类”两个新字段,利用不同的树型结构或检索提示展示中图法类别,能够极大方便读者检索利用。

四、实现多媒体数据库统一检索的方法途径

因为音频、视频、图像等媒体类型有着不同的区别,可以采用分别建立不同的数据库的方法建立多个不同结构模板的数据库,然后采用统一的跨库检索(即同一服务器上的不同数据库组织在一起检索)技术来实现多媒体数据库的统一检索,从而实现构建包含不同多媒体文件的整体性多媒体网络数据库。比如,在一个多媒体建设平台上分别建立音频库、视频库、图像库,然后在三种不同的数据库的基础上建立跨库统一检索界面,读者可以通过传统的题名、关键词、著者等检索途径进行检索。同时,统一采用中图法分类导航,并设定为“按内容分类”、“按形式分类”两种分类方式,以便更快速更全面地展示出各种媒体库的相关资源信息。

因为多数图书馆都已购买或自建了数字图书馆建设平台,所以,只要将其稍加变化或二次开发就可实现这种按形式分类与按内容分类的不同分类方法并存互为补充的分类检索方式。

结语

在信息化的网络时代,多媒体技术在高校图书馆工作中已经处于越来越重要的地位。为了节省人力物力,在不侵犯著作版权的前提下,应该充分利用现有的网络资源及网络技术优势来打造自己的多媒体资源数据库及检索平台,同时研究出最充分反映多媒体形式与内容本质特征的分类标引方法。这样才能因陋就简、因地制宜地建设好具有自己本校特色的多媒体网络数据库。同时,要放眼未来,注意可以扩展升级到尖端新技术方面的兼容性,为将来移植到如Dublin Core标准的新型数据库打好基础。

参考文献:

[1] 范建凤.多媒体技术与图书馆信息服务[J].现代情报,2002,(6):142-145.

[2] 刘新周.非书资料管理研究[J].农业网络信息,2007,(4):74-76.

[3] 杜明辉.MPEG-7 的现状和发展[J].山西电子技术,2005,(3):42-44.

[4] 周建清.MARC与DC元数据对比研究[J].中国科技信息,2006,(8):7-8.

【责任编辑 安 琪】

推荐访问:相结合 形式 多媒体 方法 内容