WOWWeb信息检索技术的探讨 |
|
本文作者:细沙先生 发布时间:2012-01-19 12:20 |
|
| 本文作者: 赵静, 张鸿业, ZHAO jing, ZHANG Hong-ye 科技情报开发与经济SCI-TECHINFORMATIONDEVELOPMENT&ECONOMY2010年第20卷第5期文章编号:10056033(2010)050105-05赵静,张鸿业(河海大学,江苏南京.210098)摘要:随着互联网技术的蓬勃发展,基于Web的信息成指数增长,如何在海量信息中获取自己真正需要的信息成为巨大挑战。因此。基于Web信息检索技术随之孕育产生。 详细介绍了基于文本的和基于图像的检索技术,并对几种传统的文本检索模型进行了对比,指出了它们各自研究的焦点。 关键词:Web信息检索技术文本检索技术文本检索模型图像检索技术中图分类号:G354文献标识码:A随着信息时代的到来,尤其是互联网技术的高速发展,网络中各种类型的Web网站数量成倍增长。这些Web信息形成了巨大的信息资源。 但是随之也出现了许多问题,例如,低价值信息和高价值信息混杂在一起。大量重复性信息il:现在不同网站中,大量不准确甚至是错误的、垃圾信息充斥在各个Web站点巾。因此.如何快速有效地提取出入们所需要的信息.成为当前迫切需要解决的问题。 在学术界.信息检索技术成为一门新兴学科,发展极为迅速。在产业界,当前各种信息搜索引擎也不断涌现,如百度、雅虎、Coogle等。Web信息资源大体可以分成两类:纯文本格式的信息和多媒体(网像、影视频)信息.本文主要探讨基于文本检索的原理和相关技术、基于图像检索的一些关键技术等。1基于文本的检索技术1.1基于文本检索的工作流程在海蜒的信息中获取真正需要的信息,顺序我认为不是正确搜索的响应时间将变得不可忍受。解决搜索响应时间的办法是对文本文档库巾的文本进行预处理.为文本文档库建立一种便于搜索的数据结构索引。基于索引的检索技术非常适用于大规模、稳定的或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都是基于索引的检索技术。基于索引的检索过程见图1。图l基于索引的检索技术(I)检索系统将所有的检索对象收集起来,构建集巾的本地文本文档库,例如,对于Web搜索引擎.其检索对象主要是Web网贞,因此搜索引擎需要从互联网上抓取尽可能多的网页保存到本地文本文档库中,一般这个过程由程序(网络爬虫)自动完成。(2)本地文本文档库构建完成之后.检索系统提取文本文档收稿日期:2010-0107库中文档的文本字符串.并进行文本预处理。文本提取过程主要是提取各种格式文档中的字符串。文本检索系统不仅面向互联网的Web网页,还面向各种文档类型。例如XML。 PDF.MicrosoftWord或者Excel等类型的文档。(3)提取fIj文本字符串后.还需对文本字符串进行预处理以选择合适的词来建立索引。对文本字符串的预处理包括分词(将文本巾包含的词分析出来)、停Hj同删除(删除冠阋、介词等)、词千提取、索引词的选择和建立词典等。(4)在有了文本预处理结果后。 需要建立文档的索引。 利用文档索引可以大大提高信息检索的速度。文档索引是一种便于用词检索的数据结构。(5)在建立文档索引后,就可以对文档库中文档进行检索。 用户提交查询后.检索系统将直接访问索引。由于索引是一个可以便于搜索的数据结构,检索系统可以通过索引快速获得与查询相关的文档集合。(6)在获取与查询相关的文档后,由排序系统评价相关文档与查询的相关程度并对其排序,最后返同给用户。 1.2文档索引的工作原理文档索引是一种便于用词检索的数据结构。常见的索引数据结构有3种:倒排文件【1】(invertedfile),后缀树【2J(suffixtree)和签名文件131(signaturefile)。倒排文件对词的搜索非常有效,在大多数应用巾比后缀树和签名文件的效果好,因此在文本检索巾应用最为广泛。我们以倒排文件为例来探讨文档索引的T作原理。倒排文件,或称倒排索引、倒排表.是一种索引数据结构.用来提高查询速度。倒排义件一般由词汇表和词jIj现情况两部分组成(见图2)。词汇表一般采用特咱们玩家殊的数据结构(Hash技术、trie树或B一树)存储来提高词的查询速度。对于词汇表中的每个词,在词汇}}现情况中都有一个列表来记录词在所有文本中的出现位置。基于倒排文件的搜索一般分为如下3个步骤:(1)词汇表查询:将用户提交的查询许f句分割成独立的闻,在词汇表巾查找这些词。(2)查找词出现情况:获取与查询串巾所有词相关的fJj现情况列表。(3)词ffj现情况的操作:主要是通过对上一步巾获取的词{l现情况列表的操作来实现短语查询、近似查询和布尔查询等。每当本地文档库发生添加和删除时.检索系统也必须对文档索引进行相应的维护。当本地文档库巾增加新的文档时.只需要对新义档建立一个倒排索引.并将新的倒排索弓l与原索引归105赵静,张鸿业本刊E-mail:hjh@sxlnfo.net信息工作研究词汇表,冬^三.叠二H一‘二≤~{l}÷_亡j=j.[=}(二卜C二)_现{÷一{{Fj÷c二-∑j.£_二争匕j.c=卜黾i童j}■。竺二一'£.一}一龟,念黼况记录lE■=’c)1巴三i一一一j并。 当删除一个文档时.就遍历整个索引,把与该文档相关的所有词出现情况全部删除.若某个词的}ll现情况已经删除至零。则将该词也从词表巾删除。1.3文本检索模型基于索引的搜索大大提高了大规模文本文档集的搜索速度.用户提交查询语句后可快速获得查询结果。然而用户在搜索信息时,由于Web资源十分庞大.返同的查询结果往往会包含上万条信息。而用户希望获得与其需求密切相关的搜索结果,并且越是与自己查询相关的信息越应该排存前面。 因此,需要衡量查询结果与用户所提交查询的相戈程度,进而对查询结果进行排序。查询结果的排序工作对任何一个信息检索系统来说,都是非常关键的。 而文本检索模型就是用来严格确定文本的表示方式、查询的表示方式以及查询与文本的匹配程度的。传统文档的文本检索模型有布尔模型、向馈空问模型和概率论模型等【4】,互联网中Web页面的文本检索模型有PagcRank模型等。1.3.1布尔模型布尔模型是文本检索系统巾使厢最普遍的模型㈨。在布尔模型中,一个文本用一个词的集合来表示,这些词主要是名词。 布尔模型认为一个词在一个义本中要么nj现要么不fl现,因此用以表示词的权重要么为1要么为0。查询南布尔逻辑操作符号(如AND.OR和NOT)和词组成的规范布尔表达式组成,例如“(书OR杂志)AND计算机AND网络”。 整个布尔模型的检索策略都是基于二值决策准则,在将查询与文本进行匹配时,布尔模型只是判断文本相关或不相关。布尔模型的优点是模型表达的形式化和简单性,而且计算的代价相对较少。易于实现。布尔模型的缺点也是屁然的。 一是不能够在文本和查询巾说明词的相对重要性,所有的词是同等看待的二是在布尔模型中很难将文本按照与查询串的相关性来排序,难以提高用户对检索结果的满意度。1.3.2向量空间模型(VectorSpaceModel.VSM)设本地文档库文本的集合为D={d。,d2dn},词的集合为7"--‰。t2k},VSM将义本磷表示为一个m维稀疏向量?d『=}如,如幻f.y=J,2.,l。这厅个m维稀疏向量组成一个词一文本矩阵D=(由)一,其中.dF为第i个词t,在文本画巾的权重。即阋l。在文本西巾的重要程度。目前,有多种词权重的计算方法,通常的词权重计算方法是萨渺加权策喇“,其巾,以termfrequency)表示某个词在某个文本中il{现的次数.洲inversedocument&equency)表示某个词的反向文本频率。 例如,考虑词£。106在文本码巾的权重:以1.弓)为词t.在文本弓巾fI现的次数M狐t,)=log(n/n.),即词£,的反向文本频率。其巾n为文本库巾文本的总数.为义本库中出现词t.的义本数。将矿和渺结合起来,定义词t.在文本面巾的权重为:分母为归一化网子,其巾t。∈d,表示词必须在文本西中}l现过,对于没有fl{现过的词。 其相应的权重直接设为0。由上式知,词在文本巾ffj现的次数越多,则权重越大如果}{:现该词的文本数越多.则表明该词对于文本库巾文本的区分能力相对较差,权重就越小。权重越大,则相应的词对于该文本来说越重要。查询向量与文本向量类似,只不过查询向量中的权重表示词对用户的重要程度.权重为1表示期望在文本中出现的词.而0表示不希望fIj现的词。例如,查询g用向量(gI,q:q-)表示。 则f0查询巾不包含词tl”Il查询巾包含词t。知道文本向量和查询向量后.就可以计算文本向量与查询向量之间的相似度,进而评价文本与查询的相关程度。有多种计算向量之问相似度的方法,一般JHj两个向量之间的夹角余弦值来计算:.、df·o“叭q,a1)=-啊邝丁孑T其中,4·q表示两个向量的点积,I磅f表示向量喀的模。由于每篇文本往往仅与某个主题有炎.文本只包含m个词中的一小部分,这样大多数的权重都为0。闪此,在实际存储文本向量时只将那些权重不为0的词与对应的权重存放在一起。这样在计算过程巾不需要太多的内存空间。向量空间模型的优点是可以对查询向量巾的闭赋予权重,从而改善检索的性能,并可以利用量化的相似度对检索结果进行排序。向量空间模型的主要缺点是假设词彼此之问是相互独立的,这种对词之问相关性的忽略,实际上会损害文本检索系统整体的性能。 1.3.3概率论模型概率论模型的基本准则是文本按照与查询的概率相关性大小排序,排在前面的文本是最有可能被获取的文本f7J。即如果文本满足如下公式则该文本被获取:p(rellOoc)>一p(NotrellDoc)其中.P(rellDoc)表示文本Doc与查询有关的条件概率,P(NotrellDoc)表示文本Doc与查询不相芙的条件概率。根据贝叶斯规则,上述公式可以改写成及甚鼻型篆另耥l所获取的文本可以利用上述公式的左端进行排序。 利川概率论模型的典型系统有Kwok【sJ与Robertson[卅等.它们在利Hj样本计箅词权重的过程中考虑了词在文档巾Ij现的频率.其中.Kwok系统还考虑了词在整个样本集合巾i{j现的频率。概率论模型的效果要明罹优于布尔模型,但比向量空间模型略差。I.3.4PageRank模型互联网上的Web网贞与一般的文档不同,网页之问的超链接构成了一个庞大的拓扑结构,常规文档的检索模型对网贞的排序效果并不理想。PageRank模型通过对互联网超链接拓扑结构进行挖掘以获取网贞的重要度,井把重妥度用于网贞排序。 赵静,张鸿业本刊E-maii:bjb@sxinfo.net信息工作研究Google在实践巾使用了Pagefank模型,并取得了非常好的效果.成为全世界被使Hj最广泛的搜索引擎。PageRank模型基于这样一个假设:如果从其他网页链接到一个网贞的数量越多,那么.这个网贞就越重要越是重要的网页链接到一个网贞,则这个网贞就越重要。在PageRank模型中,网贞的PageRank值由与它链接的网页的PageRank值决定。一个网贞的PageRank值越高.就可以认为它的重要度或者质量就越高,它在搜索结果中的排名就越靠前。网贞A的PageRank值计算公式如下:PR(A)=铲“(器+器+.·+帮)其巾,PR(A)为网贞A的PageRank值Ⅳ为网贞的总数兀,为指向A的网贞PR(Z)为网贞E的PageRank值C(TA为网页瓦指向其他网贞的链接总数d为阻尼系数,O 例如,搜索引擎巨头Google迅速跻身lT业龙头行列等。但是基于文本的检索技术只是信息检索技术的很小一部分.目前.图像、音频和视频等多媒体信息逐渐成为资讯情报的主流。下面我们将详细探讨基于图像的检索技术。2基于图像的检索技术近年来.随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊人的速度增长。这些数字图像巾包含了大量有.}fJ的信息。然而,由于这些图像是无序地分布在世界各地,图像巾包含的信息无法被有效地访问和利用。这就要求有一种能够快速而且准确地查找访问图像的技术,也就是所谓的图像检索技术。 自从20世纪70年代以来,在数据库系统和计算机视觉两大研究领域的共同推动下.图像检索技术已逐渐成为一个非常活跃的研究领域。 数据库和计算机视觉两大领域是从不同的角度来研究图像检索技术的.前者是基于文本的,而后者是基于视觉的。基于文本的图像检索技术(textbasedimageretrieval)就是将图像作为数据库中存储的一个对象,H{关键字或自由文本对其进行描述。查询操作是基于该罔像的文本描述进行精确匹配或概率匹配.有些系统的检索模型还有词典支持。然而.完全基于文本的图像检索技术在图像信息飞速增长的今天有着很大的缺陷:手T-标注不仅费时费力.且由于标注人员的主观性.使得标签的质量无法保证.也就是说,不同的人对同一幅图像有不同的理解方法.这种主观理解的差异将导致罔像检索巾的欠配错误【II.位)。20世纪90年代初期,随着大规模数字图像库的jI{现.上述的问题变得越来越尖锐。 为克服这些问题,基于内容的图像检索技术(contentbasedimageretrieval,CBIR)’应运而生。基于内容的图像检索系统将依赖图像的视觉特征(颜色、纹理、形状、空问位置等)进行检索。在过去的十几年中,已经开发出一些商业产品和实验原型系统,例如。QBICtt4J,Photobook(例,VirageL16J,VisualSEEKt盯】。 Netrat“J.SIMPLicity{o而EakinsJ等人将基于内容的图像检索划分为3种不同的层次【驯:基于视觉特征的网像检索、基于对象类型的图像检索、基于图像抽象属性的图像检索。后两个层次的检索常被称为基于语义的图像检索。YingLiua等人将第一层次与后两层次之间的“鸿沟”称为“语义鸿沟”【21J。2.1基于视觉特征的图像检索基于视觉特征的图像检索技术自动提取每幅罔像的视觉特征作为其索引.如色彩、纹理和形状等。查询将根据图像的视觉特征进行相似性计算。用户通过选择具有代表性的一幅或多幅例子图像来构造查询.然后,由系统查找与例子图像在视觉内容上比较相似的图像,按相似性大小排列返回给用户。 另外,基于视觉特征的图像检索系统一般通过可视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进检索结果。图3是基于视觉特征的图像检索系统的总体架构。系统的主要模块包括:图像分割模块、特征选择抽取模块、索引模块、特征向量索引库、用户界面、图像检索模块、相似性度量模块、相关反馈模块和显示模块。显示模块相戈反馈模块用户界面卜_叫图像检索模块卜_]王王一野匾了■痼’一圆懂护I、I相似性基于视觉特征的图像检索系统可以采用全局或局部的视觉特征进行相似性计算。全局的视觉特征不对图像进行分割,直接抽取整幅图像的视觉特征。局部的视觉特征则需要对图像进行分割.为下一步图像局部视觉特征的抽取做准备。对图像分割算法的研究已经有几十年的历史,至今借助各种理论已经提出了数以千计的分割算法,而且这方面的研究仍然在积极进行。目前已经提ff{的分割算法大都针对具体的问题。并没有一种适合于所有网像的通用分割箅法。实际上由于不同领域的图像T.差万别.也不太可能存在万能的通Hj算法。图像分割算法大体上可以分为基于特征空间分割法、基于图像域分割法、基于模糊理论的分割法以及基于特定理论工具的分割方法。在基于视觉特征的图像检索过程中,图像的相似性本质上就是图像视觉特征的相似性。虽然基于视觉特征的图像检索取得了一定的成果,但由于图像视觉特征与高层语义之间同有的“语义鸿沟”决定了仅仅从图像视觉特征这一方面着手的检索方式无法取得满意的结果.斟此人们提H了交互式的相关反馈技术。其中心思想是将人类理解的主观性融入图像检索过程。并且给用户以评价检索结果的机会.在崩户评估的基础上再进一步改进检索过程。近年来.这一研究主题已成为基于视觉特征的图像检索研究者所关注的焦点。基于视觉特征的网像检索技术已经经取得了长足的发展,迄今已有许多网像检索系统面世。例如IBM的QBIC系统是第一个商品化的图像检索系统,其系统框架与技术对后来的图像检107赵静,张鸿业本刊Email:bjb@sxinfo.net信息工作研究索系统有深远的影响。另外.还有MlT的媒体实验室开发的Photobook,它是一套交互式图像数据库浏览和查询工具。除此之外还有哥伦比亚大学开发的VisualSeek,Virage公司开发的Virage系统等。2.2基于对象类型的图像检索基于对象类型的网像检索查找图像巾所包含的特定类型的对象.通常需要对图像巾所描述的内容进行一定程度的逻辑推理。例如.“寻找双层巴士的图片”,首先要搞清楚对象是巴士。而不是卡车。 基于对象类型的图像检索的前提是图像库巾的网像都被标图4图像标注系统的工作原理注上了若干合适的语义标签。图像标注方式包括手下标注和自动标注两种。在手T标注方式中,每幅图像都需要人丁阅读,通过人工的评判对图像分组,并添加语义标注。人工标注方式不仅费时费力。且由于标注人员的主观性。 使得标签的质量无法保证。自动标注方式根据某种标注模型。由计算机自动地阅读并标注图像。其优点是速度快,代价低,可以实现图像标注的自动化.适合于软件集成。因此.要实现基于对象类型的图像检索首先需要解决图像的自动标注技术。图像标注系统的T作原理见图4。(1)图像分割。图像分割是将图像分成一组同质区域或对象,然后针对每个同质Ⅸ域或对象抽取图像的视觉特征。在有些标注系统中,不包括图像分割。(2)特征抽取。抽取图像的全局或局部的视觉特征,采用具有较强识别能力的特征集描述罔像。(3)图像标注。 采朋某种标注模型和学习算法建立图像的视觉特征和标注内容之问的联系。自动图像标注的关键在于建立视觉特征与关键词之间的关联,这可以被看作一个标准的多类分类问题。假设有一组训练图像,每幅训练图像都标有表达图像语义内容的关键词,首先抽取训练图像的视觉特征然后根据视觉特征构建并训练分类器最后,将训练好的分类器对新侉1像分类,自动地给没有标签的图像进行标注。凶此。自动图像标注的性能主要取决于图像视觉特征的抽取和分类器的构建。 图像自动标注技术是多种学科、多种技术的交叉结合,包含了计算机、图像处理、机器学习、计算机通信、数据库管理等技术的研究与应用。它同时涉及多个领域,如.多媒体(Multimedia,MM)、信息检索(InformationRetrieval,IR)、人机交互(HumanComputerInteraction,HCI)、语言处理(LanguageProcessing,LN)、人丁智能(ArtificialIntelligence,AI)、计算机视觉(ComputerVision。CV)等领域。自动图像标注一般都是借助机器学习技术。在图像视觉特征和图像语义内容之间建立关联。标注系统根据这种关联来构建分类器,计算和度量新图像与各个类别图像之间的相似性。然后将新罔像归类于相似性最高的类别中,冈此如何构建多类分类器成为自动图像标注的荚键。当前构建多类分类器的主要手段包括语义模板、统计模型、人丁神经网络、k一最邻近、决策树和支持向量机以及集成学习等机器学习方法。许多大学、研究机构都开展了网像标注技术的研究,并且开发了一些网像标注系统。 ALIP(AutomaticLinguisticIndexingofPictures)系统是斯坦褊大学的Wang等研制的、最早的图像标注系统之一。在对新图像进行标注时,该系统通过计箅新图像属于每个图像类别的概率.从而实现对新冈像的自动标注。纽约大学108的Show&'Fell系统是一个利用Ⅸ域分割对整幅图像进行自动标注的系统。该系统使Hj物体之I'HJ的空间位置关系和目标识别技术来建立高层语义和视觉特衙的联系.主要用于分析地网。尽管目前已经现了一些图像标注系统.并逐步走上实厢阶段。但总的来说,图像标注系统还完全没有成熟,绝大部分系统只是针对特定的领域。当用于非特定领域时,其性能并不令人满意。2.3基于抽象属性的图像检索基于图像抽象属性的网像检索涉及对图片的整体理解,根据图像巾的对象和情景抽象ff{图像作者所要表达的是一种什么样的情感,闲此需要有关的复合知识、复杂的推理,把罔像的内容和抽象的概念描述联系起来.具有一定的抽象概括能力。例如.查询“快乐的人群”。检索系统很难推理ff{哪些人物冈片是符合“快乐”要求的。目前基于图像抽象属性的图像检索的研究工作还很少见到旧】。目前的研究工作和系统大多集巾在第二层次。即基于对象类型的图像检索。 3结语评价一个检索系统优劣的通用指标主要有查准率、查全率以及响应时间等。 假设查询得到的相关文本或图像数目为o,查询得到的泵相关的文本或闭像数日为b,而在整个Web资源库中与查询相关的但没有返同给用户的文本或图像数目为c,这样查全牢和查准率可以表示为:查全率Rcal-l=a/(a+c)查准率Precision--.a/(叶6)。 查全率和盒准率越高且响应时间越短则表明该检索系统性能越好。总之。新一代的Web信息检索系统应该朝着搜索速度更快、精度更高并且能够满足用户的个性化需求的方向发展。这就需要我们在自然语言处理、数据挖掘和机器学习等方面有所突破,并将这些技术充分地应用到信息检索巾去,从而使人们更好地感受到Web信息的便利。 参考文献[1]HarmanD,FoxE,BaezaYatesR,eta1.Informationretrieval:algorithmsanddatastructures[M].EnglewoodCliffs:Prenticehall.1992:2843.[2]BaezaYR.NavarroG.Blockaddressingindicesforapproximatetextretrieval[M]//Proceedingsofthe6thCIKMConference.LasVegas:Nevada,1997:1-8.[3]RichrdoBY,BerthierRN.Moderninformationretrieval[M].AddisonWesley:LongmanLimited.1999.[4]徐宝文,张卫丰.搜索引擎与信息获取技术[M].北京:清华大学出版社,2003.[5]ChangCC。 HectorGM,PaepekeA.Booleanquerymapping配rossheterogeneousinformationsources【JJ.IEEETransactionsonKnowledgeandDataEngineering,1996,8(4):515521.[63SahonG,SahonC.Term-weightingapproachesinautomatictextretrieval[j].In£Process.Manage。 1988,24(5):513523.【7JRobertsonSE,SparekJonesK.Relevanceweightingofsearchterms[J].JournaloftheAmericanSocietyforInformationScience,1976。27(3):129146.[8]KwokKLExperimentswithacomponenttheoryofprobabilistieinformationretrievalbasedonsingletermsasdocumentcomponents[J].ACM79ransactionsInformationSystem.1990,8(4):363386.[9]RobertsonSE。 WalkerS,BeaulieuMM.eta1.OkapiatTREC-4M}//Proceedingsofthethe4th’FextRetrievalConfefence.鸯剪回习固甲~亭蓦赵静,张鸿业本刊E-mail:bjb@sxinfo.net信息工作研究Gaithersburg:MD.1996.[10]PageL.BrinS。MotwaniR。eta1.,nIepagerankcitationranking:bringingordertotheweb.StanfordDigitalLibraryTechnologiesPmject[EB/OL].(199807.01).http://www-diglib.stanford.edu/diglib/index.html.[11]EakinsJ,GrahamM.Contentbasedimageretrieval[R].Newcastle:UniversityofNoahumbfiaatNewcastle,1999.[12]SethiJK,ComanIL.Miningassociationrulesbetweenlow-levelimagefeaturesandhi【gh-levelconcepts[J].ProceedingsoftheSPIEDataMiningandKnowledgeDiscovery,2001(3):279-290.【l3]SmeuldersA.WorringM.SantiniS.Contentbasedimageretrievalattheendoftheearlyyears【J].IEEE’FransactionsonPatternAnalysisandMachineIntelligence。2000(22):l349一l380.[14]FaloutsosC.BarberR.bqicknerM,eta1.Efficientandeffectivequeuingbyimagecontent[J].J.Intell.Inf.Syst.,1994,3(34):231-262.[15]PentlandA,HeardRW,SearoffS.Photobeok:contentbasedmanipulationforimagedatabases[J].Int.J.Comput.Vision,1996,18(3):233254.[16]GuptaA,JainR.Visualinformationretrieval[J].CommunACM,1997,40(5):7079.[17]SmithJR,ChangSF.VisualSeek:afullyautomaticcontent-basedquerysystem[G]ProceedingsoftheFourthACMInternationalConferenceonMuhimedia.Boston.MA:ACMPress.1996:87-98.¨8JMaWY,ManjunathB.Netra:atoolboxfornavigatinglargeimagedatabases[G]//ProceedingsoftheIEEEInternationalConferenceonImageProcessing.SantaBarbara,CA:IEEESignalProcessingSociety,1997.568-571.[19]WangJz,uJ。WiederholdG.SIMPLicity:semanticssensitiveintegratedmatchingforpicturelibraries[JJ.IEEE’l'rans.PatternAnat.Mach.Intefi.200l。 23(9):947963.[20]EakinsJ,GrahamM.Contentbasedimageretrieval[R].Neweastle:UniversityofNorthumbriaatNewcastle.1999.[21]YingLiua.DengshengZhang,GuojunLu,eta1.Asurveyofcontentbasedimageretrievalwithhighlevelsemantics[JJ.PatternRecognition,2007,40:262-282.[22]HaroldOA,QadirMA,lftikharN,eta1.GenericmultimediadatabasearchitecturebaseduponsemanticIibraries[J].1nformatica,2007.18(4):483510.(责任编辑:郑光)第一作者简介:赵静。 女.1983年9月生,现为河海大学2008级硕十研究生,江苏省南京市鼓楼I)(两康路1号河海大学档案馆,210098.TheDiscussiononWebInformationRetrievalZHA最新传奇Ojing,ZHANGHongyeABSTRACT:WiththerapiddevelopmentofInternet.thevolumeoftheInformationbasedonWebincreasesexponentially.Howtoretrievetheinformationinrealneedofpeoplebecomesahugechallenge.SotheWeb-basedInformationRetrievaltechnologiescomeout.ThispaperdiscussestextbasedRetrievalandImagebasedRetrieval.inthepartoftextbasedretrieval.describestheworkflowoftextretrievalbasedontheindexandalsopresentssometraditiona传奇文章linformationretrievalmodels,andinthepartofimagebasedretrieval。discussestheretrievalbasedonthecontentatthreedifferentlevels.andpointsoutfocusoftheirownresearch.KEYWoRDS:WebInformationretrievaltextbasedretrievalinformationretrievalmodelimagebasedretrieval(上接第98页)多少读者。如何迅速地满足读者对图书的一切要求。随书光盘管理的目的就是让有限的资源达到最大的利用率。从而充分地实现资源共享。对于渎者来讲。不仅节约时问.而且方便使朋。对于图书馆来讲.只利埔一台服务器存储数据,就可以服务全社会。不仅大大节省了人力、物力和财力.而且也促进了图书馆整体T作水平的提高,同时随书光盘的管理也加速了图书馆的数字化建设,为图书馆的进一步发展奠定坚实的基础。参考文献[1]张丽娟,冀军,黄闽.关于图书馆附件著录格式的一点思考[J].现代情报,2002(7):1-2.[2]全勤.论光盘的著录[J].图书情报T作,1999(2):1.[3]吴菁.随书光盘数据网上检索服务系统的研究与实现[J].图书馆T作与研究,2004(2):5759.[4]夏文秀.随书光盘的上网管理及应用实践[J].图书馆学刊,2005(2):1-2.(责任编辑:邱娅男)第一作者简介:盖奇文.男,1974年9月生,1996年毕业于抚顺石油学院丁业自动化专业大家,馆员.抚顺市图书馆技术部.辽宁省抚顺市。 l13006.ProbeintotheTreatmentoftheBookswithAttachmentsGAIQi-wenABSTRACT:Thispaperbrieflyintroducesthefeaturesofthebookswithattachmentsinthelibrary,andprobesintothetr新开传奇eatmentofthebookswithCDandthecopyrightproblemofonlinemanagementofCDattachedwithbooks.KEYWORDS:bookswithCDscirculationmanagementonlinemanagement109。 本文《Web信息检索技术的探讨》 --- 作者: 赵静, 张鸿业, ZHAO jing, ZHANG Hong-ye |
|
| 上一篇:爱因斯坦的物理教育思想 | 下一篇:VB实验教学一例 |