开放目录及其优化研究|凸优化是什么

发布时间:2020-03-07 来源: 感悟爱情 点击:

  [摘要]介绍开放目录的发展概况,分析开放目录的特点,结合作者构建开放目录系统的实践,论述开放目录优化的几个方面:信息资源开发由众智向群智优化、信息资源组织向深层次优化、信息资源描述由单一模板向多模板优化、数据开放利用由精英模式向大众模式优化、开放目录从综合性向专题性优化。
  [关键词]开放目录 网络信息组织 web2.0
  [分类号]G302
  
  1 引言
  
  开放目录是基于志愿编辑人员来审核挑选网站,并依照网站的性质及内容来分门别类,通过网民协同工作来构建庞大的网络信息资源导引库。最早的开放目录网站是1998年6月创建的http://www.省略,后被网景收购并将系统命名为ODP(Open Directory Pro-ject,http://www.省略/),它的成功使得“ODP”成为开放目录的代名词,现在一般习惯称其为Dmoz,以区分其它的开放目录项目;另一个有名的开放目录是2001年创建的Musicmoz(http://省略/)。Dmoz是综合性的,而Musicmoz是专题性的,专门针对互联网上的音乐信息资源进行组织,走垂直化发展道路。在国内,2000年9月网易公司推出了开放式目录管理系统,后来该公益平台受商业化影响,最终于2006年关闭。
  开放目录与图书情报领域开展的学科信息门户建设相似,均是基于人工标引,注重质量,且提供基于学科或主题体系的浏览和检索服务。总体而言,学科信息门户是依托图书情报单位进行的网络信息资源开发模式,由于构建者和管理者的目的不同,受益对象不同,其可持续发展及壮大都会受到多方面的限制,如:项目终结、领导与政策变化、工作人员变更、人力资源不足和推广程度低等。随着web2.0技术的应用和web2.0思想的传播,学科信息门户这种以建设单位自我为中心的网络信息资源开发模式表现出局限性,不利于其可持续发展。而开放目录最根本的特点是其可持续发展的指导思想――“网聚人力”。开放目录的这种思想应用了分布式的网络技术特点,充分发掘网络人力资源,通过构建一个完全开放、网民共建、网络共享的开放目录系统来实现其持续发展。开放目录契合了Web2.0时代以用户为中心、强调用户参与的信息服务理念及信息服务模式。本文根据构建“学术信息资源开放目录”的实践,研究开放目录的特点,分析传统开放目录的局限性,研究适合于当前网络信息环境的开放目录优化策略。
  
  2 开放目录的特点
  
  2.1公平编辑原则与公益性
  目前,没有一家搜索引擎承诺不会因为商业目的而改变搜索结果和网站收录规则,相对于这些充斥着竞价排名、商业广告的搜索引擎,公平原则与公益性是开放目录生存和发展的根基,也是吸引大量志愿者参与的重要原因。如Domz“是一个本着建立一个无偏见的、为大众服务的、阐述各种不同观点的以及全面描述人类智慧为宗旨的,并由来自不同国家、不同文化背景、不同兴趣爱好的编辑共同维护的社区所组成”。为此,Domz对商业网站的收录非常谨慎,对一些网站不负责任地提交或登录系统、歧视或干预竞争者的行为进行了限制并给出相应的处罚条例。这些管理规范保证了Domz的正常运转,维护了其信誉,激发了志愿者的荣誉感。在体现公益性方面,Domz除为大众提供全球视野的导航服务外,还将其元数据开放利用,打包供人下载。
  
  2.2数据利用的开放性
  开放目录的公平编辑原则与公益性以及由众智完成的网络信息资源开发模式,决定了其数据必然是开放利用的。任何人只要注意站点政策和接受许可协议,就可以免费下载和使用开放目录的数据。开放目录网站提供专门的数据开放利用页面,这是开放目录与搜索引擎及学科信息门户的不同之处。开放目录数据利用的开放性提升了开放目录的社会效益,增强了志愿者的凝聚力。
  
  2.3信息资源的自组织性
  开放目录的信息资源自组织性体现在信息资源建设的众智(Wisdom of Crowds)特性和目录体系自成长性上。web2.0体现了开发、参与、分享和协作精神,在web2.0概念提出之前,开放目录已经在实践web2.0的精神,利用众智构建了庞大的信息资源目录,所有网站的发现、添加、维护都由网民来完成。开放目录的网站构建者仅仅提供一个平台,网民出于自己的兴趣、爱好和公益精神,基于开放目录平台志愿来组织网络信息资源。作为开放目录信息资源组织的核心――目录体系,是当前网络分类工具中唯一向用户开放的分类系统。目录体系中的类目由具有某一方面专长的目录编辑员(网民)来进行维护,为了能够及时和有效地反映网络信息资源的实际发展情况,不同目录等级的目录编辑员可删减和扩展类目。在网站的长期运行中,基于众多目录编辑员的“添砖加瓦”,目录体系逐步形成和得到发展完善,最终形成一个有效的、庞大的、动态变化的自成长性的目录体系。
  
  3 开放目录的优化
  
  开放目录上述的这些特点,使其在互联网中独树一帜,发展至今已有10余年的历史,在互联网世界享有极高的声誉,其先进性和可持续发展的理念已是网络信息资源组织领域学习和研究的对象。随着网络的发展,在目前以用户为中心、强调参与的web2.0环境下,将开放目录在原有的基础上进行优化,这对于网络信息资源组织和信息服务领域的拓展具有积极的意义。笔者根据构建和运行“学术信息资源开放目录”网站的实践,分析出开放目录以下几个方面的优化:
  
  3.1信息资源开发由众智向群智优化
  群智(Collective intelligence)是指组织或群体通过协作获得更高程度的资料整合以及思考问题、解决问题的能力。一个组织或群体的成员之间,如果单纯依赖个体的独立判断、思考和决策,产生群体性的智慧,这种情况下的群体性智慧称之为“众智”。众智与群智不同,两者之间的区别在于是否有个体之间的交流、分享和协作,群智有,众智则没有。开放目录信息资源的开发由众智向群智发展是适应现代网络信息环境和可持续发展的关键。为此,开放目录系统一方面要革新注册和审核机制,吸引更多的用户参与进来,使其有足够的用户群体,夯实产生“群智”的基础;另一方面需要提供有效的用户交流平台,促进个体之间的交流、分享和协作,形成群智,来推动信息资源协同开发和高效组织。
  在用户注册和审核机制方面,Domz和Musicmoz目录编辑员的申请和审核机制极其严格,这保证了目录的质量,但极大地限制了广大网民参与的积极性。它们的数据更多的是被搜索引擎利用,网民能直接利用的极少。在web2.0环境下,其吸引新的目录编辑员的能力大不如前,参与的用户数量不仅无法促进群智的产生,反而成为开放目录可持续发展的障碍。为此,开放目录需要改变目录编辑员的注册机制和管理机 制,可将用户分为匿名用户、注册用户和目录编辑用户。匿名用户不用注册直接匿名参与交流和提交信息资源,这能吸引大量不想注册的用户;注册用户只需要提供简单信息就可以注册,除了具备匿名用户的功能外,还能获得系统额外提供的个性化信息资源组织和管理功能,同时系统可以记录注册用户的贡献度,让用户体现荣誉感,增强用户的黏性;当注册用户达到一定的贡献度就具备申请目录编辑员的资格,目录编辑员除了拥有注册用户的权限外,还有管理目录的权限。这种开放的注册机制和目录编辑员申请模式,使得开放目录既能通过庞大的注册用户量培养潜在的目录编辑员,又能保证目录编辑员的水平,最终实现由群智来推动信息资源开发。
  在提供有效的用户交流平台方面,开放目录需为目录编辑员、普通用户和专职人员之间提供合适的、有效的渠道进行交流,以形成简洁、高效的网络社区,同时能使交流产生的群智得到有效的沉淀。对于这些方面,开放目录可以利用成熟的网络技术和网络服务来实现。如在作者设计的系统中,每一条信息的展示页面上都有添加者的“QQ临时会话”(不需要加为好友就可以与添加者交流)链接和“纠错、补充、评论、留言”区域;设立QQ群实现群体的即时沟通交流;利用谷歌站点发起近期协同攻坚创议;构建类似wiki的质量控制文件开放编辑区域。应用这些免费的交流平台的好处有两个方面:一是成熟的平台本身拥有大量的用户群,能减轻用户交流的障碍;其次,减轻开放目录系统开放和维护的成本,使开放目录更专注于自身的发展。从作者运行开放目录网站的实践来看,这些功能基本能够满足交流的需要,而且提高了信息资源开发的协同度和信息资源描述的质量。
  
  3.2信息资源组织向深层次优化
  传统的开放目录仅依靠目录体系进行信息组织,同分类搜索引擎类目组织类似,均是在遵循基本的逻辑规则的基础上,通过层层划分,按照从总到分的方式逐级展开。这种信息组织的主要特点是一个信息资源只分给一个类目,然后通过类目的多重列类、重复反映方式揭示类目。其技术实现是通过符号链接(包括快捷链接、返回、多重列类)实现主题目录之间的嵌套以达到信息在不同主题下的列类浏览。这种传统的信息组织模式是事后的目录组织而不是基于信息描述过程中的多重分类,它也是目前搜索引擎分类目录的主流。在开放目录创建之初,网络信息资源以HT-ML网站为主,类型相对单一,这种传统的信息资源组织模式适合当时的发展阶段。互联网发展到今天,信息组织技术得到极大发展,信息资源的媒体形式越来越复杂,同一网站的主题内容和资源类型趋于多样化,利用这种事后的目录组织来揭示信息资源的方式已不能适应新的信息环境。因此,在依靠目录体系进行信息组织实现目录浏览的同时,还需要深入到信息资源描述(元数据创建)层面,对单个信息资源从主题、类型、用途等方面进行多重分类。作者在实践中发现,25%的网站被分到多个主题类目中,信息提交者也很乐意在描述信息资源的同时再进行媒体类型的分类;尤为重要的是,基于这些丰富描述的元数据所进行的信息资源组织不仅能提供丰富的检索功能,还能实现多种形式的浏览(如某学科开放期刊专题)和开放利用(如元数据定制)。
  此外,主题图作为一种新兴的知识组织技术,在网络信息组织领域逐渐引起重视。主题图吸收了索引、叙词表、分类法等思想,并有所发展。其应用方法有:构建领域本体、知识关联量化、标引信息资源、构建XTM文件、主题图合并和主题图可视化。开放目录可尝试应用主题图元素,提供基于主题的导航和语义检索功能,使信息资源组织进一步向深层次发展。
  
  3.3信息资源描述由单一模板向多模板优化
  在Dmoz设计之初,网络信息资源以网站为主,其在信息资源的描述方面,元数据的元素比较简单,且只用单一的元数据模板,添加者选择对应的目录后,只需要填写信息资源的标题、链接和简介。网络发展到今天,网络资源的类型变得多样化,而普通网民并不具备对众多类型的信息资源进行深度描述的知识和耐心。比如,当标引一个开放获取的期刊时,若还是按对待网站的模式进行标引,就不能很好地揭示资源。Dmoz这种单一模板的信息资源描述方式,已不能适应新的信息环境和用户需求。开放目录若能提供多个模板,一方面能针对不同类型的信息资源通过特定元素规范信息资源的描述,引导用户进行深度标引,减轻用户标引的难度。其整个过程如同“傻瓜式”的填空,使用户有更多精力用于新的信息资源发现。另一方面,深度标引后的信息资源能根据不同的需要进行信息组织,提供多种形式的信息服务。多模板的开放目录相对于单一的元数据模板来说,更能提高信息资源建设质量,丰富信息资源的组织,提供多样化的信息服务,增强用户的参与性。在Dmoz之后的Musicmoz是多模板的开放目录的范例,其对信息资源描述的元数据模板进行了优化设计,根据信息资源的不同类型提供了不同的元数据模板,目前提供了包括Article、Concert、Release、URL、Video等12种类型的元数据模板。不同类型的信息资源所要填写的元数据元素有所不同,如URL类型只需要描述链接地址、网站标题和网站简介3个元素,而对于Video的描述有16个元素。这些元数据模板能恰当地反映信息资源的情况,为元数据的开放利用和开放目录网站的服务提供了更多可能,因而Musicmoz在信息资源揭示和信息服务方面都大大超过Dmoz。
  
  3.4元数据开放利用由精英模式向大众模式优化
  在元数据开放利用方面,Dmoz和Musicmoz均以数据包的形式提供下载。其中Dmoz数据包为RDF(XML格式)元数据,目前利用Dmoz数据的搜索引擎和网站共有189个。Musicmoz除提供总目录体系的XML文档数据包外,还提供信息资源元数据的XML文档数据包。总体来看,两者的元数据开放利用形式对主网站的访问压力小,数据提供后可以不管,而且用户可以基于元数据做个性化的应用。但是这些简单的元数据开放利用只是提供“原材料”,要利用这些数据需要专门的技术人员才能做到,而且这些“原材料”因为是打包下载,不能实现特定数据的定制,所以只是最简单的元数据共享,要具体应用还需做进一步的开发,这势必造成元数据开放利用门槛高。更重要的问题是当某一个记录的元数据发生变化,维护更新也成问题。当前,有能力利用这些开放元数据的几乎都是大的网站与搜索引擎,是一种精英模式的利用。对于普通网民,即使是那些开放目录的贡献者,若想应用到自己的博客或个人网站中,那也是有相当的难度;即使是懂技术的网民去利用,也要费一番周折去解析XML文档、设计数据显示形式等,大多因利用费时费力而选择放弃,从而导致开放目录应用范围窄,影响小。
  在当前web2.0网络环境下,这种精英模式的数据开放利用显然不利于开放目录的发展。因而,开放目录除了要关注信息资源的组织外,还应在数据开放利用上下功夫,降低技术门槛,提供灵活多样的数据开放利用形式,实施大众化的数据开放利用模式。这种模式一般是以脚本和API的形式提供给用户,如Google AJAX Search API,只需要简单定制就可以得到一段代码,粘贴到网页中就能应用Google的搜索服务,这几乎就是“成品”。基于这样的思路,作者在实践中开发了一个基于代码定制的数据开放利用实例和搜索API,用户可以定制任何目录下的信息资源到自己的页面去实现专题导航,而无需关心数据的维护和更新,也可利用搜索API将数据集成到自己的网页中。在web2.0环境下,开放目录网站除了直接开发多种形式的应用外,还可拓展利用志愿者编辑网络目录的思想,让广大网民来开发形式多样的基于元数据的应用,然后借助开源软件的思路将代码广为发布,走“网聚人力”的可持续发展的模式。形式多样的利用形式可引导用户深入利用开放数据,提升开放目录的社会效益。
  
  3.5开放目录由综合性向专题性优化
  门户网站经历过从综合门户向专题门户发展的过程,搜索引擎也经历过类似过程,这是适应新的网络环境下符合用户需求的发展模式。在这样的趋势下,网景发展了综合性的开放目录Dmoz的应用创建了Chef-Moz,目前已有5000多个注册编辑,主要提供酒店黄页信息的收集整理与评论,收集的酒店数量超过32万。在Dmoz之后的Musicmoz则仅构建音乐领域的专题开放目录。当前,我国图书情报界网络信息资源开发领域的实践均是从专题性人手,如我国CALIS数字图书馆项目联合国内重点高校图书馆构建了各重点学科的导航系统,中国国家科学数字图书馆也构建了一系列学科信息门户,部分高校图书馆也构建了支持本校学科发展的学科信息门户。开放目录从综合性向专题性发展成为新的趋势,这一趋势对我国信息资源开法走web2.0道路提供了新模式。

相关热词搜索:优化 开放 目录 开放目录及其优化研究 优化目录 优化人生全文目录

版权所有 蒲公英文摘 www.zhaoqt.net