博客长期存取的国外研究与实践|临床医学研究与实践

发布时间:2020-03-07 来源: 感悟爱情 点击:

  [摘要]认为博客同其它数字化资源一样是人类的重要文化遗产,在博客中有大量有价值的信息,由于作者的放弃、运营的不稳定、服务的免责性及缺乏有效的保存策略面临生存危机。论述国际组织和机构在博客保存方面的探索和实践以及在版权纠纷、技术障碍、成本核算和开放获取等问题上的研究突破。
  [关键词]博客长期存取实践
  [分类号]G250
  
   1、博客长期存取的危机
  
  2007年12月底,国内各大新闻网站争相报道:《未来档案:未来五十年历史》的作者理察华琛在“灭绝时间表”中预言许多目前人们习以为常的事物或现象将消失,其中网络日志将于2022年消失。博客已成为庞大的信息资源集散地,但博客资源在大量生成的同时,也正以惊人的速度死亡或消失。网络信息的平均寿命为44-75天,博客的平均寿命只有38.2天,大量博客由于未制定归档保存策略处于自生自灭中。导致博客消失或死亡的原因有:
  博客作者的放弃。当写博的热情被有规律的更新任务拖累时,博主的热情也许就会减少。CNNIC调查显示,截至2007年11月底,中国博客作者规模达到4698.2万人,只有36%的人会经常更新博客。博客空间规模达到7282.2万个,只有39.省略免费主机服务器的提供者Winer因租用站点的成本、将博客移至新服务器时技术上的困难及个人健康等问题关闭了Weblogs.Com,3 000多个用户无法连接他们的博客。由于没有预警,许多用户都没有机会去备份博客。虽然后来Winer将全部博客转移到另一个服务器上,但博客被丢失的风险仍然存在。
  博客服务的免责性。大多数BSP博客软件和服务器常常自带归档功能,但只要看看服务条款就会发现,对于博客服务的安全性和稳定性,BSP并不承担任何责任,甚至可以单方面修改和终止与用户的合约。国内图情博客领域享有盛名的“数图研究笔记”因BSP的种种不如意(包括删掉评论、服务不稳定等)一再搬迁,最终不得不“成为一个独立博客,经营自己的网站”。而MSN spages也常有将用户“整个网站都删除了”的记录。
  
  2、博客长期存取认识上的演变
  
  虽然人们对网络资源长期保存的重要性已有认识,但大多数人还没有认识到博客值得收集和保存,甚至还有人反对保存。如有信息技术专家认为,“随网络产生的博客,如脱离生成环境,将丧失全部含义和背景”,在难以有效保存博客的情况下,根本就没有必要保存。不过,也有先知先觉者意识到博客保存的重要性。2004年8月,CNI(Coalition for Networked Infor-mation)执行主席Clifford A.Lynch在接受RLG(Re-search Library Group)“数字化和数字化保存”问题访谈时指出,博客和网站一样重要,可能是思考、分析、指引兴趣的极好源泉。博客的成功与否取决于内容质量,确实有许多值得保存的博客。
  牛津大学和曼彻斯特大学图书馆联合开展的“个人档案数字化”项目认为,电子邮件、网络日志、博客等数字档案比传统档案更难保存。传统档案往往在当事人退休甚至死亡后才开始处理,只要进行简单处理和适当保存,纸本档案几乎可以毫无损害地保留给下一代。而包括博客在内的原生数字资料的长期生存能力是不确定的,保存期内的所有努力可能由于硬件、软件和媒体的退化和过时而失败。
  国际组织和机构对博客的认识也在加深。2005年11月,联合国教科文组织等机构在海牙召开了“保护数字遗产”会议。麻省理工技术学院的WilliamUricchio指出,真正的挑战是博客和多人参与的在线游戏等“社会媒介”资源,如构成他们具体特性的相互作用能被充分抢救,对未来史学家将具有巨大意义。阿姆斯特丹大学的John Mackenzie Owen也认为,网站、博客、讨论组等新型网络资源具有无边界、动态性、交互性和零散性特点,为捕获这种数字资源,需建立一个新型的遗产机构作为博物馆、图书馆和档案馆的补充。
  2003年,法国、意大利、丹麦和英国的国家图书馆及美国国会图书馆发起成立了国际互联网保护联盟(IIPC),IIPC早期也未将博客作为特别的网站类型进行保存,直到最近才意识到博客的重要性。2008年5月,为共享Web资源采集和归档的经验和做法,IIPC决定建立一个新邮件组,第二个主题即是“如何采集和检索blogs和Wikis”
  SXSW(South by Southwest)在2006年3月年会上对讨论组主题“数字化保存和博客”进行阐述时也指出:“早期的网页和博客,正如早期的电影一样,如不尽快开始保存,这种新媒介的早期大部分资源都将丢失,未来人们将只能依据幸存的碎片来认识它。”
  
  3、博客长期存取的实践探索
  
  2003年之前,图书馆学界和档案学界都未对博客长期存取作出特别研究和实践,许多国家根据呈缴法开展的Web资源归档活动,也大都因太早没有提及博客,一些网络资源保存项目甚至将博客排除在外。
  澳大利亚国家图书馆1996年启动Pandora项目,与相关机构合作建立Pandora档案馆,以确保澳大利亚网络出版物及Web资源长期保存。在制定项目指导方案时认为,最根本的原则是以澳大利亚为中心,归档时排除“数据库、网上日报、论坛、聊天室、海报栏、博客”等。2003年,Pandora更新了“澳大利亚在线出版物:归档和保存选择标准”,博客被继续排除。所幸这一偏见逐步得到修正。2003年3月澳大利亚国家图书馆制定了《数字遗产保存指南》,将“机构和个人的活动、交易和通讯等记录”界定为新型数字遗产,指出网络日记和博客等由数字技术产生的动态、非正式的交互信息中,也许包含着重要的数字档案。2005年8月Pandora再次更新了“澳大利亚在线出版物:归档和保存选择标准”,虽未再排除博客,却未对博客收集作出特别规定。2005年开始,Pandora尝试进行了博客归档。
  英国第一个公众网络信息保存计划UKWAC由英国国家图书馆、国家档案馆、JISC、苏格兰国家图书馆、威尔士国家图书馆和韦尔科姆图书馆于2004年共同 开展,联盟成员选择和捕获的与其馆藏发展政策相关网站中就包括博客。UKWAC还归档一些可扩展某个新闻故事、事件或普遍性主题的网站,如妇女问题、英国乡村、2004年印度洋海啸等,博客也是联盟归档的主题之一。UKWAC目前收集了37个博客,均由国家图书馆归档保存。
  2006年10月17日,“英国的历史事件运动”在全国举办了单日博客活动――“历史上的这一天”,共有41 250个博主参赛。记录这一天内容的所有参赛博客组成一个社会历史档案收藏在国家图书馆的“Web档案馆”中。“我们希望这将是人民日常生活的详细记录”,历史学家Dan Snow告诉BBC,“正是那些世俗的、枯燥的细节,对几百年后的人们非同寻常。”历史研究学院的David Cannadine补充说:“未来的历史学家们也许会感到惊讶,2006年10月17日我们竟然在吃肉或驾驶私人轿车”。
  美国国会图书馆2000年开展的“电子资源虚拟档案馆”(MINERVA)是最初的Web站点归档实践,归档站点包括美国政府、外国政府、政党、媒体、宗教组织、支持团体、教育研究机构和博客等。2003年3月,国会图书馆宣布开展网络资源归档活动,目前正在开展的归档主题“2008年选举”中包含了博客,已经归档的主题2008年埃及、2006年、2002年选举、9.11事件中也都有博客内容。
  互联网档案馆是美国的非赢利性组织,定期收录并永久保存全球网站上可以抓取的信息,现已保存1996年以来的550亿份网页,可免费、公开获取。互联网档案馆虽未明确表示要归档博客,但如果作者担心失去博客,可向互联网档案馆提出归档要求。互联网档案馆试图对Web内容进行全面采集,爬行器每隔几个月采集一次。在该站点可以查询到国内部分博客的内容,都属于不完全保存。
  新西兰国家图书馆网页归档项目开展较晚,因此将博客长期存取问题纳入考虑范围。他们认为,保护新西兰社会文化历史是国家图书馆的法律权力和社会责任,无论历史是以书籍、报纸、照片还是网站、博客形式存在。由IIPC发起、新西兰和英国的国家图书馆联合开展的网络资源选择性归档项目WCT(The Web Cu-rator Tool)2007年1月起在新西兰国家图书馆运行。同年9月,WCT对新西兰每三年一次的地方政府选举进行了为期12周的集中采集,这是WCT收割的第一个主要事件及其尝试收割的最大主题,共选择了238个网站,包括候选人和政党竞选活动的网站和博客,城市和地区委员会网站,新闻站点,与选举或地方政府相关的博客等。被选择的网站都在新西兰国家呈缴法范围之内,无需再寻求明确的许可。
  
  4、博客长期存取关键词的突破
  
  4.1版权纠纷
  对于归档网页(博客)可能遇到的版权纠纷,一些业已开展的项目都做了努力。如互联网档案馆采集的网页都可公开使用,对于需要密码才能访问、页面标记为“排斥机器人”、需用户填写表格后才能访问、或存放在受保护服务器上的网页均不会归档。如果网页所有者希望网页不被归档,也可要求从互联网档案馆移走已归档的网页,同时使用者必须遵守使用条款。
  即使如此,互联网档案馆还是遭遇到版权困扰。2007年3月,互联网档案馆被美国科罗拉多州一妇女起诉,理由是她声明了该网页不能被收录,但互联网档案馆的爬虫还是爬走了她的网页。该妇女并不是以通用的Robot.txt方式做的声明,而是在网站主页页脚注明“转载或分发网站内容意味着你已同意了我们的版权合同”,内容包括只可在电脑上浏览,不可打印、不可复制等。虽然只在博客归档上做了一些尝试,UK-WAC也意识到版权问题:当用户希望UKWAC存档自己的网上电子资源(包括博客)时,需在线填写一份表格,表格中的第5个问题“如果我们选择您的资源,你会授予UKWAC许可归档您的资源吗”为必填项,决定是否给予UKWAC归档资源的许可。
  4.2技术障碍
  现有的网络资源长期保存项目对博客的采集大都由机器人定期跟踪抓取,对于非主流BSP上的博客可能无法发现和识别;遇到机器人被拒绝、动态内容、密码保护、奇特的文件格式或错误编码时,博客也很难被存档。此外,博客是一种不断变化与更新的动态资源,更新频率亦不相同,如果采集期间服务器发生故障或关闭,归档活动也会失败。如何根据BSP及博客特点确定采集频率,是博客保存的一个技术难题。
  博客和网上银行帐户、个人网站、数码照片及PC文档一样,都被认定为个人数字化资产。Catherine C.Marshall曾建议,个人存档技术应有机融入日常实践,如有一个可自行处置的归档系统,也许人们就会乐意进行个人存档。这种理念在互联网档案馆网页归档活动中已经实现。如果某个网站长时间未被互联网档案馆收录,网站所有者可通过“Alexa提交入口”提交网站,以提醒搜索引擎前往抓取网站数据。或通过Alexa工具栏访问自己的网站,Alexa将自动获悉并将其添加到需访问的网站清单。或在线填写一份表格,输入网址,点击按钮“抓取我的网站”,Alexa将在下次爬行时抓取该网站,这种归档方式对于博客非常方便,还可避免版权纠纷。
  4.3成本核算
  保存博客需要一定代价,难以作出合理估计。即使选择有较高价值博客,保存的累计成本也较高。英国国家图书馆“电子文献的生命周期”项目由国家图书馆和伦敦大学学院服务部联合开展,获得“数字资源长期保存联”2007年“数字资源保存奖”。项目组2006年提交的报告指出,Web资源归档保存成本随时间推移不断增加,其1年、5年、lO年和20年的成本分别达到707英磅、3 449英磅、6 876英磅和13 731英磅。
  虽然报告只针对Web资源归档成本进行研究,未特别计算博客保存成本,但UKWAC所开展的博客归档活动均是由英国国家图书馆网页归档小组执行,后者在开展案例研究时不会不考虑博客的成本模型。项目研究认为Web资源归档成本包括获取、摄入、元数据、检索、存储和长期保存,其归档流程和成本特性与博客归档并无二致。由于博客生命周期更短,来源更为复杂,摄取和采集过程中人工干预可能更多,其成本还会高于普通Web资源。
  4.4开放获取
  提供利用是归档保存的目的,归档后的博客必须提供开放存取服务。博客利用模式包括简单利用和综合利用,前者通过再现博客原貌满足用户需求,后者通过知识挖掘和知识发现,与保存机构的现有资源进行整合,为用户提供集成后的信息和服务,最终实现博客长期存取的可持续性。
  现有的网页归档项目虽采集到一些博客,但在提供使用方面却不尽如人意。许多博客一经保存,只能按原址提供检索,不能提供主题或关键词检索,有的由于未有效解决版权问题甚至还不能提供使用,无疑会影响博客长期保存的积极性。在这方面,UKWAC做了很好尝试。一旦网站和博客已完成归档、编目和完整性检查,就可在UKWAC网站中进行检索。用户可通过标题字母检索,或利用主题词浏览归档后的网页,搜索特定的地点和主题资源。

相关热词搜索:存取 实践 长期 博客长期存取的国外研究与实践 地理实践力国外研究现状 地理实践力的培养

版权所有 蒲公英文摘 www.zhaoqt.net