统计了近二十年的网络收集和存档经验,显示Web收集和归档已成为研究人员、技术人员和图书馆员关注的核心议题。尤其在欧盟国家图书馆和文化遗产组织中,如何系统归档Web内容已提升为重要优先事项。的主要对象是网络收获,专注于通过Web抓取(“拉”功能)实施的数据挖掘过程。
研究在“公共图书馆和知识产权法中的网络归档”资助项目下进行,聚焦美国的网络归档和欧盟成员国图书馆的文本与数据挖掘(TDM)操作。此项研究确认了网络归档作为国家图书馆官方职能之一的独特地位,有助于生成并长期保存数字馆藏,从而确保永久访问和使用。
通过面向欧盟国家图书馆的在线调查(定性研究),研究团队分析了网络采集和归档的各个组成部分。研究设计了17个调查问题,问卷通过Google表单完成,涵盖22个国家的回答。研究人员通过电子邮件和电话联系受访图书馆,以确保参与。
本研究的核心目标是利用Web采集和归档技术,更深入探索图书馆如何实施TDM操作。