欧盟国家图书馆文本与数据挖掘中的网络采集实证研究

统计了近二十年的网络收集和存档经验，显示Web收集和归档已成为研究人员、技术人员和图书馆员关注的核心议题。尤其在欧盟国家图书馆和文化遗产组织中，如何系统归档Web内容已提升为重要优先事项。的主要对象是网络收获，专注于通过Web抓取（“拉”功能）实施的数据挖掘过程。

研究在“公共图书馆和知识产权法中的网络归档”资助项目下进行，聚焦美国的网络归档和欧盟成员国图书馆的文本与数据挖掘（TDM）操作。此项研究确认了网络归档作为国家图书馆官方职能之一的独特地位，有助于生成并长期保存数字馆藏，从而确保永久访问和使用。

通过面向欧盟国家图书馆的在线调查（定性研究），研究团队分析了网络采集和归档的各个组成部分。研究设计了17个调查问题，问卷通过Google表单完成，涵盖22个国家的回答。研究人员通过电子邮件和电话联系受访图书馆，以确保参与。

本研究的核心目标是利用Web采集和归档技术，更深入探索图书馆如何实施TDM操作。