这一互联网词语搭配关系库基于对搜狗搜索引擎索引的大规模中文互联网语料进行的统计分析,数据采集时间为2006年10月,涵盖超过1亿个页面。其中包含超过2000万个词语搭配样例和超过15万个高频词的详细数据。数据以二元组形式呈现,每对词语伴随其同现次数。