libfnl :trade_mark: 是一个 API 和 CLI,它提供了一组易于使用的工具来促进数据和文本挖掘。该库仅适用于 Python 3,特别适合挖掘生物医学/科学文本,但也可用于其他情况。它是基因名称存储库守护程序、PubMed 镜像工具集合和文档存储库的补充部分。

该库包含以下软件包:

  • fnl.nlp: 用于分析文本的工具(标记化、PoS 标记、短语组块、实体检测);用于对句子进行分段并将文本映射到字典条目的模块,包括 的 Python 包装器、 的 Python 包装器以及语料库的处理程序;此外,通过 的包装器,最大熵分类器也可用。
  • fnl.stat: 评估评分者间 Kappa 得分的模块和开发基于文本分类器的模块
  • fnl.text: 包装器以处理文本数据(字符串、标记、句段、注释等)