该插件基于Nakatani Shuyo算法实现语言检测功能,使用三元字符和贝叶斯过滤器,并进行多种规格化和特征采样处理, 在53种语言上准确率超过99%。

功能:

  • 提供映射类型以指定启用语言检测的字段。
  • 检测到的语言索引到名为 “lang” 字段的子字段中,并支持查询。
  • 可与附件映射器插件结合使用,对base64编码的二进制数据进行语言检测 (当前仅支持UTF-8文本)。
  • 提供REST端点,接收UTF-8编码的短文本,返回识别出的语言代码。

支持的语言代码:

af, ar, bg, bn, cs, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, is, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl, pt, ro, ru, sk, sl, sq, sr, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw