小黄书

最近终于把小黄书写完了,最近需要找很多的聊天记录导入到系统里面。

小黄书是一个自己做的一个聊天机器人,功能可能不够强大,但是希望以后慢慢学习完善。

功能分几部分:

  1. 分词,这个本来想用现成的,但是最后还是自己写了。词库用的IK分词的词库
  2. 词语分类
  3. 句子抽象,其实就是将句子分词,然后进行词语分类匹配,组装为抽象句子
  4. 句子最优匹配
  5. 抽象句子实体化,根据聊天的上下文将词语分类反向生成句子
  6. 句子转为语音,讯飞文本转语音

基本思路:句子分词后,相同的词语后面跟随的词语词义可能是一样的。例如:

我喜欢吃苹果。
我喜欢吃李子。

苹果和李子同时水果。大量的出现时归为一类,然后将句子抽象,然后每一个对话归为一个场景,使用类型来获取上下文的代指词语。