先计算整个谓宾短语在OpenHowNet中的义原,然后再根据丁校的方法进行相似度的计算,但是发现大部分的谓宾短语都识别不出来,因此计划下一步使用宾语相似度与谓语相似度分开计算的方式来进行聚类
利用FastText\wiki.zh.vec能够得到短语向量的一共有73013个,不能够得到的有6448条
而利用腾讯AI词向量精简版-1000000-small.txt能够得到的短语向量一共有78165个,不能够得到的有1296个,如果利用腾讯AI完整的词向量应该能够得到更多
利用FastText\wiki.zh.vec能够得到的短语向量有51558个,不能够得到的有27903个,可以看到的是这样的方法与把谓宾当作整体的方法来看效果并不是特别好
利用腾讯AI词向量精简版-1000000-small.txt能够得到的短语向量一共有74908个,不能够得到的有1296个
利用百度百科word2vec_baike能够得到73840个有效的短语向量,不能够得到的有5620个
输入的是一系列谓宾短语,从输出的结果看,大部分聚的类都是谓语一致,宾语不同的情况,但是也有着谓语不一致,宾语一致的情况,比如
[
"吃 芝麻饼",
"吃 麦饼筒",
"吃 饼",
"吃 软饼",
"吃 薯饼",
"吃 饼饼"
],
[
"吃 芝麻饼",
"吃 麦饼筒",
"吃 饼",
"吃 软饼",
"吃 薯饼",
"吃 饼饼"
],
[
"乘 公交车",
"入住 公交车",
"就是 公交车",
"遍布 公交车",
"开来 公交车",
"赶 公交车",
"靠 公交车",
"上有 公交车"
],
[
"订到 机票",
"订好 机票",
"查 机票",
"预订 机票",
"到 机票",
"搜 机票",
"看 机票",
"就是 机票",
"优于 机票"
],
这样就是把之前宾语聚类的结果给做了进一步的细化,从78000条数据中一共分出来6336个类
由于训练的一次的时间过长,因此可以设置在7000类左右
分类的结果应该跟hanlp训练的效果一样,因此要加大类的数量
利用更好的词向量文件腾讯AI词向量精简版-1000000-small.txt得到每一个谓语的向量,然后再去利用K-means找到一个合适的聚类结果,根据经验设置的类的个数为400个
利用更好的词向量文件腾讯AI词向量精简版-1000000-small.txt得到每一个宾语的向量,然后再去利用K-means找到一个合适的聚类结果,根据经验设置的类的个数为4000个,目前也是在实现一个谓宾聚类的效果而这么设置,关于如何设置一个合适的类现在程序仍然在跑,依据的方法是手肘法
- 动词的词性做进一步的过滤,比如
称为 称作 这些都是动词,但是再旅游领域并没有实际的意义
-
大量游记进行词向量的训练 GPU训练
-
旅游领域的一些常用名词(景点除外),来判断主语不同的时候谓宾的情况
-
谓语动词的聚类
-
文件命名
- 向量文件
- 聚类结果文件
需要声明用了哪个库和哪个向量
- pip豆瓣源
pip install package_name -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
- Tensorflow实现K-means