Skip to content

Commit

Permalink
7种相似度算法算出来的 兰州 的相关词
Browse files Browse the repository at this point in the history
  • Loading branch information
ysc committed May 23, 2015
1 parent 1fb15cc commit 5e5caac
Showing 1 changed file with 145 additions and 15 deletions.
160 changes: 145 additions & 15 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -502,24 +502,154 @@
从这里我们也可以看到一个有意思的现象,同一词性比如地名的用法往往保持一致。

相关词是从语境推导得到的,语境中词后面跟的数字是权重,权重是1/N的累加值
最后我们分别看看这些词的语境
下面我们看看这些词的语境

兰州 : [军区 1.0, 甘肃 0.78205127, 新区 0.7692308, 大学 0.42307693, 甘肃兰州 0.41025642, 货车 0.3846154, 西安 0.32051283, 本报 0.2948718, 新华社 0.2820513, 兰州新区 0.26923078, 召开 0.23076923, 发往 0.21794872, 中国 0.20512821, 兰州 0.20512821, 火车站 0.20512821, 铁路 0.17948718, 参加 0.15384616, 西宁 0.15384616, 方向 0.15384616, 成都 0.14102565, 警察 0.14102565, 建设 0.12820514, 市委 0.12820514, 来到 0.12820514, 一家 0.12820514, 中心 0.115384616, 炼油厂 0.102564104, 进入 0.102564104, 来自 0.102564104, 举行 0.102564104]
沈阳 : [军区 1.0, 晚报 0.5123967, 方向 0.3181818, 本报 0.27272728, 沈阳晚报 0.23553719, 新华社 0.20661157, 沈阳军区 0.18595041, 军区队 0.15289256, 海狮队 0.14876033, 自动化所 0.14049587, 此次 0.14049587, 经济区 0.1322314, 中国 0.12809917, >大连 0.12809917, 大爷 0.12809917, 市委 0.12396694, 一家 0.11570248, 高速 0.11570248, 国际 0.11157025, 火车票 0.11157025, 法库 0.10743801, 大学 0.10330579, 长春 0.10330579, 直达 0.09917355, 深圳 0.09090909, 上海 0.08677686, 记者 0.08677686, 海狮 0.08264463, 大妈 0.08264463, 两位 0.08264463]
北京 : [新华社 1.0, 本报 0.7119143, 举行 0.19384204, 上海 0.17831326, 时间 0.16385542, 铁路局 0.1394913, 西站 0.13226238, 青年报 0.12717536, 晨报 0.11700134, 市委 0.1145917, 地区 0.11218206, 召开 0.10200803, 城市 0.08299866, 目前 0.07951807, 来到 0.06961178, 军区 0.06827309, 国际 0.066398926, 中心 0.063453816, 北京时间 0.06184739, 人民 0.059973225, 工作 0.05863454, 地铁 0.057563588, 北京铁路局 0.056492638, 医院 0.055421688, 飞往 0.05381526, 首都 0.053547524, 中国 0.053547524, 其中 0.05274431, 今天 0.052208837, 卫视 0.05167336]
福州 : [火车站 1.0, 新区 0.46666667, 福州火车站 0.45555556, 晚报 0.2962963, 记者 0.2777778, 打工 0.27407408, 来到 0.24814814, 市民 0.23333333, 本报 0.22222222, 大学 0.21851853, 市区 0.2074074, 市委 0.19259259, 举行 0.19259259, 鼓楼区 0.18518518, 网友 0.18148148, 到达 0.17037037, 开往 0.16296296, 目前 0.14074074, 分行 0.14074074, 一家 0.12962963, 全市 0.12962963, 东街口 0.12222222, 福州晚报 0.12222222, 新华社 0.11851852, 铁路 0.11851852, 召开 0.11481482, 前往 0.11481482, 发展 0.11481482, 推进 0.11111111, 福州 0.11111111]
西安 : [火车站 1.0, 事变 0.75, 交通 0.7058824, 建设 0.5882353, 地铁 0.5882353, >咸阳 0.5588235, 来到 0.5294118, 市民 0.50735295, 大学 0.5, 铁路 0.5, 代表团 0.5, 铁路局 0.49264705, 公司 0.4852941, 武汉 0.4632353, 曲江 0.44117647, 供电 0.42647058, 新华社 0.4117647, 西安火车站 0.4117647, 北京 0.3602941, 交大 0.3602941, 本报 0.34558824, 西安事变 0.3382353, 城市 0.31617647, 城区 0.31617647, 落户 0.30882353, 市委 0.29411766, 国际 0.2867647, 城东 0.2867647, 成都 0.2720588, 举行 0.25]
武汉 : [大学 1.0, 晚报 0.97572815, 湖北 0.61650485, 湖北武汉 0.44660193, 中心 0.4368932, 武汉晚报 0.43203884, 长江 0.41747573, 绿地 0.407767, 铁路局 0.407767, >铁路 0.39320388, 本报 0.36893204, 地区 0.3592233, 火车站 0.35436893, 开发区 0.3398058, 西安 0.30582523, 市民 0.30097088, 理工大学 0.2815534, 华旗 0.23300971, 新华社 0.22330096, 来自 0.2184466, 目前 0.2184466, 剧院 0.21359223, 高校 0.20873787, 公司 0.19417475, 年度 0.19417475, 市委 0.18932039, 分行 0.18932039, 警方 0.18932039, 北京 0.18446602, 武汉铁路局 0.18446602]
济南 : [全运村 1.0, 绿城 0.88461536, 山东 0.84615386, 军区 0.8173077, 交警 0.6442308, 山东济南 0.5576923, 本报 0.5, 军区队 0.43269232, 新华社 0.3846154, 开往 0.3653846, 项目 0.25, 亮相 0.25, 第一团 0.23076923, 城区 0.23076923, 来自 0.22115384, 太原 0.21153846, 北京 0.1826923, 青岛 0.1826923, 学习 0.17307693, 沃尔玛 0.17307693, 举行 0.16346154, 石家庄 0.15384616, 前往 0.15384616, 市委 0.14423077, >战役 0.13461539, 市民 0.13461539, 来到 0.125, 上海 0.125, 铁路局 0.115384616, 旗下 0.115384616]
南京 : [大学 1.0, 大屠杀 0.9218107, 市政协 0.6995885, 军区 0.5596708, 政协 0.4691358, 上海 0.4526749, 市长 0.4526749, 当选 0.43209878, 南京大屠杀 0.35390946, 市委 0.33744857, 南京市政协 0.31687242, 新华社 0.30452675, 特务 0.2962963, 来到 0.28395063, 日军 0.28395063, 江宁 0.26337448, 市民 0.2345679, 新街口 0.23045267, >本报 0.22633745, 国际 0.22222222, 南京大学 0.20164609, 缪瑞林 0.20164609, 位于 0.19753087, 曾任 0.19753087, 南京政协 0.18518518, 占领 0.17283951, 关于 0.17283951, 今年 0.16872428, 厦门 0.16460906, 长江 0.14814815]
拉萨 : [火车站 1.0, 新华社 0.91935486, 西藏 0.7580645, 市区 0.61290324, 本报 0.58064514, 召开 0.5645161, 海关 0.5483871, 城市 0.48387095, 拉萨火车站 0.4032258, 市委 0.38709676, 成都 0.37096775, 贡嘎 0.3548387, 开幕 0.32258064, 发布 0.30645162, 西藏拉萨 0.2580645, 会议 0.2580645, 机场 0.22580644, 闭幕 0.22580644, 隆重 0.22580644, 林芝 0.20967741, 举行 0.19354838, 开通 0.19354838, 营业部 0.19354838, 市民 0.17741935, 市场 0.17741935, 经济 0.17741935, 中心 0.17741935, 空气 0.17741935, 成为 0.17741935, 人民 0.16129032]
广州 : [上海 1.0, 恒大 0.7619048, 深圳 0.62637365, 军区 0.46886447, 北京 0.3956044, 铁路 0.36630037, 火车站 0.35531136, 日报 0.24908425, 广州恒大 0.23076923, 新华社 0.21978022, 一家 0.2014652, 本报 0.1978022, 海口 0.18681319, 第一 0.17948718, 开往 0.17582418, 警方 0.17216118, 前往 0.16849817, 金域 0.16117217, 松日队 0.15384616, 住在 0.14652015, 成都 0.14285715, 举行 0.13553114, 海关 0.13553114, 武汉 0.12820514, 广州火车站 0.12820514, 出差 0.124542125, 太阳神队 0.124542125, 飞往 0.124542125, 番禺 0.124542125, 城市 0.12087912]
南昌 : [本报 1.0, 江西 0.94, 铁路局 0.92, 江西南昌 0.76, 武汉 0.62, 市委 0.52, >北京 0.52, 南昌铁路局 0.52, 发展 0.5, 大学 0.36, 参加 0.36, 高新科技 0.32, 开往 0.32, 鹿心社 0.32, 新华社 0.28, 人员 0.26, 举行 0.24, 原本 0.24, 高校 0.24, 宁波 0.24, 上海 0.22, 合肥 0.2, 依旧 0.2, 火车站 0.2, 来自 0.2, 代表团 0.2, 全年 0.2, 居住 0.2, 创业 0.2, 符合 0.2]
北京 : [新华社 1.0, 本报 0.7119143, 举行 0.19384204, 上海 0.17831326, 时间 0.16385542, 铁路局 0.1394913, 西站 0.13226238, 青年报 0.12717536, 晨报 0.11700134, 市委 0.1145917, 地区 0.11218206, 召开 0.10200803, 城市 0.08299866, 目前 0.07951807, 来到 0.06961178, 军区 0.06827309, 国际 0.066398926, 中心 0.063453816, 北京时间 0.06184739, 人民 0.059973225, 工作 0.05863454, 地铁 0.057563588, 北京铁路局 0.056492638, 医院 0.055421688, 飞往 0.05381526, 首都 0.053547524, 中国 0.053547524, 其中 0.05274431, 今天 0.052208837, 卫视 0.05167336]
郑州 : [市委 1.0, 河南 0.7407407, 晚报 0.7407407, 大学 0.7037037, 电视台 0.69135803, 二环 0.6419753, 深圳 0.5925926, 地铁 0.54320985, 市民 0.4814815, 新华社 0.44444445, 本报 0.41975307, 郑州电视台 0.39506173, 河南郑州 0.39506173, 武汉 0.3580247, 郑州市委 0.34567901, 万能 0.32098764, 方向 0.28395063, 铁路局 0.27160493, 上海 0.27160493, 一卡通 0.27160493, 往返 0.25925925, 要求 0.25925925, 北京 0.24691358, 记者 0.24691358, 西安 0.2345679, 郑州晚报 0.2345679, 新闻 0.22222222, 一>家 0.22222222, 郑州 0.19753087, 广州 0.18518518]
贵阳 : [本报 1.0, 重庆 0.73333335, 新华社 0.46666667, 方向 0.43333334, 前往 0.4, 哥俩 0.4, 城区 0.4, 老家 0.33333334, 西安 0.26666668, 成都 0.26666668, 街头 0.26666668, 晚报 0.26666668, 无关 0.26666668, 杭州 0.23333333, 涉及 0.2, 以及 0.2, 市内 0.2, 网友 0.2, 郑州 0.16666667, 南宁 0.16666667, 长沙 0.16666667, 武汉 0.16666667, 摆摊 0.16666667, 市委 0.13333334, 昆明 0.13333334, 安顺 0.13333334, 来到 0.13333334, 争霸 0.13333334, 四强 0.13333334, 铁路 0.13333334]
天津 : [北京 1.0, 本报 0.56804734, 河北 0.53846157, 上海 0.52662724, 市委 0.4852071, 卫视 0.43786982, 女排 0.34319526, 东方 0.34319526, 大学 0.3372781, 浙江 0.32544377, 新华社 0.3195266, 滨海 0.2781065, 中国 0.26035503, 不理 0.18343195, 中>共 0.17751479, 人民 0.17751479, 考察 0.17751479, 青年 0.17159763, 重庆 0.16568047, 儿童 0.16568047, 天津卫视 0.16568047, 福建 0.1597633, 新区 0.147929, 宁夏 0.147929, 日报 0.14201184, 工作 0.14201184, 来自 0.14201184, 南部 0.14201184, 安徽 0.14201184, 中华老字号 0.14201184]
长沙 : [湖南 1.0, 湖南长沙 0.6567164, 本报 0.52238804, 成都 0.47761193, 方向 0.4477612, 北京 0.3283582, 来到 0.3283582, 海底 0.32089552, 新华社 0.30597016, 飞往 0.2835821, 晚报 0.26865673, 天心区 0.23134328, 重庆 0.21641791, 警方 0.20895523, 开往 0.20895523, 车票 0.20149253, 市委 0.19402985, 离开 0.19402985, 南方 0.19402985, 省会 0.17910448, 武汉 0.1716418, 世界 0.1716418, 上海 0.1716418, 火车站 0.1716418, 市民 0.15671642, 城市 0.14925373, 记者 0.14925373, 麓谷 0.14925373, 铁路 0.14179105, 交警 0.13432837]

太原 : [山西 1.0, 山西太原 0.6136364, 本报 0.39772728, 新华社 0.3409091, 火车站 0.26136363, 济南 0.25, 铁路 0.23863636, 北京 0.22727273, 推出 0.1590909, 国际 0.1590909, 返回 0.14772727, 刚玉 0.13636364, 来自 0.13636364, 发布 0.13636364, 打工 0.125, 中心 0.125, 市委 0.11363637, 银行 0.11363637, 铁路局 0.10227273, 西安 0.09090909, 集团 0.09090909, 公安 0.09090909, 开往 0.09090909, 比如 0.07954545, 金融 0.07954545, 火车票 0.07954545, 大同 0.06818182, 山西省 0.06818182, 军分区 0.06818182, 离开 0.06818182]
成都 : [商报 1.0, 成都商报 0.4117647, 军区 0.1875, 铁路局 0.17830883, 北京 0.17463236, 本报 0.17095588, 重庆 0.15441176, 告诉 0.15441176, 交警 0.14338236, 方向 0.1360294, 记者 0.13419117, 平原 0.121323526, 四川 0.1194853, 长沙 0.11764706, 理工大学 0.0992647, 来自 0.09375, 新华社 0.09191176, 开往 0.090073526, 成都铁路局 0.08455882, 铁路 0.080882356, 召开 0.07904412, 市民 0.075367644, 市委 0.073529415, 公司 0.07169118, 广州 0.07169118, 西安 0.0680147, 郫县 0.060661763, 打工 0.060661763, 市区 0.05882353, 晚报 0.05882353]
西安 : [火车站 1.0, 事变 0.75, 交通 0.7058824, 建设 0.5882353, 地铁 0.5882353, >咸阳 0.5588235, 来到 0.5294118, 市民 0.50735295, 大学 0.5, 铁路 0.5, 代表团 0.5, 铁路局 0.49264705, 公司 0.4852941, 武汉 0.4632353, 曲江 0.44117647, 供电 0.42647058, 新华社 0.4117647, 西安火车站 0.4117647, 北京 0.3602941, 交大 0.3602941, 本报 0.34558824, 西安事变 0.3382353, 城市 0.31617647, 城区 0.31617647, 落户 0.30882353, 市委 0.29411766, 国际 0.2867647, 城东 0.2867647, 成都 0.2720588, 举行 0.25]
哈尔滨 : [理工大学 1.0, 火车站 0.41584158, 哈尔滨理工大学 0.36138615, 工业 0.25742576, 方向 0.23762377, 新华社 0.20792079, 开往 0.18811882, 哈尔滨火车站 0.18316832, 位于 0.17821783, 大学 0.17326732, 铁路局 0.15841584, 来自 0.15346535, 最低 0.14356436, 北京 0.12871288, 本报 0.12376238, 黑龙江省 0.12376238, 发布 0.11386139, 中国 0.10891089, 飞往 0.0990099, 黑龙>江 0.08415841, 沈阳 0.07920792, 工程 0.07920792, 附近 0.074257426, 市委 0.06930693, 飞机 0.06930693, 上海 0.06930693, 考生 0.06930693, 进入 0.06930693, 停止 0.06930693, 经济 0.06435644]
南宁 : [广西 1.0, 铁路局 0.8, 广西南宁 0.62222224, 本报 0.54444444, 新华社 0.36666667, 南宁铁路局 0.31111112, 市委 0.26666668, 柳州 0.18888889, 桂林 0.17777778, 铁路 0.15555556, 兴>宁区 0.14444445, 来到 0.11111111, 开往 0.11111111, 前往 0.11111111, 公安 0.11111111, 工作 0.11111111, 运往 0.11111111, 城市 0.08888889, 美丽 0.08888889, 召开 0.08888889, 从事 0.08888889, 官塘 0.08888889, 楼市 0.08888889, 分局 0.07777778, 南宁市委 0.07777778, 动车 0.07777778, 发生 0.07777778, 举行 0.07777778, 西乡 0.06666667, 市长 0.06666667]
贵阳 : [本报 1.0, 重庆 0.73333335, 新华社 0.46666667, 方向 0.43333334, 前往 0.4, 哥俩 0.4, 城区 0.4, 老家 0.33333334, 西安 0.26666668, 成都 0.26666668, 街头 0.26666668, 晚报 0.26666668, 无关 0.26666668, 杭州 0.23333333, 涉及 0.2, 以及 0.2, 市内 0.2, 网友 0.2, 郑州 0.16666667, 南宁 0.16666667, 长沙 0.16666667, 武汉 0.16666667, 摆摊 0.16666667, 市委 0.13333334, 昆明 0.13333334, 安顺 0.13333334, 来到 0.13333334, 争霸 0.13333334, 四强 0.13333334, 铁路 0.13333334]
庆阳 : [甘肃 1.0, 甘肃庆阳 0.8, 甘肃省 0.4, 地区 0.4, 老区 0.3, 森林 0.2, 平凉 0.2, 镇远县 0.1, 革命 0.1, 韩凤廷 0.1, 交通处 0.1, 兰州森林大队 0.1, 大队 0.1, 兰州 0.1, 西峰 0.1, 发>送 0.1, 一辆 0.1, 牌照 0.1, 来自 0.1]
沈阳 : [军区 1.0, 晚报 0.5123967, 方向 0.3181818, 本报 0.27272728, 沈阳晚报 0.23553719, 新华社 0.20661157, 沈阳军区 0.18595041, 军区队 0.15289256, 海狮队 0.14876033, 自动化所 0.14049587, 此次 0.14049587, 经济区 0.1322314, 中国 0.12809917, >大连 0.12809917, 大爷 0.12809917, 市委 0.12396694, 一家 0.11570248, 高速 0.11570248, 国际 0.11157025, 火车票 0.11157025, 法库 0.10743801, 大学 0.10330579, 长春 0.10330579, 直达 0.09917355, 深圳 0.09090909, 上海 0.08677686, 记者 0.08677686, 海狮 0.08264463, 大妈 0.08264463, 两位 0.08264463]
合肥 : [火车站 1.0, 市民 0.8181818, 市区 0.53333336, 楼市 0.4848485, 合肥火车站 0.4121212, 铁路 0.38787878, 安徽 0.36969697, 到达 0.36363637, 市场 0.34545454, 上周 0.3030303, 芜湖 0.2969697, 召开 0.28484848, 记者 0.27272728, 成为 0.27272728, 来到 0.26666668, 安徽合肥 0.24242425, 城市 0.24242425, 经济圈 0.24242425, 公交 0.24242425, 目前 0.23636363, 本报 0.21818182, 今年 0.21818182, 起飞 0.21818182, 汽车 0.21212122, 物质 0.2060606, 合肥楼市 0.2060606, 空港 0.2060606, 工业 0.19393939, 标题 0.18181819, 野生 0.16969697]
大同 : [大学 1.0, 铁路 0.52380955, 山西 0.5, 证券 0.33333334, 大同大学 0.33333334, 山西省 0.23809524, 此次 0.23809524, 山西大同 0.1904762, 世界 0.1904762, 世界大同 0.1904762, 街道 0.16666667, 太原 0.14285715, 市委 0.14285715, 上海 0.14285715, 派出所 0.14285715, 公安处 0.14285715, 日方 0.14285715, 转发 0.14285715, 运城 0.11904762, 军分区 0.0952381, 矿务局 0.0952381, 小学 0.0952381, 参加 0.0952381, 项目 0.0952381, 中学 0.0952381, 水厂 0.0952381, 车辆段 0.0952381, 开往 0.0952381, 大同证券 0.0952381, 战役 0.071428575]
拉萨 : [火车站 1.0, 新华社 0.91935486, 西藏 0.7580645, 市区 0.61290324, 本报 0.58064514, 召开 0.5645161, 海关 0.5483871, 城市 0.48387095, 拉萨火车站 0.4032258, 市委 0.38709676, 成都 0.37096775, 贡嘎 0.3548387, 开幕 0.32258064, 发布 0.30645162, 西藏拉萨 0.2580645, 会议 0.2580645, 机场 0.22580644, 闭幕 0.22580644, 隆重 0.22580644, 林芝 0.20967741, 举行 0.19354838, 开通 0.19354838, 营业部 0.19354838, 市民 0.17741935, 市场 0.17741935, 经济 0.17741935, 中心 0.17741935, 空气 0.17741935, 成为 0.17741935, 人民 0.16129032]
西宁 : [新华社 1.0, 上海 0.8235294, 兰州 0.3529412, 辗转 0.3529412, 本报 0.29411766, 青海 0.29411766, 考察 0.23529412, 当街 0.23529412, 特钢 0.1764706, 方向 0.1764706, 分行 0.1764706, 索贿 0.1764706, 北京 0.14705883, 但是 0.14705883, 拉萨 0.11764706, 我们 0.11764706, 标题 0.11764706, 交警 0.11764706, 代表团 0.11764706, 处理 0.0882353, 银川 0.0882353, 车票 0.0882353, 筹建 0.0882353, 中转 0.0882353, 参加 0.0882353, 一月 0.05882353, 试验局 0.05882353, 二月 0.05882353, 地区 0.05882353, 严肃 0.05882353]

最后我们看一下分别使用7种相似度算法算出来的 兰州 的相关词:

----------------------------------------------------------
兰州 的相关词(CosineTextSimilarity):
1、兰州 1.0
2、沈阳 0.5
3、北京军区 0.47
4、后勤部 0.46
5、沈阳军区 0.46
6、总医院 0.46
7、新疆军区 0.46
8、司令员 0.42
9、甘肃兰州 0.42
10、兰州新区 0.42
11、某师 0.39
12、郑蒲港 0.38
13、西咸 0.38
14、天水 0.37
15、郑东 0.37
耗时:25秒,572毫秒
----------------------------------------------------------
兰州 的相关词(EditDistanceTextSimilarity):
1、兰州 1.0
2、北京 0.21
3、福州 0.2
4、太原 0.19
5、成都 0.17
6、南宁 0.17
7、西安 0.17
8、哈尔滨 0.17
9、贵阳 0.16
10、庆阳 0.15
11、合肥 0.14
12、大同 0.14
13、沈阳 0.14
14、珀斯 0.13
15、拉萨 0.13
耗时:44秒,253毫秒
----------------------------------------------------------
兰州 的相关词(EuclideanDistanceTextSimilarity):
1、兰州 1.0
2、后勤部 0.37
3、北京军区 0.37
4、新疆军区 0.37
5、沈阳 0.37
6、沈阳军区 0.37
7、总医院 0.37
8、上海浦东新区 0.36
9、郑蒲港 0.36
10、浦东新区 0.36
11、甘肃兰州 0.36
12、西咸 0.36
13、西咸新区 0.36
14、正定新区 0.36
15、司令员 0.36
耗时:24秒,710毫秒
----------------------------------------------------------
兰州 的相关词(SimpleTextSimilarity):
1、兰州 1.0
2、福州 0.36
3、西安 0.33
4、李红旗 0.33
5、中国金融信息中心 0.33
6、南特 0.32
7、卡塔赫纳 0.32
8、哈尔滨 0.3
9、武汉 0.3
10、戴克瑞 0.3
11、楚雄州 0.29
12、朱梦魁 0.29
13、岳菲菲 0.29
14、长沙 0.28
15、吕国庆 0.28
耗时:21秒,918毫秒
----------------------------------------------------------
兰州 的相关词(JaccardTextSimilarity):
1、兰州 1.0
2、福州 0.22
3、西安 0.2
4、哈尔滨 0.18
5、北京 0.18
6、武汉 0.18
7、成都 0.18
8、长沙 0.15
9、太原 0.15
10、贵阳 0.15
11、沈阳 0.15
12、广州 0.15
13、拉萨 0.15
14、南昌 0.15
15、长春 0.13
耗时:19秒,717毫秒
----------------------------------------------------------
兰州 的相关词(ManhattanDistanceTextSimilarity):
1、兰州 1.0
2、上海浦东新区 0.11
3、陕西西咸新区 0.11
4、甘肃兰州 0.11
5、北京军区 0.11
6、新疆军区 0.11
7、西咸 0.11
8、正定新区 0.11
9、天府新区 0.11
10、沈阳军区 0.11
11、国家级新区 0.11
12、兰州新区 0.11
13、侠客 0.1
14、威胁论 0.1
15、一两个月 0.1
耗时:23秒,857毫秒
----------------------------------------------------------
兰州 的相关词(SimHashPlusHammingDistanceTextSimilarity):
1、兰州 1.0
2、鱼水 0.96
3、冯导 0.95
4、新闻稿 0.95
5、科学 0.95
6、物业公司 0.95
7、现役军人 0.95
8、何人 0.95
9、张轸 0.94
10、公告 0.94
11、信息发布 0.94
12、倡议 0.94
13、药液 0.94
14、考古发掘 0.94
15、公开发布 0.94
耗时:5分钟,57秒,339毫秒
----------------------------------------------------------

####21、词频统计:

org.apdplat.word.WordFrequencyStatistics 提供了词频统计的功能
Expand Down

0 comments on commit 5e5caac

Please sign in to comment.