diff --git a/README.md b/README.md index eaa15a84..8080884b 100644 --- a/README.md +++ b/README.md @@ -502,24 +502,154 @@ 从这里我们也可以看到一个有意思的现象,同一词性比如地名的用法往往保持一致。 相关词是从语境推导得到的,语境中词后面跟的数字是权重,权重是1/N的累加值 - 最后我们分别看看这些词的语境: + 下面我们看看这些词的语境: 兰州 : [军区 1.0, 甘肃 0.78205127, 新区 0.7692308, 大学 0.42307693, 甘肃兰州 0.41025642, 货车 0.3846154, 西安 0.32051283, 本报 0.2948718, 新华社 0.2820513, 兰州新区 0.26923078, 召开 0.23076923, 发往 0.21794872, 中国 0.20512821, 兰州 0.20512821, 火车站 0.20512821, 铁路 0.17948718, 参加 0.15384616, 西宁 0.15384616, 方向 0.15384616, 成都 0.14102565, 警察 0.14102565, 建设 0.12820514, 市委 0.12820514, 来到 0.12820514, 一家 0.12820514, 中心 0.115384616, 炼油厂 0.102564104, 进入 0.102564104, 来自 0.102564104, 举行 0.102564104] - 沈阳 : [军区 1.0, 晚报 0.5123967, 方向 0.3181818, 本报 0.27272728, 沈阳晚报 0.23553719, 新华社 0.20661157, 沈阳军区 0.18595041, 军区队 0.15289256, 海狮队 0.14876033, 自动化所 0.14049587, 此次 0.14049587, 经济区 0.1322314, 中国 0.12809917, >大连 0.12809917, 大爷 0.12809917, 市委 0.12396694, 一家 0.11570248, 高速 0.11570248, 国际 0.11157025, 火车票 0.11157025, 法库 0.10743801, 大学 0.10330579, 长春 0.10330579, 直达 0.09917355, 深圳 0.09090909, 上海 0.08677686, 记者 0.08677686, 海狮 0.08264463, 大妈 0.08264463, 两位 0.08264463] + 北京 : [新华社 1.0, 本报 0.7119143, 举行 0.19384204, 上海 0.17831326, 时间 0.16385542, 铁路局 0.1394913, 西站 0.13226238, 青年报 0.12717536, 晨报 0.11700134, 市委 0.1145917, 地区 0.11218206, 召开 0.10200803, 城市 0.08299866, 目前 0.07951807, 来到 0.06961178, 军区 0.06827309, 国际 0.066398926, 中心 0.063453816, 北京时间 0.06184739, 人民 0.059973225, 工作 0.05863454, 地铁 0.057563588, 北京铁路局 0.056492638, 医院 0.055421688, 飞往 0.05381526, 首都 0.053547524, 中国 0.053547524, 其中 0.05274431, 今天 0.052208837, 卫视 0.05167336] 福州 : [火车站 1.0, 新区 0.46666667, 福州火车站 0.45555556, 晚报 0.2962963, 记者 0.2777778, 打工 0.27407408, 来到 0.24814814, 市民 0.23333333, 本报 0.22222222, 大学 0.21851853, 市区 0.2074074, 市委 0.19259259, 举行 0.19259259, 鼓楼区 0.18518518, 网友 0.18148148, 到达 0.17037037, 开往 0.16296296, 目前 0.14074074, 分行 0.14074074, 一家 0.12962963, 全市 0.12962963, 东街口 0.12222222, 福州晚报 0.12222222, 新华社 0.11851852, 铁路 0.11851852, 召开 0.11481482, 前往 0.11481482, 发展 0.11481482, 推进 0.11111111, 福州 0.11111111] - 西安 : [火车站 1.0, 事变 0.75, 交通 0.7058824, 建设 0.5882353, 地铁 0.5882353, >咸阳 0.5588235, 来到 0.5294118, 市民 0.50735295, 大学 0.5, 铁路 0.5, 代表团 0.5, 铁路局 0.49264705, 公司 0.4852941, 武汉 0.4632353, 曲江 0.44117647, 供电 0.42647058, 新华社 0.4117647, 西安火车站 0.4117647, 北京 0.3602941, 交大 0.3602941, 本报 0.34558824, 西安事变 0.3382353, 城市 0.31617647, 城区 0.31617647, 落户 0.30882353, 市委 0.29411766, 国际 0.2867647, 城东 0.2867647, 成都 0.2720588, 举行 0.25] - 武汉 : [大学 1.0, 晚报 0.97572815, 湖北 0.61650485, 湖北武汉 0.44660193, 中心 0.4368932, 武汉晚报 0.43203884, 长江 0.41747573, 绿地 0.407767, 铁路局 0.407767, >铁路 0.39320388, 本报 0.36893204, 地区 0.3592233, 火车站 0.35436893, 开发区 0.3398058, 西安 0.30582523, 市民 0.30097088, 理工大学 0.2815534, 华旗 0.23300971, 新华社 0.22330096, 来自 0.2184466, 目前 0.2184466, 剧院 0.21359223, 高校 0.20873787, 公司 0.19417475, 年度 0.19417475, 市委 0.18932039, 分行 0.18932039, 警方 0.18932039, 北京 0.18446602, 武汉铁路局 0.18446602] - 济南 : [全运村 1.0, 绿城 0.88461536, 山东 0.84615386, 军区 0.8173077, 交警 0.6442308, 山东济南 0.5576923, 本报 0.5, 军区队 0.43269232, 新华社 0.3846154, 开往 0.3653846, 项目 0.25, 亮相 0.25, 第一团 0.23076923, 城区 0.23076923, 来自 0.22115384, 太原 0.21153846, 北京 0.1826923, 青岛 0.1826923, 学习 0.17307693, 沃尔玛 0.17307693, 举行 0.16346154, 石家庄 0.15384616, 前往 0.15384616, 市委 0.14423077, >战役 0.13461539, 市民 0.13461539, 来到 0.125, 上海 0.125, 铁路局 0.115384616, 旗下 0.115384616] - 南京 : [大学 1.0, 大屠杀 0.9218107, 市政协 0.6995885, 军区 0.5596708, 政协 0.4691358, 上海 0.4526749, 市长 0.4526749, 当选 0.43209878, 南京大屠杀 0.35390946, 市委 0.33744857, 南京市政协 0.31687242, 新华社 0.30452675, 特务 0.2962963, 来到 0.28395063, 日军 0.28395063, 江宁 0.26337448, 市民 0.2345679, 新街口 0.23045267, >本报 0.22633745, 国际 0.22222222, 南京大学 0.20164609, 缪瑞林 0.20164609, 位于 0.19753087, 曾任 0.19753087, 南京政协 0.18518518, 占领 0.17283951, 关于 0.17283951, 今年 0.16872428, 厦门 0.16460906, 长江 0.14814815] - 拉萨 : [火车站 1.0, 新华社 0.91935486, 西藏 0.7580645, 市区 0.61290324, 本报 0.58064514, 召开 0.5645161, 海关 0.5483871, 城市 0.48387095, 拉萨火车站 0.4032258, 市委 0.38709676, 成都 0.37096775, 贡嘎 0.3548387, 开幕 0.32258064, 发布 0.30645162, 西藏拉萨 0.2580645, 会议 0.2580645, 机场 0.22580644, 闭幕 0.22580644, 隆重 0.22580644, 林芝 0.20967741, 举行 0.19354838, 开通 0.19354838, 营业部 0.19354838, 市民 0.17741935, 市场 0.17741935, 经济 0.17741935, 中心 0.17741935, 空气 0.17741935, 成为 0.17741935, 人民 0.16129032] - 广州 : [上海 1.0, 恒大 0.7619048, 深圳 0.62637365, 军区 0.46886447, 北京 0.3956044, 铁路 0.36630037, 火车站 0.35531136, 日报 0.24908425, 广州恒大 0.23076923, 新华社 0.21978022, 一家 0.2014652, 本报 0.1978022, 海口 0.18681319, 第一 0.17948718, 开往 0.17582418, 警方 0.17216118, 前往 0.16849817, 金域 0.16117217, 松日队 0.15384616, 住在 0.14652015, 成都 0.14285715, 举行 0.13553114, 海关 0.13553114, 武汉 0.12820514, 广州火车站 0.12820514, 出差 0.124542125, 太阳神队 0.124542125, 飞往 0.124542125, 番禺 0.124542125, 城市 0.12087912] - 南昌 : [本报 1.0, 江西 0.94, 铁路局 0.92, 江西南昌 0.76, 武汉 0.62, 市委 0.52, >北京 0.52, 南昌铁路局 0.52, 发展 0.5, 大学 0.36, 参加 0.36, 高新科技 0.32, 开往 0.32, 鹿心社 0.32, 新华社 0.28, 人员 0.26, 举行 0.24, 原本 0.24, 高校 0.24, 宁波 0.24, 上海 0.22, 合肥 0.2, 依旧 0.2, 火车站 0.2, 来自 0.2, 代表团 0.2, 全年 0.2, 居住 0.2, 创业 0.2, 符合 0.2] - 北京 : [新华社 1.0, 本报 0.7119143, 举行 0.19384204, 上海 0.17831326, 时间 0.16385542, 铁路局 0.1394913, 西站 0.13226238, 青年报 0.12717536, 晨报 0.11700134, 市委 0.1145917, 地区 0.11218206, 召开 0.10200803, 城市 0.08299866, 目前 0.07951807, 来到 0.06961178, 军区 0.06827309, 国际 0.066398926, 中心 0.063453816, 北京时间 0.06184739, 人民 0.059973225, 工作 0.05863454, 地铁 0.057563588, 北京铁路局 0.056492638, 医院 0.055421688, 飞往 0.05381526, 首都 0.053547524, 中国 0.053547524, 其中 0.05274431, 今天 0.052208837, 卫视 0.05167336] - 郑州 : [市委 1.0, 河南 0.7407407, 晚报 0.7407407, 大学 0.7037037, 电视台 0.69135803, 二环 0.6419753, 深圳 0.5925926, 地铁 0.54320985, 市民 0.4814815, 新华社 0.44444445, 本报 0.41975307, 郑州电视台 0.39506173, 河南郑州 0.39506173, 武汉 0.3580247, 郑州市委 0.34567901, 万能 0.32098764, 方向 0.28395063, 铁路局 0.27160493, 上海 0.27160493, 一卡通 0.27160493, 往返 0.25925925, 要求 0.25925925, 北京 0.24691358, 记者 0.24691358, 西安 0.2345679, 郑州晚报 0.2345679, 新闻 0.22222222, 一>家 0.22222222, 郑州 0.19753087, 广州 0.18518518] - 贵阳 : [本报 1.0, 重庆 0.73333335, 新华社 0.46666667, 方向 0.43333334, 前往 0.4, 哥俩 0.4, 城区 0.4, 老家 0.33333334, 西安 0.26666668, 成都 0.26666668, 街头 0.26666668, 晚报 0.26666668, 无关 0.26666668, 杭州 0.23333333, 涉及 0.2, 以及 0.2, 市内 0.2, 网友 0.2, 郑州 0.16666667, 南宁 0.16666667, 长沙 0.16666667, 武汉 0.16666667, 摆摊 0.16666667, 市委 0.13333334, 昆明 0.13333334, 安顺 0.13333334, 来到 0.13333334, 争霸 0.13333334, 四强 0.13333334, 铁路 0.13333334] - 天津 : [北京 1.0, 本报 0.56804734, 河北 0.53846157, 上海 0.52662724, 市委 0.4852071, 卫视 0.43786982, 女排 0.34319526, 东方 0.34319526, 大学 0.3372781, 浙江 0.32544377, 新华社 0.3195266, 滨海 0.2781065, 中国 0.26035503, 不理 0.18343195, 中>共 0.17751479, 人民 0.17751479, 考察 0.17751479, 青年 0.17159763, 重庆 0.16568047, 儿童 0.16568047, 天津卫视 0.16568047, 福建 0.1597633, 新区 0.147929, 宁夏 0.147929, 日报 0.14201184, 工作 0.14201184, 来自 0.14201184, 南部 0.14201184, 安徽 0.14201184, 中华老字号 0.14201184] - 长沙 : [湖南 1.0, 湖南长沙 0.6567164, 本报 0.52238804, 成都 0.47761193, 方向 0.4477612, 北京 0.3283582, 来到 0.3283582, 海底 0.32089552, 新华社 0.30597016, 飞往 0.2835821, 晚报 0.26865673, 天心区 0.23134328, 重庆 0.21641791, 警方 0.20895523, 开往 0.20895523, 车票 0.20149253, 市委 0.19402985, 离开 0.19402985, 南方 0.19402985, 省会 0.17910448, 武汉 0.1716418, 世界 0.1716418, 上海 0.1716418, 火车站 0.1716418, 市民 0.15671642, 城市 0.14925373, 记者 0.14925373, 麓谷 0.14925373, 铁路 0.14179105, 交警 0.13432837] - + 太原 : [山西 1.0, 山西太原 0.6136364, 本报 0.39772728, 新华社 0.3409091, 火车站 0.26136363, 济南 0.25, 铁路 0.23863636, 北京 0.22727273, 推出 0.1590909, 国际 0.1590909, 返回 0.14772727, 刚玉 0.13636364, 来自 0.13636364, 发布 0.13636364, 打工 0.125, 中心 0.125, 市委 0.11363637, 银行 0.11363637, 铁路局 0.10227273, 西安 0.09090909, 集团 0.09090909, 公安 0.09090909, 开往 0.09090909, 比如 0.07954545, 金融 0.07954545, 火车票 0.07954545, 大同 0.06818182, 山西省 0.06818182, 军分区 0.06818182, 离开 0.06818182] + 成都 : [商报 1.0, 成都商报 0.4117647, 军区 0.1875, 铁路局 0.17830883, 北京 0.17463236, 本报 0.17095588, 重庆 0.15441176, 告诉 0.15441176, 交警 0.14338236, 方向 0.1360294, 记者 0.13419117, 平原 0.121323526, 四川 0.1194853, 长沙 0.11764706, 理工大学 0.0992647, 来自 0.09375, 新华社 0.09191176, 开往 0.090073526, 成都铁路局 0.08455882, 铁路 0.080882356, 召开 0.07904412, 市民 0.075367644, 市委 0.073529415, 公司 0.07169118, 广州 0.07169118, 西安 0.0680147, 郫县 0.060661763, 打工 0.060661763, 市区 0.05882353, 晚报 0.05882353] + 西安 : [火车站 1.0, 事变 0.75, 交通 0.7058824, 建设 0.5882353, 地铁 0.5882353, >咸阳 0.5588235, 来到 0.5294118, 市民 0.50735295, 大学 0.5, 铁路 0.5, 代表团 0.5, 铁路局 0.49264705, 公司 0.4852941, 武汉 0.4632353, 曲江 0.44117647, 供电 0.42647058, 新华社 0.4117647, 西安火车站 0.4117647, 北京 0.3602941, 交大 0.3602941, 本报 0.34558824, 西安事变 0.3382353, 城市 0.31617647, 城区 0.31617647, 落户 0.30882353, 市委 0.29411766, 国际 0.2867647, 城东 0.2867647, 成都 0.2720588, 举行 0.25] + 哈尔滨 : [理工大学 1.0, 火车站 0.41584158, 哈尔滨理工大学 0.36138615, 工业 0.25742576, 方向 0.23762377, 新华社 0.20792079, 开往 0.18811882, 哈尔滨火车站 0.18316832, 位于 0.17821783, 大学 0.17326732, 铁路局 0.15841584, 来自 0.15346535, 最低 0.14356436, 北京 0.12871288, 本报 0.12376238, 黑龙江省 0.12376238, 发布 0.11386139, 中国 0.10891089, 飞往 0.0990099, 黑龙>江 0.08415841, 沈阳 0.07920792, 工程 0.07920792, 附近 0.074257426, 市委 0.06930693, 飞机 0.06930693, 上海 0.06930693, 考生 0.06930693, 进入 0.06930693, 停止 0.06930693, 经济 0.06435644] + 南宁 : [广西 1.0, 铁路局 0.8, 广西南宁 0.62222224, 本报 0.54444444, 新华社 0.36666667, 南宁铁路局 0.31111112, 市委 0.26666668, 柳州 0.18888889, 桂林 0.17777778, 铁路 0.15555556, 兴>宁区 0.14444445, 来到 0.11111111, 开往 0.11111111, 前往 0.11111111, 公安 0.11111111, 工作 0.11111111, 运往 0.11111111, 城市 0.08888889, 美丽 0.08888889, 召开 0.08888889, 从事 0.08888889, 官塘 0.08888889, 楼市 0.08888889, 分局 0.07777778, 南宁市委 0.07777778, 动车 0.07777778, 发生 0.07777778, 举行 0.07777778, 西乡 0.06666667, 市长 0.06666667] + 贵阳 : [本报 1.0, 重庆 0.73333335, 新华社 0.46666667, 方向 0.43333334, 前往 0.4, 哥俩 0.4, 城区 0.4, 老家 0.33333334, 西安 0.26666668, 成都 0.26666668, 街头 0.26666668, 晚报 0.26666668, 无关 0.26666668, 杭州 0.23333333, 涉及 0.2, 以及 0.2, 市内 0.2, 网友 0.2, 郑州 0.16666667, 南宁 0.16666667, 长沙 0.16666667, 武汉 0.16666667, 摆摊 0.16666667, 市委 0.13333334, 昆明 0.13333334, 安顺 0.13333334, 来到 0.13333334, 争霸 0.13333334, 四强 0.13333334, 铁路 0.13333334] + 庆阳 : [甘肃 1.0, 甘肃庆阳 0.8, 甘肃省 0.4, 地区 0.4, 老区 0.3, 森林 0.2, 平凉 0.2, 镇远县 0.1, 革命 0.1, 韩凤廷 0.1, 交通处 0.1, 兰州森林大队 0.1, 大队 0.1, 兰州 0.1, 西峰 0.1, 发>送 0.1, 一辆 0.1, 牌照 0.1, 来自 0.1] + 沈阳 : [军区 1.0, 晚报 0.5123967, 方向 0.3181818, 本报 0.27272728, 沈阳晚报 0.23553719, 新华社 0.20661157, 沈阳军区 0.18595041, 军区队 0.15289256, 海狮队 0.14876033, 自动化所 0.14049587, 此次 0.14049587, 经济区 0.1322314, 中国 0.12809917, >大连 0.12809917, 大爷 0.12809917, 市委 0.12396694, 一家 0.11570248, 高速 0.11570248, 国际 0.11157025, 火车票 0.11157025, 法库 0.10743801, 大学 0.10330579, 长春 0.10330579, 直达 0.09917355, 深圳 0.09090909, 上海 0.08677686, 记者 0.08677686, 海狮 0.08264463, 大妈 0.08264463, 两位 0.08264463] + 合肥 : [火车站 1.0, 市民 0.8181818, 市区 0.53333336, 楼市 0.4848485, 合肥火车站 0.4121212, 铁路 0.38787878, 安徽 0.36969697, 到达 0.36363637, 市场 0.34545454, 上周 0.3030303, 芜湖 0.2969697, 召开 0.28484848, 记者 0.27272728, 成为 0.27272728, 来到 0.26666668, 安徽合肥 0.24242425, 城市 0.24242425, 经济圈 0.24242425, 公交 0.24242425, 目前 0.23636363, 本报 0.21818182, 今年 0.21818182, 起飞 0.21818182, 汽车 0.21212122, 物质 0.2060606, 合肥楼市 0.2060606, 空港 0.2060606, 工业 0.19393939, 标题 0.18181819, 野生 0.16969697] + 大同 : [大学 1.0, 铁路 0.52380955, 山西 0.5, 证券 0.33333334, 大同大学 0.33333334, 山西省 0.23809524, 此次 0.23809524, 山西大同 0.1904762, 世界 0.1904762, 世界大同 0.1904762, 街道 0.16666667, 太原 0.14285715, 市委 0.14285715, 上海 0.14285715, 派出所 0.14285715, 公安处 0.14285715, 日方 0.14285715, 转发 0.14285715, 运城 0.11904762, 军分区 0.0952381, 矿务局 0.0952381, 小学 0.0952381, 参加 0.0952381, 项目 0.0952381, 中学 0.0952381, 水厂 0.0952381, 车辆段 0.0952381, 开往 0.0952381, 大同证券 0.0952381, 战役 0.071428575] + 拉萨 : [火车站 1.0, 新华社 0.91935486, 西藏 0.7580645, 市区 0.61290324, 本报 0.58064514, 召开 0.5645161, 海关 0.5483871, 城市 0.48387095, 拉萨火车站 0.4032258, 市委 0.38709676, 成都 0.37096775, 贡嘎 0.3548387, 开幕 0.32258064, 发布 0.30645162, 西藏拉萨 0.2580645, 会议 0.2580645, 机场 0.22580644, 闭幕 0.22580644, 隆重 0.22580644, 林芝 0.20967741, 举行 0.19354838, 开通 0.19354838, 营业部 0.19354838, 市民 0.17741935, 市场 0.17741935, 经济 0.17741935, 中心 0.17741935, 空气 0.17741935, 成为 0.17741935, 人民 0.16129032] + 西宁 : [新华社 1.0, 上海 0.8235294, 兰州 0.3529412, 辗转 0.3529412, 本报 0.29411766, 青海 0.29411766, 考察 0.23529412, 当街 0.23529412, 特钢 0.1764706, 方向 0.1764706, 分行 0.1764706, 索贿 0.1764706, 北京 0.14705883, 但是 0.14705883, 拉萨 0.11764706, 我们 0.11764706, 标题 0.11764706, 交警 0.11764706, 代表团 0.11764706, 处理 0.0882353, 银川 0.0882353, 车票 0.0882353, 筹建 0.0882353, 中转 0.0882353, 参加 0.0882353, 一月 0.05882353, 试验局 0.05882353, 二月 0.05882353, 地区 0.05882353, 严肃 0.05882353] + + 最后我们看一下分别使用7种相似度算法算出来的 兰州 的相关词: + + ---------------------------------------------------------- + 兰州 的相关词(CosineTextSimilarity): + 1、兰州 1.0 + 2、沈阳 0.5 + 3、北京军区 0.47 + 4、后勤部 0.46 + 5、沈阳军区 0.46 + 6、总医院 0.46 + 7、新疆军区 0.46 + 8、司令员 0.42 + 9、甘肃兰州 0.42 + 10、兰州新区 0.42 + 11、某师 0.39 + 12、郑蒲港 0.38 + 13、西咸 0.38 + 14、天水 0.37 + 15、郑东 0.37 + 耗时:25秒,572毫秒 + ---------------------------------------------------------- + 兰州 的相关词(EditDistanceTextSimilarity): + 1、兰州 1.0 + 2、北京 0.21 + 3、福州 0.2 + 4、太原 0.19 + 5、成都 0.17 + 6、南宁 0.17 + 7、西安 0.17 + 8、哈尔滨 0.17 + 9、贵阳 0.16 + 10、庆阳 0.15 + 11、合肥 0.14 + 12、大同 0.14 + 13、沈阳 0.14 + 14、珀斯 0.13 + 15、拉萨 0.13 + 耗时:44秒,253毫秒 + ---------------------------------------------------------- + 兰州 的相关词(EuclideanDistanceTextSimilarity): + 1、兰州 1.0 + 2、后勤部 0.37 + 3、北京军区 0.37 + 4、新疆军区 0.37 + 5、沈阳 0.37 + 6、沈阳军区 0.37 + 7、总医院 0.37 + 8、上海浦东新区 0.36 + 9、郑蒲港 0.36 + 10、浦东新区 0.36 + 11、甘肃兰州 0.36 + 12、西咸 0.36 + 13、西咸新区 0.36 + 14、正定新区 0.36 + 15、司令员 0.36 + 耗时:24秒,710毫秒 + ---------------------------------------------------------- + 兰州 的相关词(SimpleTextSimilarity): + 1、兰州 1.0 + 2、福州 0.36 + 3、西安 0.33 + 4、李红旗 0.33 + 5、中国金融信息中心 0.33 + 6、南特 0.32 + 7、卡塔赫纳 0.32 + 8、哈尔滨 0.3 + 9、武汉 0.3 + 10、戴克瑞 0.3 + 11、楚雄州 0.29 + 12、朱梦魁 0.29 + 13、岳菲菲 0.29 + 14、长沙 0.28 + 15、吕国庆 0.28 + 耗时:21秒,918毫秒 + ---------------------------------------------------------- + 兰州 的相关词(JaccardTextSimilarity): + 1、兰州 1.0 + 2、福州 0.22 + 3、西安 0.2 + 4、哈尔滨 0.18 + 5、北京 0.18 + 6、武汉 0.18 + 7、成都 0.18 + 8、长沙 0.15 + 9、太原 0.15 + 10、贵阳 0.15 + 11、沈阳 0.15 + 12、广州 0.15 + 13、拉萨 0.15 + 14、南昌 0.15 + 15、长春 0.13 + 耗时:19秒,717毫秒 + ---------------------------------------------------------- + 兰州 的相关词(ManhattanDistanceTextSimilarity): + 1、兰州 1.0 + 2、上海浦东新区 0.11 + 3、陕西西咸新区 0.11 + 4、甘肃兰州 0.11 + 5、北京军区 0.11 + 6、新疆军区 0.11 + 7、西咸 0.11 + 8、正定新区 0.11 + 9、天府新区 0.11 + 10、沈阳军区 0.11 + 11、国家级新区 0.11 + 12、兰州新区 0.11 + 13、侠客 0.1 + 14、威胁论 0.1 + 15、一两个月 0.1 + 耗时:23秒,857毫秒 + ---------------------------------------------------------- + 兰州 的相关词(SimHashPlusHammingDistanceTextSimilarity): + 1、兰州 1.0 + 2、鱼水 0.96 + 3、冯导 0.95 + 4、新闻稿 0.95 + 5、科学 0.95 + 6、物业公司 0.95 + 7、现役军人 0.95 + 8、何人 0.95 + 9、张轸 0.94 + 10、公告 0.94 + 11、信息发布 0.94 + 12、倡议 0.94 + 13、药液 0.94 + 14、考古发掘 0.94 + 15、公开发布 0.94 + 耗时:5分钟,57秒,339毫秒 + ---------------------------------------------------------- + ####21、词频统计: org.apdplat.word.WordFrequencyStatistics 提供了词频统计的功能