add tf_classify_demo

李闯 · 李闯 · commit 7369328a4097 · 2017-06-30T09:14:18.000+08:00
diff --git a/tf_classify_demo/classify.py b/tf_classify_demo/classify.py
@@ -0,0 +1,78 @@
+"""
+利用tensorflow做图书分类模型训练
+"""
+#!/usr/bin/env python
+# coding=utf8
+
+import sys
+import tensorflow as tf
+from http.server import BaseHTTPRequestHandler, HTTPServer
+import urllib.parse as parse
+from sample_data import InputData
+
+samples = InputData.read_data_sets('./data/sample/samples')
+config = tf.ConfigProto(device_count={'CPU':4})
+sess = tf.InteractiveSession(config=config)
+feature_len = samples.dim_info.x_dim
+x = tf.placeholder(tf.float32, [None, feature_len])
+W = tf.Variable(tf.zeros([feature_len, samples.maps.group_id_size()]))
+b = tf.Variable(tf.zeros([samples.maps.group_id_size()]))
+y = tf.nn.softmax(tf.matmul(x, W) + b)
+y_ = tf.placeholder(tf.float32, [None, samples.maps.group_id_size()])
+cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0)),\
+        reduction_indices=[1]))
+train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy)
+tf.global_variables_initializer().run()
+saver = tf.train.Saver()
+
+def train(samples, sess, x, y, y_, train_step):
+    """
+    利用无隐藏层的softmax实现简单的分类模型
+    """
+
+    samples.clear_word_vector()
+    test_xs, test_ys = samples.test_sets()
+
+    for i in range(10000):
+        batch_xs, batch_ys = samples.next_batch(1)
+        train_step.run({x: batch_xs, y_: batch_ys})
+
+        correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
+        accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
+        print(accuracy.eval({x: test_xs, y_: test_ys}))
+        saver.save(sess, 'data/model/model')
+
+def predict(samples, sess, x, y, y_, train_step):
+    x_s = samples.generate_xs('数据科学入门')
+    print(sess.run(tf.argmax(y, 1), feed_dict={x:x_s}))
+
+class MyServer(BaseHTTPRequestHandler):
+    def do_GET(self):
+        self.send_response(200)
+        self.send_header("Content-type", "application/json")
+        self.end_headers()
+        arg_dict = parse.urlparse(self.path)
+        if len(arg_dict.query) > 0 and 'q' in parse.parse_qs(arg_dict.query):
+            q = parse.parse_qs(arg_dict.query)['q'][0]
+            x_s = samples.generate_xs(q)
+            local_group_id = sess.run(tf.argmax(y, 1), feed_dict={x:x_s})[0]
+            group_id = samples.maps.real_group_id_map[str(local_group_id)]
+            print("q=", q, "group_id=", group_id)
+            self.wfile.write(bytes(str(group_id), "utf-8"))
+
+def main(is_predict):
+    if is_predict:
+        saver.restore(sess, 'data/model/model')
+        #predict(samples, sess, x, y, y_, train_step)
+        myServer = HTTPServer(("0.0.0.0", 5001), MyServer)
+        print("begin listen")
+        myServer.serve_forever()
+    else:
+        train(samples, sess, x, y, y_, train_step)
+
+
+if __name__ == '__main__':
+    is_predict = True
+    if len(sys.argv) > 1 and sys.argv[1] == "train":
+        is_predict = False
+    main(is_predict)
diff --git a/tf_classify_demo/data/sample/samples b/tf_classify_demo/data/sample/samples
@@ -0,0 +1,48 @@
+5 0-3岁孩子的正面管教
+2 11处特工皇妃
+5 50个教育法：我把三个儿子送入了斯坦福
+1 Excel这么用就对了
+1 JavaScript高级程序设计
+1 PPT,要你好看
+1 Python编程 从入门到实践
+1 TensorFlow实战亿级流量网站架构核心技术
+2 三生三世枕上书
+4 你从未真正拼过
+4 做人要稳，做事要狠
+3 公司理财
+3 古老东方投资术的现代指南
+2 和你在一起才是全世界2:么么哒
+3 国富论
+5 好妈妈胜过好老师
+5 如何培养出优秀的孩子
+5 如何说孩子才会听
+5 孩子：挑战
+2 守夜者：罪案终结者的觉醒
+2 官路十八弯4
+4 小强升职记：时间管理故事书
+5 当我遇见一个人：母婴关系决定孩子的一切关系
+3 彼得•林奇的成功投资
+2 意外事故 (少年绘明星系列丛书)
+5 捕捉儿童敏感期
+1 数学之美
+2 朱元璋传
+1 机器学习
+1 机器学习实战
+5 正面管教
+2 步履不停
+1 深入浅出数据分析
+3 澄明之境：青泽谈投资之道
+5 真正的蒙氏教育在家庭：蒙台梭利家庭教育解决方案
+3 穷爸爸富爸爸
+4 职场加分项：成为卓有成效的职业人
+5 聪明的妈妈教方法
+3 聪明的投资者
+3 股票大作手回忆录
+3 证券分析
+2 这世界偷偷爱着你
+4 这些道理没有人告诉过你
+4 这就是我背叛自己的方式
+5 这样跟孩子定规矩，孩子最不会抵触
+5 遇见孩子，遇见更好的自己
+1 马云:未来已来
+1 鸟哥的Linux私房菜
diff --git a/tf_classify_demo/sample_data.py b/tf_classify_demo/sample_data.py
@@ -0,0 +1,228 @@
+"""
+样本加载
+"""
+# coding=utf8
+
+import sys
+import random
+import jieba
+import numpy as np
+from word_vectors_loader import get_words_sizes, load_vectors
+
+VECTORS_BIN = 'data/wordvec/vectors.bin'
+TEST_COUNT = 5
+
+
+class DimInfo(object):
+    """
+    维度信息
+    """
+
+    def __init__(self):
+        # 词向量有多少维
+        self.vec_dim = 0
+        # 样本输入的x有多少维
+        self.x_dim = 0
+        # 当前最大的词编号是多大
+        self.max_word_id = -1
+
+    def get_vec_dim(self):
+        """
+        get_vec_dim
+        """
+        return self.vec_dim
+
+    def get_x_dim(self):
+        """
+        get_x_dim
+        """
+        return self.x_dim
+
+
+class Maps(object):
+    """
+    各种映射表
+    """
+
+    def __init__(self):
+        self.local_word_id_map = {}
+        self.local_group_id_map = {"1":0, "2":1, "3":2, "4":3, "5":4}
+        self.real_group_id_map = {}
+        for key in self.local_group_id_map:
+            value = str(self.local_group_id_map[key])
+            self.real_group_id_map[value] = int(key)
+
+    def get_local_word_id_map(self):
+        """
+        get_local_word_id_map
+        """
+        return self.local_word_id_map
+
+    def get_local_group_id_map(self):
+        """
+        get_local_group_id_map
+        """
+        return self.local_group_id_map
+
+    def group_id_size(self):
+        """
+        获取local_group的数量
+        """
+        return len(self.local_group_id_map)
+
+
+class InputData(object):
+    """
+    样本加载类
+    """
+
+    def __init__(self):
+        self.data = []
+        self.test_data = []
+        self.pos = 0
+        self.word_vector_dict, self.word_id_dict = load_vectors(VECTORS_BIN)
+        self.dim_info = DimInfo()
+        self.maps = Maps()
+        _, self.dim_info.vec_dim = get_words_sizes(VECTORS_BIN)
+        self.dim_info.x_dim = len(self.word_vector_dict) * self.dim_info.vec_dim
+        self.maps.local_word_id_map = {}
+
+    def clear_word_vector(self):
+        """
+        清理点内存
+        """
+        self.word_vector_dict.clear()
+        self.word_id_dict.clear()
+
+    @staticmethod
+    def read_data_sets(file_name):
+        """
+        读取文件，加载数据
+        """
+        instance = InputData()
+        file_object = open(file_name, 'r')
+        while True:
+            line = file_object.readline(1024)
+            if line:
+                line = line.strip()
+                if len(line) == 0:
+                    continue
+                split = line.split(' ')
+                group_id = 0
+                try:
+                    group_id = int(split[0])
+                except ValueError:
+                    continue
+                txt = ' '.join(split[1:])
+                txt = txt.replace('None', '').strip()
+                if len(txt) == 0:
+                    continue
+
+                vectors = {}
+                seg_list = jieba.cut(txt)
+                for seg in seg_list:
+                    seg_unicode = seg.encode('utf-8')
+                    if seg_unicode in instance.word_vector_dict:
+                        word_id = instance.word_id_dict[seg_unicode]
+                        if word_id in instance.maps.local_word_id_map:
+                            local_word_id = instance.maps.local_word_id_map[word_id]
+                            vectors[local_word_id] = instance.word_vector_dict[seg_unicode]
+                        else:
+                            local_word_id = instance.dim_info.max_word_id
+                            instance.maps.local_word_id_map[word_id] = local_word_id
+                            vectors[local_word_id] = instance.word_vector_dict[seg_unicode]
+                            instance.dim_info.max_word_id = instance.dim_info.max_word_id + 1
+
+                # 稀疏向量
+                item = {'vectors':vectors,
+                        'local_group_id':instance.maps.local_group_id_map[str(group_id)]}
+                instance.data.append(item)
+            else:
+                break
+        file_object.close()
+
+        random.shuffle(instance.data)
+        for _ in range(TEST_COUNT):
+            instance.test_data.append(instance.data.pop())
+        instance.dim_info.x_dim = instance.dim_info.max_word_id * instance.dim_info.vec_dim
+        print("max_word_id=", instance.dim_info.max_word_id)
+        print("x_dim=", instance.dim_info.x_dim)
+        return instance
+
+    def generate_xs(self, txt):
+        """
+        根据文本生成输入向量
+        """
+        x_s = []
+        vectors = {}
+        seg_list = jieba.cut(txt)
+        for seg in seg_list:
+            seg_unicode = seg.encode('utf-8')
+            if seg_unicode in self.word_vector_dict:
+                word_id = self.word_id_dict[seg_unicode]
+                if word_id in self.maps.local_word_id_map:
+                    local_word_id = self.maps.local_word_id_map[word_id]
+                    vectors[local_word_id] = self.word_vector_dict[seg_unicode]
+
+        x_array = np.zeros([self.dim_info.x_dim], dtype=np.float)
+        for word_id in vectors:
+            vector = vectors[word_id]
+            for index, weight in enumerate(vector):
+                x_array[word_id*self.dim_info.vec_dim+index] = weight
+        x_s.append(x_array)
+        return x_s
+
+
+    def next_batch(self, count):
+        """
+        获取一批样本数据
+        """
+        x_s = []
+        y_s = []
+        if self.pos >= len(self.data):
+            print("error")
+            sys.exit(1)
+        while count > 0:
+            item = self.data[self.pos]
+            vectors = item['vectors']
+            local_group_id = item['local_group_id']
+            x_array = np.zeros([self.dim_info.x_dim], dtype=np.float)
+            y_array = np.zeros(self.maps.group_id_size(), dtype=np.float)
+            y_array[local_group_id] = 1
+            for word_id in vectors:
+                vector = vectors[word_id]
+                for index, weight in enumerate(vector):
+                    x_array[word_id*self.dim_info.vec_dim+index] = weight
+            x_s.append(x_array)
+            y_s.append(y_array)
+            self.pos = (self.pos + 1) % len(self.data)
+            count = count - 1
+        return x_s, y_s
+
+    def test_sets(self):
+        """
+        获取测试样本集
+        """
+        x_s = []
+        y_s = []
+        for item in self.test_data:
+            vectors = item['vectors']
+            local_group_id = item['local_group_id']
+            x_array = np.zeros([self.dim_info.x_dim], dtype=np.float)
+            y_array = np.zeros(self.maps.group_id_size(), dtype=np.float)
+            y_array[local_group_id] = 1
+            for word_id in vectors:
+                vector = vectors[word_id]
+                for index, weight in enumerate(vector):
+                    x_array[word_id*self.dim_info.vec_dim+index] = weight
+            x_s.append(x_array)
+            y_s.append(y_array)
+        return x_s, y_s
+
+
+if __name__ == '__main__':
+    CLUES = InputData.read_data_sets('./data/sample/samples')
+    XS, YS = CLUES.next_batch(2)
+    print(XS)
+    print(XS[0].shape)
+    print(YS)
diff --git a/tf_classify_demo/word_vectors_loader.py b/tf_classify_demo/word_vectors_loader.py