change

XGlorot · XGlorot · commit 1823fa71171e · 2013-02-27T16:07:35.000+01:00
diff --git a/Tensor/Tensor_evaluation.py b/Tensor/Tensor_evaluation.py
@@ -0,0 +1,80 @@
+#! /usr/bin/python
+
+from model import *
+
+
+def load_file(path):
+    return scipy.sparse.csr_matrix(cPickle.load(open(path)),
+            dtype=theano.config.floatX)
+
+
+def convert2idx(spmat):
+    rows, cols = spmat.nonzero()
+    return rows[np.argsort(cols)]
+
+
+def compute_prauc(pred, lab):
+    pred = np.asarray(pred)
+    lab = np.asarray(lab)
+
+    order = np.argsort(pred)
+    lab_ordered = lab[order]
+    pred_ordered = pred[order]
+
+    precision = {}
+    recall = {}
+    # All examples are classified 1
+    precision[np.min(pred_ordered) - 1.0] = (np.sum(lab_ordered) /
+            float(len(lab)))
+    recall[np.min(pred_ordered) - 1.0] = 1.
+    for i in range(len(lab)):
+        if len(lab) - i - 1 == 0:
+            # No examples are classified 1
+            precision[pred_ordered[i]] = 1
+        else:
+            precision[pred_ordered[i]] = (np.sum(lab_ordered[i + 1:]) /
+                    float(len(lab) - i - 1))
+        recall[pred_ordered[i]] = (np.sum(lab_ordered[i + 1:]) /
+                float(np.sum(lab_ordered)))
+
+    # Precision-Recall curve points
+    points = []
+    for i in np.sort(precision.keys())[::-1]:
+        points += [(float(recall[i]), float(precision[i]))]
+    # Compute area
+    auc = sum((y0 + y1) / 2. * (x1 - x0) for (x0, y0), (x1, y1) in
+            zip(points[:-1], points[1:]))
+    return auc
+
+
+def PRAUCEval(datapath='../data/', dataset='umls-test',
+        loadmodel='best_valid_model.pkl', fold=0):
+
+    # Load model
+    f = open(loadmodel)
+    embeddings = cPickle.load(f)
+    leftop = cPickle.load(f)
+    rightop = cPickle.load(f)
+    simfn = cPickle.load(f)
+    f.close()
+
+    # Load data
+    l = load_file(datapath + dataset + '-lhs-fold%s.pkl' % fold)
+    r = load_file(datapath + dataset + '-rhs-fold%s.pkl' % fold)
+    o = load_file(datapath + dataset + '-rel-fold%s.pkl' % fold)
+    if type(embeddings) is list:
+        o = o[-embeddings[1].N:, :]
+    out = cPickle.load(open(datapath + '%s-targets-fold%s.pkl' %
+        (dataset, fold)))
+
+    func = SimFn(simfn, embeddings, leftop, rightop)
+    sim = func(l, r, o)[0]
+
+    AUC = compute_prauc(list(sim), list(out))
+    print "### Prediction Recall AUC:", AUC
+
+    return AUC
+
+
+if __name__ == '__main__':
+    PRAUCEval()
diff --git a/Tensor/Tensor_parse.py b/Tensor/Tensor_parse.py
@@ -0,0 +1,214 @@
+import os
+import cPickle
+
+import numpy
+import scipy.sparse
+
+# Number of folds
+K = 10
+datapath = None
+assert datapath is not None
+
+if 'data' not in os.listdir('../'):
+        os.mkdir('../data')
+
+for dataset in ['kinships', 'umls', 'nations']:
+    f = open(datapath + dataset + '.pkl')
+    dictdata = cPickle.load(f)
+    tensordata = dictdata['tensor']
+
+    # List non-zeros
+    lnz = []
+    # List zeros
+    lz = []
+    # List of feature triplets
+    if dataset == 'nations':
+        lzfeat = []
+        lnzfeat = []
+    # Fill the lists
+    for i in range(tensordata.shape[0]):
+        for j in range(tensordata.shape[1]):
+            for k in range(tensordata.shape[2]):
+                # Separates features triplets for nation
+                if dataset == 'nations' and (i >= 14 or j >= 14):
+                    if tensordata[i, j, k] == 0:
+                        lzfeat += [(i, j, k)]
+                    elif tensordata[i, j, k] == 1:
+                        lnzfeat += [(i, j, k)]
+                else:
+                    if tensordata[i, j, k] == 0:
+                        lz += [(i, j, k)]
+                    elif tensordata[i, j, k] == 1:
+                        lnz += [(i, j, k)]
+
+    # Pad the feature triplets lists (same for all training folds)
+    if dataset == 'nation':
+        if len(lzfeat) < len(lnzfeat):
+            while len(lzfeat) < len(lnzfeat):
+                lzfeat += lzfeat[:len(lnzfeat) - len(lzfeat)]
+        else:
+            while len(lnzfeat) < len(lzfeat):
+                lnzfeat += lnzfeat[:len(lzfeat) - len(lnzfeat)]
+
+    f = open(datapath + dataset + '_permutations.pkl')
+    idxnz = cPickle.load(f)
+    idxz = cPickle.load(f)
+    f.close()
+
+    # For each fold
+    for k in range(K):
+        if k != K - 1:
+            tmpidxnz = (idxnz[:k * len(idxnz) / K] +
+                        idxnz[(k + 2) * len(idxnz) / K:])
+            tmpidxz = (idxz[:k * len(idxz) / K] +
+                       idxz[(k + 2) * len(idxz) / K:])
+            tmpidxtestnz = idxnz[k * len(idxnz) / K:(k + 1) * len(idxnz) / K]
+            tmpidxtestz = idxz[k * len(idxz) / K:(k + 1) * len(idxz) / K]
+            tmpidxvalnz = idxnz[(k + 1) * len(idxnz) / K:
+                                (k + 2) * len(idxnz) / K]
+            tmpidxvalz = idxz[(k + 1) * len(idxz) / K:(k + 2) * len(idxz) / K]
+        else:
+            tmpidxnz = idxnz[len(idxnz) / K:k * len(idxnz) / K]
+            tmpidxz = idxz[len(idxz) / K:k * len(idxz) / K]
+            tmpidxtestnz = idxnz[k * len(idxnz) / K:(k + 1) * len(idxnz) / K]
+            tmpidxtestz = idxz[k * len(idxz) / K:(k + 1) * len(idxz) / K]
+            tmpidxvalnz = idxnz[:len(idxnz) / K]
+            tmpidxvalz = idxz[:len(idxz) / K]
+
+        # Test data files
+        testl = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxtestnz) + len(tmpidxtestz)))
+        testr = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxtestnz) + len(tmpidxtestz)))
+        testo = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxtestnz) + len(tmpidxtestz)))
+        outtest = []
+        ct = 0
+        for j in tmpidxtestnz:
+            i = lnz[j]
+            testl[i[0], ct] = 1
+            testr[i[1], ct] = 1
+            testo[i[2] + tensordata.shape[1], ct] = 1
+            outtest += [1]
+            ct += 1
+        for j in tmpidxtestz:
+            i = lz[j]
+            testl[i[0], ct] = 1
+            testr[i[1], ct] = 1
+            testo[i[2] + tensordata.shape[1], ct] = 1
+            outtest += [0]
+            ct += 1
+        f = open('../data/%s-test-lhs-fold%s.pkl' % (dataset, k), 'w')
+        g = open('../data/%s-test-rhs-fold%s.pkl' % (dataset, k), 'w')
+        h = open('../data/%s-test-rel-fold%s.pkl' % (dataset, k), 'w')
+        l = open('../data/%s-test-targets-fold%s.pkl' % (dataset, k), 'w')
+        cPickle.dump(testl.tocsr(), f, -1)
+        cPickle.dump(testr.tocsr(), g, -1)
+        cPickle.dump(testo.tocsr(), h, -1)
+        cPickle.dump(numpy.asarray(outtest), l, -1)
+        f.close()
+        g.close()
+        h.close()
+        l.close()
+
+        # Valid data files
+        validl = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxvalnz) + len(tmpidxvalz)))
+        validr = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxvalnz) + len(tmpidxvalz)))
+        valido = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], len(tmpidxvalnz) + len(tmpidxvalz)))
+        outvalid = []
+        ct = 0
+        for j in tmpidxvalnz:
+            i = lnz[j]
+            validl[i[0], ct] = 1
+            validr[i[1], ct] = 1
+            valido[i[2] + tensordata.shape[1], ct] = 1
+            outvalid += [1]
+            ct += 1
+        for j in tmpidxvalz:
+            i = lz[j]
+            validl[i[0], ct] = 1
+            validr[i[1], ct] = 1
+            valido[i[2] + tensordata.shape[1], ct] = 1
+            outvalid += [0]
+            ct += 1
+        f = open('../data/%s-valid-lhs-fold%s.pkl' % (dataset, k), 'w')
+        g = open('../data/%s-valid-rhs-fold%s.pkl' % (dataset, k), 'w')
+        h = open('../data/%s-valid-rel-fold%s.pkl' % (dataset, k), 'w')
+        l = open('../data/%s-valid-targets-fold%s.pkl' % (dataset, k), 'w')
+        cPickle.dump(validl.tocsr(), f, -1)
+        cPickle.dump(validr.tocsr(), g, -1)
+        cPickle.dump(valido.tocsr(), h, -1)
+        cPickle.dump(numpy.asarray(outvalid), l, -1)
+        f.close()
+        g.close()
+        h.close()
+        l.close()
+
+        # Train data files
+        # Pad the shorter list
+        if len(tmpidxz) < len(tmpidxnz):
+            while len(tmpidxz) < len(tmpidxnz):
+                tmpidxz += tmpidxz[:len(tmpidxnz) - len(tmpidxz)]
+        else:
+            while len(tmpidxnz) < len(tmpidxz):
+                tmpidxnz += tmpidxnz[:len(tmpidxz) - len(tmpidxnz)]
+
+        ct = len(tmpidxz)
+        if dataset == 'nations':
+            ct += len(lzfeat)
+        trainposl = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        trainnegl = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        trainposr = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        trainnegr = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        trainposo = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        trainnego = scipy.sparse.lil_matrix((tensordata.shape[1] +
+            tensordata.shape[2], ct))
+        ct = 0
+        for u, v in zip(tmpidxnz, tmpidxz):
+            ipos = lnz[u]
+            ineg = lz[v]
+            trainposl[ipos[0], ct] = 1
+            trainnegl[ineg[0], ct] = 1
+            trainposr[ipos[1], ct] = 1
+            trainnegr[ineg[1], ct] = 1
+            trainposo[ipos[2] + tensordata.shape[1], ct] = 1
+            trainnego[ineg[2] + tensordata.shape[1], ct] = 1
+            ct += 1
+        # Add all the feature triplets to each folds
+        if dataset == 'nations':
+            for u, v in zip(lnzfeat, lzfeat):
+                ipos = u
+                ineg = v
+                trainposl[ipos[0], ct] = 1
+                trainnegl[ineg[0], ct] = 1
+                trainposr[ipos[1], ct] = 1
+                trainnegr[ineg[1], ct] = 1
+                trainposo[ipos[2] + tensordata.shape[1], ct] = 1
+                trainnego[ineg[2] + tensordata.shape[1], ct] = 1
+                ct += 1
+        f = open('../data/%s-train-pos-lhs-fold%s.pkl' % (dataset, k), 'w')
+        g = open('../data/%s-train-pos-rhs-fold%s.pkl' % (dataset, k), 'w')
+        h = open('../data/%s-train-pos-rel-fold%s.pkl' % (dataset, k), 'w')
+        l = open('../data/%s-train-neg-lhs-fold%s.pkl' % (dataset, k), 'w')
+        m = open('../data/%s-train-neg-rhs-fold%s.pkl' % (dataset, k), 'w')
+        n = open('../data/%s-train-neg-rel-fold%s.pkl' % (dataset, k), 'w')
+        cPickle.dump(trainposl.tocsr(), f, -1)
+        cPickle.dump(trainposr.tocsr(), g, -1)
+        cPickle.dump(trainposo.tocsr(), h, -1)
+        cPickle.dump(trainnegl.tocsr(), l, -1)
+        cPickle.dump(trainnegr.tocsr(), m, -1)
+        cPickle.dump(trainnego.tocsr(), n, -1)
+        f.close()
+        g.close()
+        h.close()
+        l.close()
+        m.close()
+        n.close()