规范变量命名

jiangzhonglian · jiangzhonglian · commit 21397eff6403 · 2018-04-13T17:24:42.000+08:00
diff --git a/src/py3.x/10.kmeans/kMeans.py b/src/py3.x/10.kmeans/kMeans.py
@@ -15,7 +15,7 @@ def loadDataSet(fileName):
     :return:
     '''
     # 初始化一个空列表
-    dataMat = []
+    dataSet = []
     # 读取文件
     fr = open(fileName)
     # 循环遍历文件所有行
@@ -26,9 +26,9 @@ def loadDataSet(fileName):
         # fltLine = [float(x) for x in curLine]
         # 将数据追加到dataMat
         fltLine = list(map(float,curLine))    # 映射所有的元素为 float（浮点数）类型
-        dataMat.append(fltLine)
+        dataSet.append(fltLine)
     # 返回dataMat
-    return dataMat
+    return dataSet
 
 
 def distEclud(vecA, vecB):
@@ -41,48 +41,48 @@ def distEclud(vecA, vecB):
     return sqrt(sum(power(vecA - vecB, 2)))
 
 
-def randCent(dataSet, k):
+def randCent(dataMat, k):
     '''
     为给定数据集构建一个包含K个随机质心的集合,
     随机质心必须要在整个数据集的边界之内,这可以通过找到数据集每一维的最小和最大值来完成
     然后生成0到1.0之间的随机数并通过取值范围和最小值,以便确保随机点在数据的边界之内
-    :param dataSet:
+    :param dataMat:
     :param k:
     :return:
     '''
     # 获取样本数与特征值
-    m, n = shape(dataSet)
+    m, n = shape(dataMat)
     # 初始化质心,创建(k,n)个以零填充的矩阵
     centroids = mat(zeros((k, n)))
     # 循环遍历特征值
     for j in range(n):
         # 计算每一列的最小值
-        minJ = min(dataSet[:, j])
+        minJ = min(dataMat[:, j])
         # 计算每一列的范围值
-        rangeJ = float(max(dataSet[:, j]) - minJ)
+        rangeJ = float(max(dataMat[:, j]) - minJ)
         # 计算每一列的质心,并将值赋给centroids
         centroids[:, j] = mat(minJ + rangeJ * random.rand(k, 1))
     # 返回质心
     return centroids
 
 
-def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
+def kMeans(dataMat, k, distMeas=distEclud, createCent=randCent):
     '''
     创建K个质心,然后将每个店分配到最近的质心,再重新计算质心。
     这个过程重复数次,直到数据点的簇分配结果不再改变为止
-    :param dataSet: 数据集
+    :param dataMat: 数据集
     :param k: 簇的数目
     :param distMeans: 计算距离
     :param createCent: 创建初始质心
     :return:
     '''
     # 获取样本数和特征数
-    m, n = shape(dataSet)
+    m, n = shape(dataMat)
     # 初始化一个矩阵来存储每个点的簇分配结果
     # clusterAssment包含两个列:一列记录簇索引值,第二列存储误差(误差是指当前点到簇质心的距离,后面会使用该误差来评价聚类的效果)
     clusterAssment = mat(zeros((m, 2)))
     # 创建质心,随机K个质心
-    centroids = createCent(dataSet, k)
+    centroids = createCent(dataMat, k)
     # 初始化标志变量,用于判断迭代是否继续,如果True,则继续迭代
     clusterChanged = True
     while clusterChanged:
@@ -95,7 +95,7 @@ def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
             for j in range(k):
                 # 计算数据点到质心的距离
                 # 计算距离是使用distMeas参数给出的距离公式,默认距离函数是distEclud
-                distJI = distMeas(centroids[j, :], dataSet[i, :])
+                distJI = distMeas(centroids[j, :], dataMat[i, :])
                 # 如果距离比minDist(最小距离)还小,更新minDist(最小距离)和最小质心的index(索引)
                 if distJI < minDist:
                     minDist = distJI
@@ -108,38 +108,38 @@ def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
         # 遍历所有质心并更新它们的取值
         for cent in range(k):
             # 通过数据过滤来获得给定簇的所有点
-            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
+            ptsInClust = dataMat[nonzero(clusterAssment[:, 0].A == cent)[0]]
             # 计算所有点的均值,axis=0表示沿矩阵的列方向进行均值计算
             centroids[cent, :] = mean(ptsInClust, axis=0)
     # 返回所有的类质心与点分配结果
     return centroids, clusterAssment
 
 
-def biKmeans(dataSet, k, distMeas=distEclud):
+def biKmeans(dataMat, k, distMeas=distEclud):
     '''
     在给定数据集,所期望的簇数目和距离计算方法的条件下,函数返回聚类结果
-    :param dataSet:
+    :param dataMat:
     :param k:
     :param distMeas:
     :return:
     '''
-    m, n = shape(dataSet)
+    m, n = shape(dataMat)
     # 创建一个矩阵来存储数据集中每个点的簇分配结果及平方误差
     clusterAssment = mat(zeros((m, 2)))
     # 计算整个数据集的质心,并使用一个列表来保留所有的质心
-    centroid0 = mean(dataSet, axis=0).tolist()[0]
+    centroid0 = mean(dataMat, axis=0).tolist()[0]
     centList = [centroid0]
     # 遍历数据集中所有点来计算每个点到质心的误差值
     for j in range(m):
-        clusterAssment[j, 1] = distMeas(mat(centroid0), dataSet[j, :]) ** 2
+        clusterAssment[j, 1] = distMeas(mat(centroid0), dataMat[j, :]) ** 2
     # 对簇不停的进行划分,直到得到想要的簇数目为止
     while (len(centList) < k):
         # 初始化最小SSE为无穷大,用于比较划分前后的SSE
         lowestSSE = inf
         # 通过考察簇列表中的值来获得当前簇的数目,遍历所有的簇来决定最佳的簇进行划分
         for i in range(len(centList)):
             # 对每一个簇,将该簇中的所有点堪称一个小的数据集
-            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :]
+            ptsInCurrCluster = dataMat[nonzero(clusterAssment[:, 0].A == i)[0], :]
             # 将ptsInCurrCluster输入到函数kMeans中进行处理,k=2,
             # kMeans会生成两个质心(簇),同时给出每个簇的误差值
             centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)