randyyip
diff --git a/‎Captcha1/ReadMe.md‎
Lines changed: 17 additions & 10 deletions b/‎Captcha1/ReadMe.md‎
Lines changed: 17 additions & 10 deletions
diff --git a/‎NewsSpider/ReadMe.md‎
Lines changed: 4 additions & 1 deletion b/‎NewsSpider/ReadMe.md‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎QunarSpider/ReadMe.md‎
Lines changed: 4 additions & 1 deletion b/‎QunarSpider/ReadMe.md‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎ReadMe.md‎
Lines changed: 1 addition & 1 deletion b/‎ReadMe.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Spider_Java/README.md‎
Lines changed: 4 additions & 2 deletions b/‎Spider_Java/README.md‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎Spider_Java/.classpath‎ renamed to ‎Spider_Java/Spider_Java1/.classpath‎ b/‎Spider_Java/.classpath‎ renamed to ‎Spider_Java/Spider_Java1/.classpath‎
diff --git a/‎Spider_Java/.project‎ renamed to ‎Spider_Java/Spider_Java1/.project‎ b/‎Spider_Java/.project‎ renamed to ‎Spider_Java/Spider_Java1/.project‎
diff --git a/‎Spider_Java/bin/synchronizetest/Booth.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Booth.class‎ b/‎Spider_Java/bin/synchronizetest/Booth.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Booth.class‎
diff --git a/‎Spider_Java/bin/synchronizetest/Reservoir.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Reservoir.class‎ b/‎Spider_Java/bin/synchronizetest/Reservoir.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Reservoir.class‎
diff --git a/‎Spider_Java/bin/synchronizetest/Test.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Test.class‎ b/‎Spider_Java/bin/synchronizetest/Test.class‎ renamed to ‎Spider_Java/Spider_Java1/bin/synchronizetest/Test.class‎
@@ -1,27 +1,34 @@
+### 验证码识别项目第一版：Captcha1
+
 本项目采用Tesseract V3.01版本(V3.02版本在训练时有改动，多shapeclustering过程)  
 
-Tesseract用法：  
+**Tesseract用法：** 
 * 配置环境变量TESSDATA_PREFIX =“D:\Tesseract-ocr\”，即tessdata的目录，在源码中会到这个路径下查找相应的字库文件用来识别。  
 * 命令格式：  
 `tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]`  
 * 只识别成数字   
 `tesseract imagename outputbase -l eng digits`  
 * 解决empty page!!  
-**-psm N**  
+**-psm N** 
 
-    7 = Treat the image as a single text line  
-    tesseract imagename outputbase -l eng -psm 7  
+	7 = Treat the image as a single text line  
+	tesseract imagename outputbase -l eng -psm 7  
 * configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名：   
 `tesseract imagename outputbase -l eng nobatch`  
 
 
-**验证码识别项目使用方法1：**   
-将下载的图片放到./pic目录下，  
+**验证码识别项目使用方法1：**  
+ 
+* 将下载的图片放到./pic目录下，  
 
 	验证码图片名称：get_random.jpg  
-	价格图片名称：get_price_img.png  
-命令格式：  
+	价格图片名称：get_price_img.png 
+
+* 命令格式：  
 
 	验证码图片识别：python tess_test.py ./pic/get_random.jpg  
-	价格图片识别：python tess_test.py ./pic/get_price_img.png  
-打印出识别的结果，若要将结果存在临时文本文件temp.txt中，则修改pytessr_pro.py中代码"cleanup_scratch_flag = True"改为"cleanup_scratch_flag = False"
+	价格图片识别：python tess_test.py ./pic/get_price_img.png
+  
+打印出识别的结果
+
+若要将结果存在临时文本文件**temp.txt**中，则修改pytessr_pro.py中代码"**cleanup_scratch_flag = True**"改为"**cleanup_scratch_flag = False**"
@@ -1,6 +1,9 @@
 ### 网络爬虫之最基本的爬虫：爬取[网易新闻排行榜](http://news.163.com/rank/)
 
-一些说明：  
+**一些说明：** 
+
 * 使用urllib2或requests包来爬取页面。
+
 * 使用正则表达式分析一级页面，使用Xpath来分析二级页面。
+
 * 将得到的标题和链接，保存为本地文件。
@@ -1,6 +1,9 @@
 ### 网络爬虫之Selenium使用代理登陆：爬取[去哪儿](http://flight.qunar.com/)网站 
 
-一些说明：  
+**一些说明：**
+
 * 使用selenium模拟浏览器登陆，获取翻页操作。
+
 * 代理可以存入一个文件，程序读取并使用。
+
 * 支持多进程抓取。
@@ -224,7 +224,7 @@ Selenium是一款自动化测试工具。它能实现操纵浏览器，包括字
 
 可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别，将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功，可以再次更新验证码识别，直到成功为止。  
 
-参考项目：[Captcha1](https://github.com/lining0806/PythonSpiderNotes/tree/master/Captcha1)
+参考项目：[验证码识别项目第一版：Captcha1](https://github.com/lining0806/PythonSpiderNotes/tree/master/Captcha1)
 
 **爬取有两个需要注意的问题：**
 
 
@@ -1,3 +1,5 @@
-# Spider
+### Spider_Java
+
 抓取网址：华尔街见闻http://live.wallstreetcn.com/
-单线程抓取
+单线程抓取 Spider_Java1
+多线程抓取 Spider_Java2