add githubHot.py

yhangf · yhangf · commit 8073a222af15 · 2016-10-06T15:47:45.000+08:00
diff --git a/README.md b/README.md
@@ -17,3 +17,5 @@
 ##### 8.  [ECUT_pos_html.py](https://github.com/Fenghuapiao/PythonCrawler/blob/master/ECUT_pos_html.py): 抓取学校官网所有校园招聘信息，并保存为html格式，图片也会镶嵌在html中。
 
 ##### 9.  [ECUT_get_grade.py](https://github.com/Fenghuapiao/PythonCrawler/blob/master/ECUT_get_grade.py): 模拟登陆学校官网，抓取成绩并计算平均学分绩
+
+##### 10. [githubHot.py](https://github.com/Fenghuapiao/PythonCrawler/blob/master/githubHot.py): 抓取github上面热门语言所对应的项目，并把项目简介和项目主页地址保存到本地文件。
diff --git a/githubHot.py b/githubHot.py
@@ -0,0 +1,21 @@
+import re
+import requests
+import pandas as pd
+import numpy as np
+
+def hot_github(keyword):
+    url = 'https://github.com/trending/{0}'.format(keyword)
+    main_url = 'https://github.com{0}'
+    html = requests.get(url).content.decode('utf-8')
+    reg_hot_url = re.compile('<h3 class="repo-list-name">\s*<a href="(.*?)">')
+    hot_url = [main_url.format(i) for i in re.findall(reg_hot_url, html)]
+    url_abstract_reg = re.compile('<p class="repo-list-description">\s*(.*?)\s*</p>')
+    summary_text = re.findall(url_abstract_reg, html)
+    hotDF = pd.DataFrame()
+    hotDF['项目简介'] = summary_text
+    hotDF['项目地址'] = hot_url
+    hotDF.to_csv('./github_hot.csv', index=False)
+
+if __name__ == '__main__':
+    keyword = input('请输入查找的热门语言:')
+    hot_github(keyword)