Skip to content

Latest commit

 

History

History
198 lines (108 loc) · 14.2 KB

data-science.md

File metadata and controls

198 lines (108 loc) · 14.2 KB

数据科学家

  • CCCF专栏 | 郑宇:数据科学家

    • 数据产业:

      • 数据极大丰富,驱动大量应用,渗透各种场景,催生庞大产业,只要有数据的地方,就需要有人来管理和利用好这些数据,需要大量的数据科学家。

      • 数据作为继土地、劳动力、资金和技术之后的第五种生产要素,其创造的价值将超过前四者的总和

        • 前四种生产要素都可以被数字化,成为数据
    • 数据科学家与数据工程师的关系

      • 数据工程师依照数据科学家设计好的方案,实施数据的采集、接入、治理、管理和展现等工作。

      • 当模型结果与设计期望发生偏差时,工程师应告知数据科学家,与后者一起迭代模型思路。

      • 数据科学家在正式上岗前,必须要有从事数据工程师和AI算法工程师的经验。

    • 学生面临实际问题时的易陷入误区

      • 拿着锤子找钉子,有了一个模型或者方法论,一定要想方设法把它用上去

      • 倾向于选择过于复杂的模型,以体现自己的技术能力,生怕用的模型简单,被认为工作没有难度和价值

      • 抱怨数据质量太差、想要的数据缺失,或者数据规模太小,因此认为这件事情没法做

      • 认为只有AI模型部分最有技术含量,其余部分都不重要

      • 初学阶段,不打好相关基础,直奔AI模型,从空中楼阁开始学习

      • 正确的数据科学解法:

        • 一个工作的难度由待解决问题的复杂度决定,而不由解法的复杂程度决定。能用简单的方法解决复杂问题是非常有价值的工作。

          • 面对实际问题,一定从简单方法开始尝试,任何让解法复杂化的付出,都需在结果侧提升性能,否则就是哗众取宠、浪费资源。
        • 在真实世界,最初的数据永远都不会让人满意,永远都会面临数据不足、质量不好等一系列问题。如果数据好到可以直接从中看到结果,数据科学家也就没有存在的必要了。

          • 加强对数据的深度理解,学会将领域A的数据应用到领域B的问题,才能破解数据不足的难题。此外,合理的选择模型,通过“不确定”+“不确定”得到“确定”的思维方式来应对不理想的数据也是解法之一
        • 数据科学链路上的所有环节都是同等重要的,AI算法并不高人一等,任何一个环节的失误都会让我们得不到想要的结果,失去利用数据创造价值的机会

        • 在不同的阶段应该练习好不同的技能。首先应该练好程序设计的基本功,积累软件开发的工程规范经验;然后学习数据管理模型,培养处理数据的动手能力;再尝试数据可视化的常用方法,积累数据展示的经验;之后学习AI模型,加强模型训练和部署的实践

        • 面对客户实战,快速学习行业知识,增强业务与数据科学的结合能力,并培养解决方案思维,完善数据侧端到端的能力。数据科学家无法一步到位,必须一步一个脚印地走出来。

          • 阅读相关行业高质量的综述、论文以及网络文章,快速学习整理和提炼行业知识。

          • 向客户学习:如在智能城市业务中,政府的主管领导往往对业务非常了解,可以充当半个产品经理的角色。与跟他们沟通和交流,既能了解客户需求,也可以快速学习业务知识。

        • 应用闭环:要经历数据的采集、接入、管理、分析、展现、决策和反控的全链路,避免只做其中的模型设计环节。

          • 如果前面数据处理不当,会让本该有效的模型失效。
          • 如果只参与其中的模型环节,可能会脱离实际约束,使模型无法工作。
          • 如果不能将结果有效地呈现给客户,就无法得到反馈,导致模型不能迭代优化。
        • 数据科学家设计的解决方案一定要针对业务关注的领域,在成本、效率、用户体验中的至少一个方面直接创造价值。

          • 在智能城市领域,政府关注城市的安全、稳定和发展,数据科学家设计的方案就应该在保障城市安全方面降低成本,或提高管理者的效率,或改善工作人员的体验
  • 郑宇:这个时代不缺数据,缺得是足够开放的思维

    • 数据分析师与数据科学家的区别

      • 就像本科与博士做研究一样。本科生是老师手把手教题目,而博士生是自己找题目。

      • 数据分析师:很多公司的招聘广告上面写招聘数据科学家其实都不是招真正的数据科学家,而是数据分析师。数据分析师有明确的任务,明确的数据,结果也明确,他会用一些分析工具去跑一些报表,然后提交结果。

        • 例子:银行向用户发信用卡,用户提交的表格上有他的年龄、职业、收入等信息,需要分析师判断是否给这个用户发信用卡。这是一个YES or NO的问题,分析师要做的是拿个人的信用记录去训练一个分类模型。
      • 数据科学家:要有能力自己找题目,首先要懂得行业问题,其次懂得数据背后的隐含信息,然后还要知道这个行业问题之后你要知道用什么数据如何解决这个问题。

        • 还要对各种模型都很清楚,不光是机器学习,还有数据管理以及可视化,把很多模型要组合在一起。最后要对云计算平台有一定的了解,要学会怎么用,甚至要学会怎么改它,一个好的数据科学家是站在云平台上面看问题、想数据、关联模型,把这些模型有机组合起来部署到云平台上面,产生鲜活的知识,解决行业问题,这个才是大数据。

        • 例子:政府向数据科学家提出的需求:“徐汇区有一条路灰很多,怎么用大数据去处理?”、“北京市建副中心到通州以后对北京整个的经济、环境、交通有什么影响?”

          • 这个问题不是因果问题,不是预测问题,也不是关联问题,需要你去想找什么样的数据,怎么展现怎么实施。没有具体问题也没有具体数据,这就是数据科学家应该解决的问题。
    • 数据科学家最关键的品质是什么?

      • 在大数据时代我们真的不再缺数据了,缺得是我们的思维不够开放,思考问题A的时候不要一直看问题A的数据,其实会发现问题B和C的数据都可以拿来用,而且这个数据完全可以不是你这个领域的数据。只有你对这个问题理解深刻以后才能把别的数据背后的知识拿过来做融合。
  • 微信:我,一位数据科学家,用亲身经历告诉你:为啥数据科学家都在离职

    大数据就像是青少年口中的性:每个人都在谈论它,没人真的知道怎么去做,但是每个人都认为别人在做,所以每个人都声称自己在做……——Dan Ariely

    • 很多公司在雇佣数据科学家时并没有配套的基础设施,好开始从AI中获取商业价值。这造成了AI系统的冷启动问题。再加上这些公司在雇用资历不深的数据科学家之前,没有雇用资深或有足够经验的从业者,这就导致双方都感到失望和不愉快。

    • 公司只想要一张图表,好每天在董事会上展示。于是公司感到失望,因为他们没能看到价值被迅速创造出来

    • 不只有非技术型的主管会对你的技能做出过多假设。别的技术型的同事会假设你了解跟数据相关的一切:你懂得Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B测试、NLP、一切跟机器学习有关的事(还有任何你能想到的与数据有关的事——顺便说一下,如果你看到一个职位描述上写了所有这些东西,请保持清醒。这份职位描述显然来自一个并不知道自己的数据战略是啥的公司,他们会雇任何人,因为他们认为雇任何一个数据人员都能解决他们所有的数据问题)。

城市计算

  • 精品课|郑宇:深度学习在时空数据中的应用(视频+PPT)

  • 根据数据结构来分,可以把城市时空数据分为两类:

    • 点数据:

      时间是否会变 空间是否会变 例子
      no no 如商场、学校、车站
      yes no 传感器部署到某个位置之后,坐标是不会变的。如气温,空气质量
      yes yes 如摩拜单车,滴滴打车,发出的请求信号
    • 网数据:

      时间是否会变 空间是否会变 例子
      no no 如城市的道路结构,路网
      yes no 交通流量信息
      yes yes 轨迹数据。骑车的轨迹,出租车行驶的轨迹,候鸟飞翔的轨迹,航班的轨迹,手机移动信号等都是轨迹数据
    • 生活中很多的数据无非就是这六种,而其中最复杂的就是轨迹数据,你只要掌握好轨迹数据处理的问题,其他几个数据的处理就会得心应手。

      • 轨迹数据的挖掘:预处理,索引和提取,模式匹配,异常检测以及分类聚类等问题
  • 时空数据和其他文本、图像数据的区别

    • 时间方面有3个属性

      • 临近性:相邻两个时间段的人流量变化是平缓的。

      • 周期性:今天早上八点和昨天八点的交通量很像,但是早上八点的交通流量和中午的交通流量可能很不像,这就是周期性。

      • 趋势性:数据的周期并不是固定不变的,每一天不是严格重复性变化,而是有趋势性的上扬和下降。比如天气越来越暖和,大家上班的时间就越来越早,那么早高峰的时间就会越来越早,所以不是严格的周期性问题,而是有趋势性的上扬的问题。

      • 可视化:

        • 临近性可视化:四环主路上,时间临界性的重要程度不如周期性和趋势性明显;
        • 周期性可视化:朝阳公园的周期性很强,周末或者晚上去的多,所以周期明显;医院门口的周期性很不明显;
        • 趋势性可视化:中关村的趋势性不明显;北京动物园的趋势性明显,比如天气暖和了动物园的人就会越来越多。

        image

  • 为什么时空数据可以和深度学习很好的结合?

    • 如果一个领域里数据不够大,那么深度学习很难发挥作用:医疗大数据本身非常少,很难用到深度学习,而城市里边的数据,比如交通,气象,数据量大,种类多,异构,多源

    • 视频数据虽然很多,但是很难有一家机构能够把全国的视频数据都存在一起,但是已经有好几家公司可以把全国的交通数据都存在一个云平台上面

    • 要对整个城市的每条路都有进行预测,规模大,并且在几秒钟中时间内返回结果,这种大尺度,高实施性的应用正好是深度学习所需要的场景,而且这种场景是传统的机器学习不能做的。

    • 神经网络、深度学习不能一条路走到黑,应该与传统机器学习的方法进行结合。

  • 要与外部因素融合,像天气、事件等因素可能影响的范围更广,是全局的

  • 具体应用:

    • 流量预测:在一个城市里每一平方公里未来有多少人进和出

      • 如上海外滩踩踏事件,过多的人流涌入造成了严重的公共安全事故,如果提前知道未来会有多少人进出,什么时间达到高峰,那么政府就可以提前进行限流,限行,管控。

      • 北京是可以利用这个方法预测每个地铁的未来的进站出站人数,这个关乎到地铁的运力和调度问题,也和安全有关。

AI

机器学习

  • 张志华:机器学习的发展历程及启示

  • 机器学习也分为三个层次:

    • 初级:数据获取以及特征的提取。中级阶段是数据处理与分析

    • 中级:数据处理与分析

      • 数据挖掘:应用问题导向,它主要应用已有的模型和方法解决一些实际问题

      • 机器学习:根据应用问题的需要,提出和发展模型、方法和算法以及研究支撑它们的数学原理或理论基础等

      • 数据挖掘和机器学习本质上是一样的,其区别是数据挖掘更接近于数据端,而机器学习则更接近于智能端。

    • 高级:实现智能的目标

深度学习

  • 用一个机器学习方法,而不懂其基础原理,这是一件非常可怕的事情。正是由于这个原因,目前学术界对深度学习还是心存疑虑的。尽管深度学习已经在实际应用中展示出其强大的能力,但其中的原理目前大家还不是太清楚。

  • 围棋:

    • 围棋也是一种时空数据,每个盘面都有19*19的节点,节点就是坐标,每个盘面就是时区里的一帧。

    • 围棋搜索常用的方法:蒙特卡罗树搜索

      image