Skip to content

Latest commit

 

History

History
243 lines (243 loc) · 39.1 KB

BigDataLinks.md

File metadata and controls

243 lines (243 loc) · 39.1 KB
  1. 什么是“大数据”?
  2. Spark Summit 2013 演讲稿
  3. SparkR - R 的 Spark前端
  4. 腾讯大规模 Hadoop 集群实践(翟艳堂)
  5. 系列文章:Apache Spark 源码走读(@徽沪一郎)
  6. Spark Summit 2014 幻灯片 & 视频
  7. Hadoop、Spark、HBase 与 Redis 的适用性讨论(数据视野)
  8. Spark GraphX 在淘宝的实践(黄明、吴炜)
  9. Spark Internals (@JerryLead)
  10. Python 大数据处理工具
  11. 基于 MongoDB 和 Spark 实现电影推荐系统 (Sandeep Parikh)
  12. [PDF] 大数据时代 feed 架构 (@TimYang)
  13. Spark 技术解析及其在百度的应用实践 (仲浩)
  14. [译] Spark 论文《大型集群上的快速和通用数据处理架构》(修正版)
  15. Spark SQL 1.3.0 概览 (@连城404)
  16. 大数据技术栈之配置 & 发布系统 (@祝威廉二世)
  17. Clusterize.js - 一个轻松显示大数据集的 JS 插件 (NeXTs)
  18. [译] PayPal 高级工程总监推荐阅读的 100 篇大数据论文 (张玉宏)
  19. 如何选择满足需求的 SQL on Hadoop 系统 (@DataScientist)
  20. Spark 性能调优 (田毅)
  21. 贾扬清:希望 Caffe 成为深度学习领域的 Hadoop (周建丁)
  22. Spark 与 Flink:对比与分析 (卢亿雷 & 彭远波)
  23. 大数据全栈式开发语言 Python (佟达)
  24. SequoiaDB Connector for Apache Spark (Tao Wang)
  25. LinkedIn 开源高可用 Hadoop 工具集 Gradle (张天雷)
  26. Go 的单例模式 (@谢权Spark)
  27. Apache Calcite:Hadoop 中新型大数据查询引擎 (楚晗)
  28. 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
  29. DHIS 2:穷人的大数据
  30. [译] 2015 Bossie 评选:最佳开源大数据工具
  31. 基于用户画像大数据的电商防刷架构
  32. 单表 60 亿记录等大数据场景的 MySQL 优化和运维之道
  33. 我所理解的大数据个性化推荐
  34. [PPT] 硅谷大数据公司 Palantir 产品技术解读
  35. Spark Streaming 源码解析系列
  36. Hadoop 压缩实现分析
  37. [译] Spark 操作指南
  38. [译] 大数据系列之 Streaming 模式基础知识
  39. Spark MLlib 实现的广告点击预测:Gradient-Boosted Trees
  40. Spark MLlib 实现的中文文本分类 Native Bayes
  41. 将 Spark 中的文本转换为 Parquet 以提升性能
  42. Spark Streaming 实践和优化
  43. 《Spark 官方文档》集群模式概览
  44. [译] 十大炫酷大数据项目
  45. Spark 在美团的实践
  46. Hadoop NameNode 高可用 (High Availability) 实现解析
  47. 秒级处理海量数据,浙江移动大数据平台是怎么做到的?
  48. Spark 在金融领域的应用:日内走势预测
  49. 这些年,你不能错过的 Spark 学习资源
  50. 搭建 IPython + Notebook + Spark 开发环境
  51. 开发交流会:当轻架构前端撞上高性能大数据后台(深圳,5 月 29 日)
  52. 大数据资源整理
  53. 基于 Spark 的文本情感分析
  54. Spark Streaming 使用 Kafka 保证数据零丢失
  55. 使用 Docker 搭建本地 Hadoop 集群
  56. 基于 Docker 搭建 Hadoop 集群之升级版
  57. 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈(续)
  58. 一文读懂 Hadoop、HBase、Hive、Spark 分布式系统架构
  59. 大数据分页方案
  60. MOBIN-大数据
  61. 玩转大数据
  62. 大数据方案选型
  63. 跟我一起学 Hadoop YARN(一)
  64. 打开 Spark 的正确姿势
  65. Spark Streaming + Elasticsearch 构建 App 异常监控平台
  66. 博客虫大数据
  67. 闲话国内大数据发展简史 & 产业化落地
  68. 机器学习与大数据
  69. 搭建 Spark 源码研读和代码调试的开发环境
  70. Big Data Full Stack
  71. Spark与个性化推荐
  72. Spark 中进行聚合时的特殊场景
  73. 有赞大数据实践:敏捷型数据仓库的构建及其应用
  74. 这样搭建 Spark 学习环境效率似乎更高
  75. 金融学如何应对人工智能和大数据?
  76. MySQL 如何存储大数据
  77. 雅虎开源 TensorFlowOnSpark
  78. Spark Streaming 将乱序消息有序存储,离线保证 exact once 语义
  79. 大数据技术博客的独家号
  80. 大数据架构
  81. Spark 分布式的基础:通信系统 rpc
  82. 中华万年历大数据平台演进
  83. Spark 与 HBase 的整合
  84. 连蒙带猜学习大数据 hive 和 kylin 篇
  85. 一个大数据屌丝的一天
  86. Apache Spark 内存管理详解
  87. 写给大数据开发初学者的话
  88. Flink 原理与实现:Table & SQL API
  89. Spark 自己的分布式存储系统:BlockManager
  90. 请你停下了花几分钟读一读 Spark 的代码
  91. 美团的大数据平台架构实践
  92. 大数据环境下该如何优雅地设计数据分层
  93. 10GE Hadoop 网络设计
  94. Flink 原理与实现:Aysnc I/O
  95. [译] 工程师及数据科学家的大数据学习路径
  96. Spark 源码解析:DStream
  97. Awesome Flink
  98. vue-recyclerview:Vue 超大数据列表解决方案
  99. 揭秘网易大数据实践与基于微服务的应用架构设计实践
  100. Akka 和 Spark 的恩怨情仇
  101. 基于 Spark 的大规模机器学习在微博的应用
  102. [译] 从零开始系统规划大数据学习之路
  103. 基于大数据平台的实时质量监控平台的架构设计
  104. 给 Spark 开发者介绍下 Flink:Flink vs Spark
  105. 《大数据之路》
  106. Spark 机器学习的加速器:Spark on Angel
  107. Spark 内存管理的前世今生(上)
  108. 基于 HBase 的大数据存储的应用场景分析
  109. Spark 内存管理的前世今生(下)
  110. Spark 自己的内存管理:Tungsten 探秘
  111. 大数据实时日活计算之 Bloom Filter
  112. Spark SQL 在饿了么的应用实践
  113. 携程机票大数据架构最佳实践
  114. Go 在万亿级大数据平台开发中的实战
  115. 深入解析 Spark 中的 RPC
  116. 大数据Spark
  117. Spark 技术在唯品会财务系统重构中的实践总结
  118. 基于 Hadoop 大数据分析应用场景与实战
  119. 工业互联网大数据通信协议详解
  120. 彻底搞懂 Spark 的 shuffle 过程
  121. Spark 写 Redis 实践总结
  122. 大数据架构 分布式系统
  123. 流计算框架 Flink 与 Storm 的性能对比
  124. [译] Pachyderm 介绍:建造一个现代的 Hadoop
  125. 当时空大数据遇上 WebGL,数据变成可操作的信息
  126. [译] 李飞飞等人提出 MentorNet:让深度神经网络克服大数据中的噪声
  127. 大数据量、海量数据处理方法总结
  128. Hulu 大数据架构与应用经验
  129. 2017 年大数据技术的回顾与展望
  130. 基于 Hadoop 生态 Spark Streaming 的大数据实时流处理平台的搭建
  131. VR/云计算/大数据/区块链/AI,这么多技术热点你该怎么选?
  132. Linux 运维工程师的大数据安全修炼手册
  133. 浅谈大数据平台基建的逻辑
  134. Apache Spark 2.0 作业优化技巧
  135. 处理大数据集的建议
  136. 实时大数据分析引擎 ClickHouse 介绍
  137. 大数据挖掘机器学习人工智能的维恩图战争
  138. 大数据生态
  139. 用最短的 CSS 样式,勾勒大数据演示屏
  140. 大数据测试过程、策略及挑战
  141. 京东推荐系统架构揭秘:大数据时代下的智能化改造
  142. 使用 Alluxio 统一结构化大数据
  143. 大数据开发平台 (Data Platform) 在有赞的最佳实践
  144. [译] Flink 创始人谈流计算核心架构演化和现状
  145. 大数据时代下的数据挖掘基础
  146. Spark Streaming 和 Flink 详细对比
  147. Spark 内存管理模型详解
  148. Spark 的 PIDController 源码赏析及 backpressure 详解
  149. [译] Flink 与 Storm 的主要区别
  150. 360 大数据中心平台化的演进与实践
  151. Flink 在唯品会的实践
  152. 数据科学概论与大数据学习误区
  153. 美图大数据平台架构实践
  154. 换个姿势入门大数据
  155. 大数据在环境保护中的应用
  156. JStorm 到 Flink 在今日头条的迁移实践
  157. 阿里如何实现秒级百万 TPS?搜索离线大数据平台架构解读
  158. 大数据不是你想的那样
  159. 大数据技术在舆情服务领域的应用
  160. 大数据推荐系统实时架构和离线架构
  161. 大数据不就是写 SQL 吗?
  162. 从 Spark MLlib 到美图机器学习框架实践
  163. 从面试官的角度谈谈大数据面试
  164. 阿里巴巴为什么选择 Apache Flink?
  165. 敏捷大数据与敏捷 AI
  166. 基于 Kerberos 的大数据安全方案
  167. 使用 Flink 解救多线程 Scala 应用
  168. Flink 零基础实战教程:如何计算实时热门商品
  169. 从 0 到 1 学习 Flink:Apache Flink 介绍
  170. [译] 这 8 个 Python 小细节,让你在大数据领域如鱼得水
  171. 从 0 到 1 学习 Flink:Data Source 介绍
  172. 高校大数据团队
  173. SparkSQL Catalyst 解析
  174. 是时候学习真正的 Spark 技术了
  175. Hadoop YARN 在字节跳动的实践
  176. 如何使用 Spark 快速将数据写入 Elasticsearch
  177. Flink 源码解析之从 Example 出发:读懂集群任务执行流程
  178. 小米大数据:借助 Apache Kylin 打造高效、易用的一站式 OLAP 解决方案
  179. 一点资讯 SparkSQL 查询引擎实践
  180. 大数据在保险行业的应用
  181. Flink Forward China 2018 大会幻灯片
  182. 使用 Spark Pivot 处理复杂的数据统计需求
  183. 大数据学习路线指导
  184. 对 Flink 流处理模型的抽象
  185. 基于大数据的用户标签体系建设思路和应用
  186. 大数据误区
  187. 《从 0 到 1 学习 Flink》:Flink 读取 Kafka 数据批量写入到 MySQL
  188. 贾扬清:AI,从大数据问题演进到高性能计算问题
  189. 大数据工程师
  190. 基于 Binlog + Flink 实现多表数据同构/异构方案
  191. Flume 在有赞大数据的实践
  192. 周涛:浅析大数据与人工智能
  193. 百 PB 级 Hadoop 集群存储空间治理
  194. 初识 Hadoop
  195. 大数据实战经验分享
  196. 转岗大数据?
  197. 大数据手稿笔记
  198. Kylin 在小米大数据中的应用
  199. [译] Flink 2.0 前瞻
  200. [译] Apache Flink 是如何管理好内存的?
  201. 大数据从哪里来?
  202. 360 深度实践:Flink 与 Storm 协议级对比
  203. 一条 SQL 在 Apache Spark 之旅(上)
  204. 360 大数据中心总监:如何制定可奏效的数据安全体系
  205. 让 pandas 处理大数据速度变快的三个技巧
  206. 为啥 Spark 的 broadcast 要用单例模式
  207. Spark-SQL 在字节跳动的应用实践
  208. Apache Flink 1.9 重大特性提前解读
  209. Zeppelin:让大数据插上机器学习的翅膀
  210. 驳 “Hadoop 快不行了”
  211. 大数据平台常见开源工具集锦
  212. 一份超详细的 Spark 入门介绍
  213. 从 0 开始学大数据:Hive 性能优化篇
  214. 比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了
  215. 大数据 SQL Boy 脱坑指南
  216. 妈妈再也不用担心,我学不会大数据 flink 啦
  217. 过往记忆大数据
  218. 从大数据的角度来谈谈运维监控这件事儿
  219. 大数据分析工程师面试集锦(二):Scala
  220. 个推大数据金融风控算法实践
  221. 还在用 livy 吗?大数据连接器 Linkis 开源啦
  222. Flink 在自如 IM 的应用
  223. 端到端一致性,流系统 Spark/Flink/Kafka/DataFlow 对比总结
  224. 大数据正当时,理解这几个术语很重要
  225. 推荐中如何对大数据背景下的物品进行相似度计算
  226. 靠转型大数据涨薪的日子一去不复返了
  227. 漫谈大数据
  228. 从 Spark 的数据结构演进说开
  229. 一文让你彻底了解大数据实时计算引擎 Flink
  230. 基于 Flink 实现的商品实时推荐系统
  231. 面试系列(六):说说 Spark 的 failover 容错机制
  232. 大数据与人工智能
  233. Flink 实战剖析
  234. 零基础学 Flink:监控 on Prometheus & Grafana
  235. 使用 Spark 和 Delta Lake 构建近实时数据仓库
  236. Flink 实战剖析
  237. Apache Flink 初探
  238. 选方向?大数据的职位你了解多少
  239. Spark SQL 在字节跳动的核心优化实践
  240. 漫谈大数据平台架构
  241. [译] Hadoop 霸主地位不保?看看大数据领域的六年巨变
  242. 大数据组件 All-in-One 的 Docker 镜像
  243. Flink 如何生成 ExecutionGraph