- 什么是“大数据”?
- Spark Summit 2013 演讲稿
- SparkR - R 的 Spark前端
- 腾讯大规模 Hadoop 集群实践(翟艳堂)
- 系列文章:Apache Spark 源码走读(@徽沪一郎)
- Spark Summit 2014 幻灯片 & 视频
- Hadoop、Spark、HBase 与 Redis 的适用性讨论(数据视野)
- Spark GraphX 在淘宝的实践(黄明、吴炜)
- Spark Internals (@JerryLead)
- Python 大数据处理工具
- 基于 MongoDB 和 Spark 实现电影推荐系统 (Sandeep Parikh)
- [PDF] 大数据时代 feed 架构 (@TimYang)
- Spark 技术解析及其在百度的应用实践 (仲浩)
- [译] Spark 论文《大型集群上的快速和通用数据处理架构》(修正版)
- Spark SQL 1.3.0 概览 (@连城404)
- 大数据技术栈之配置 & 发布系统 (@祝威廉二世)
- Clusterize.js - 一个轻松显示大数据集的 JS 插件 (NeXTs)
- [译] PayPal 高级工程总监推荐阅读的 100 篇大数据论文 (张玉宏)
- 如何选择满足需求的 SQL on Hadoop 系统 (@DataScientist)
- Spark 性能调优 (田毅)
- 贾扬清:希望 Caffe 成为深度学习领域的 Hadoop (周建丁)
- Spark 与 Flink:对比与分析 (卢亿雷 & 彭远波)
- 大数据全栈式开发语言 Python (佟达)
- SequoiaDB Connector for Apache Spark (Tao Wang)
- LinkedIn 开源高可用 Hadoop 工具集 Gradle (张天雷)
- Go 的单例模式 (@谢权Spark)
- Apache Calcite:Hadoop 中新型大数据查询引擎 (楚晗)
- 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
- DHIS 2:穷人的大数据
- [译] 2015 Bossie 评选:最佳开源大数据工具
- 基于用户画像大数据的电商防刷架构
- 单表 60 亿记录等大数据场景的 MySQL 优化和运维之道
- 我所理解的大数据个性化推荐
- [PPT] 硅谷大数据公司 Palantir 产品技术解读
- Spark Streaming 源码解析系列
- Hadoop 压缩实现分析
- [译] Spark 操作指南
- [译] 大数据系列之 Streaming 模式基础知识
- Spark MLlib 实现的广告点击预测:Gradient-Boosted Trees
- Spark MLlib 实现的中文文本分类 Native Bayes
- 将 Spark 中的文本转换为 Parquet 以提升性能
- Spark Streaming 实践和优化
- 《Spark 官方文档》集群模式概览
- [译] 十大炫酷大数据项目
- Spark 在美团的实践
- Hadoop NameNode 高可用 (High Availability) 实现解析
- 秒级处理海量数据,浙江移动大数据平台是怎么做到的?
- Spark 在金融领域的应用:日内走势预测
- 这些年,你不能错过的 Spark 学习资源
- 搭建 IPython + Notebook + Spark 开发环境
- 开发交流会:当轻架构前端撞上高性能大数据后台(深圳,5 月 29 日)
- 大数据资源整理
- 基于 Spark 的文本情感分析
- Spark Streaming 使用 Kafka 保证数据零丢失
- 使用 Docker 搭建本地 Hadoop 集群
- 基于 Docker 搭建 Hadoop 集群之升级版
- 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈(续)
- 一文读懂 Hadoop、HBase、Hive、Spark 分布式系统架构
- 大数据分页方案
- MOBIN-大数据
- 玩转大数据
- 大数据方案选型
- 跟我一起学 Hadoop YARN(一)
- 打开 Spark 的正确姿势
- Spark Streaming + Elasticsearch 构建 App 异常监控平台
- 博客虫大数据
- 闲话国内大数据发展简史 & 产业化落地
- 机器学习与大数据
- 搭建 Spark 源码研读和代码调试的开发环境
- Big Data Full Stack
- Spark与个性化推荐
- Spark 中进行聚合时的特殊场景
- 有赞大数据实践:敏捷型数据仓库的构建及其应用
- 这样搭建 Spark 学习环境效率似乎更高
- 金融学如何应对人工智能和大数据?
- MySQL 如何存储大数据
- 雅虎开源 TensorFlowOnSpark
- Spark Streaming 将乱序消息有序存储,离线保证 exact once 语义
- 大数据技术博客的独家号
- 大数据架构
- Spark 分布式的基础:通信系统 rpc
- 中华万年历大数据平台演进
- Spark 与 HBase 的整合
- 连蒙带猜学习大数据 hive 和 kylin 篇
- 一个大数据屌丝的一天
- Apache Spark 内存管理详解
- 写给大数据开发初学者的话
- Flink 原理与实现:Table & SQL API
- Spark 自己的分布式存储系统:BlockManager
- 请你停下了花几分钟读一读 Spark 的代码
- 美团的大数据平台架构实践
- 大数据环境下该如何优雅地设计数据分层
- 10GE Hadoop 网络设计
- Flink 原理与实现:Aysnc I/O
- [译] 工程师及数据科学家的大数据学习路径
- Spark 源码解析:DStream
- Awesome Flink
- vue-recyclerview:Vue 超大数据列表解决方案
- 揭秘网易大数据实践与基于微服务的应用架构设计实践
- Akka 和 Spark 的恩怨情仇
- 基于 Spark 的大规模机器学习在微博的应用
- [译] 从零开始系统规划大数据学习之路
- 基于大数据平台的实时质量监控平台的架构设计
- 给 Spark 开发者介绍下 Flink:Flink vs Spark
- 《大数据之路》
- Spark 机器学习的加速器:Spark on Angel
- Spark 内存管理的前世今生(上)
- 基于 HBase 的大数据存储的应用场景分析
- Spark 内存管理的前世今生(下)
- Spark 自己的内存管理:Tungsten 探秘
- 大数据实时日活计算之 Bloom Filter
- Spark SQL 在饿了么的应用实践
- 携程机票大数据架构最佳实践
- Go 在万亿级大数据平台开发中的实战
- 深入解析 Spark 中的 RPC
- 大数据Spark
- Spark 技术在唯品会财务系统重构中的实践总结
- 基于 Hadoop 大数据分析应用场景与实战
- 工业互联网大数据通信协议详解
- 彻底搞懂 Spark 的 shuffle 过程
- Spark 写 Redis 实践总结
- 大数据架构 分布式系统
- 流计算框架 Flink 与 Storm 的性能对比
- [译] Pachyderm 介绍:建造一个现代的 Hadoop
- 当时空大数据遇上 WebGL,数据变成可操作的信息
- [译] 李飞飞等人提出 MentorNet:让深度神经网络克服大数据中的噪声
- 大数据量、海量数据处理方法总结
- Hulu 大数据架构与应用经验
- 2017 年大数据技术的回顾与展望
- 基于 Hadoop 生态 Spark Streaming 的大数据实时流处理平台的搭建
- VR/云计算/大数据/区块链/AI,这么多技术热点你该怎么选?
- Linux 运维工程师的大数据安全修炼手册
- 浅谈大数据平台基建的逻辑
- Apache Spark 2.0 作业优化技巧
- 处理大数据集的建议
- 实时大数据分析引擎 ClickHouse 介绍
- 大数据挖掘机器学习人工智能的维恩图战争
- 大数据生态
- 用最短的 CSS 样式,勾勒大数据演示屏
- 大数据测试过程、策略及挑战
- 京东推荐系统架构揭秘:大数据时代下的智能化改造
- 使用 Alluxio 统一结构化大数据
- 大数据开发平台 (Data Platform) 在有赞的最佳实践
- [译] Flink 创始人谈流计算核心架构演化和现状
- 大数据时代下的数据挖掘基础
- Spark Streaming 和 Flink 详细对比
- Spark 内存管理模型详解
- Spark 的 PIDController 源码赏析及 backpressure 详解
- [译] Flink 与 Storm 的主要区别
- 360 大数据中心平台化的演进与实践
- Flink 在唯品会的实践
- 数据科学概论与大数据学习误区
- 美图大数据平台架构实践
- 换个姿势入门大数据
- 大数据在环境保护中的应用
- JStorm 到 Flink 在今日头条的迁移实践
- 阿里如何实现秒级百万 TPS?搜索离线大数据平台架构解读
- 大数据不是你想的那样
- 大数据技术在舆情服务领域的应用
- 大数据推荐系统实时架构和离线架构
- 大数据不就是写 SQL 吗?
- 从 Spark MLlib 到美图机器学习框架实践
- 从面试官的角度谈谈大数据面试
- 阿里巴巴为什么选择 Apache Flink?
- 敏捷大数据与敏捷 AI
- 基于 Kerberos 的大数据安全方案
- 使用 Flink 解救多线程 Scala 应用
- Flink 零基础实战教程:如何计算实时热门商品
- 从 0 到 1 学习 Flink:Apache Flink 介绍
- [译] 这 8 个 Python 小细节,让你在大数据领域如鱼得水
- 从 0 到 1 学习 Flink:Data Source 介绍
- 高校大数据团队
- SparkSQL Catalyst 解析
- 是时候学习真正的 Spark 技术了
- Hadoop YARN 在字节跳动的实践
- 如何使用 Spark 快速将数据写入 Elasticsearch
- Flink 源码解析之从 Example 出发:读懂集群任务执行流程
- 小米大数据:借助 Apache Kylin 打造高效、易用的一站式 OLAP 解决方案
- 一点资讯 SparkSQL 查询引擎实践
- 大数据在保险行业的应用
- Flink Forward China 2018 大会幻灯片
- 使用 Spark Pivot 处理复杂的数据统计需求
- 大数据学习路线指导
- 对 Flink 流处理模型的抽象
- 基于大数据的用户标签体系建设思路和应用
- 大数据误区
- 《从 0 到 1 学习 Flink》:Flink 读取 Kafka 数据批量写入到 MySQL
- 贾扬清:AI,从大数据问题演进到高性能计算问题
- 大数据工程师
- 基于 Binlog + Flink 实现多表数据同构/异构方案
- Flume 在有赞大数据的实践
- 周涛:浅析大数据与人工智能
- 百 PB 级 Hadoop 集群存储空间治理
- 初识 Hadoop
- 大数据实战经验分享
- 转岗大数据?
- 大数据手稿笔记
- Kylin 在小米大数据中的应用
- [译] Flink 2.0 前瞻
- [译] Apache Flink 是如何管理好内存的?
- 大数据从哪里来?
- 360 深度实践:Flink 与 Storm 协议级对比
- 一条 SQL 在 Apache Spark 之旅(上)
- 360 大数据中心总监:如何制定可奏效的数据安全体系
- 让 pandas 处理大数据速度变快的三个技巧
- 为啥 Spark 的 broadcast 要用单例模式
- Spark-SQL 在字节跳动的应用实践
- Apache Flink 1.9 重大特性提前解读
- Zeppelin:让大数据插上机器学习的翅膀
- 驳 “Hadoop 快不行了”
- 大数据平台常见开源工具集锦
- 一份超详细的 Spark 入门介绍
- 从 0 开始学大数据:Hive 性能优化篇
- 比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了
- 大数据 SQL Boy 脱坑指南
- 妈妈再也不用担心,我学不会大数据 flink 啦
- 过往记忆大数据
- 从大数据的角度来谈谈运维监控这件事儿
- 大数据分析工程师面试集锦(二):Scala
- 个推大数据金融风控算法实践
- 还在用 livy 吗?大数据连接器 Linkis 开源啦
- Flink 在自如 IM 的应用
- 端到端一致性,流系统 Spark/Flink/Kafka/DataFlow 对比总结
- 大数据正当时,理解这几个术语很重要
- 推荐中如何对大数据背景下的物品进行相似度计算
- 靠转型大数据涨薪的日子一去不复返了
- 漫谈大数据
- 从 Spark 的数据结构演进说开
- 一文让你彻底了解大数据实时计算引擎 Flink
- 基于 Flink 实现的商品实时推荐系统
- 面试系列(六):说说 Spark 的 failover 容错机制
- 大数据与人工智能
- Flink 实战剖析
- 零基础学 Flink:监控 on Prometheus & Grafana
- 使用 Spark 和 Delta Lake 构建近实时数据仓库
- Flink 实战剖析
- Apache Flink 初探
- 选方向?大数据的职位你了解多少
- Spark SQL 在字节跳动的核心优化实践
- 漫谈大数据平台架构
- [译] Hadoop 霸主地位不保?看看大数据领域的六年巨变
- 大数据组件 All-in-One 的 Docker 镜像
- Flink 如何生成 ExecutionGraph