Skip to content

Commit

Permalink
Update CCA spark and hadoop developer.md
Browse files Browse the repository at this point in the history
  • Loading branch information
lee-june0210 authored Mar 15, 2021
1 parent 1ca3e8a commit 2d295a0
Showing 1 changed file with 2 additions and 1 deletion.
3 changes: 2 additions & 1 deletion Hadoop/CCA spark and hadoop developer.md
Original file line number Diff line number Diff line change
Expand Up @@ -99,7 +99,7 @@ RDD는 스파크에서 기본적인 데이터 단위라고 볼 수 있다.
- Distributed : Cluster를 통해 메모리에 분산되어 저장(분산)
- Dataset : 파일을 통해 가져올수있음

* 스쿱(sqoop)
* sqoop

관계형 데이터베이스와 하둡 사이에서 데이터 이관을 지원하는 툴이다. 스쿱을 이용하면 관계형 데이터베이스의 데이터를 HDFS, 하이브, Hbase에 임포트(import)하거나, 반대로 관계형 DB로 익스포트(export)할 수 있다.

Expand All @@ -120,6 +120,7 @@ RDD는 스파크에서 기본적인 데이터 단위라고 볼 수 있다.

* flume
flume은 여러개의 서버에서 로그성 파일들을 한 곳으로 모아주는 로그 수집 agent이다.
하둡은 데이터를 저장하는 곳을 분산시스템화 했다면, flume은 로그를 저장하고 한 곳에 모으는 것을 분산시스템 화 한것이다.

* case class

Expand Down

0 comments on commit 2d295a0

Please sign in to comment.