Update CCA spark and hadoop developer.md

lee-june0210 · Mar 15, 2021 · 2d295a0 · 2d295a0
1 parent 1ca3e8a
commit 2d295a0
Showing 1 changed file with 2 additions and 1 deletion.
diff --git a/Hadoop/CCA spark and hadoop developer.md b/Hadoop/CCA spark and hadoop developer.md
@@ -99,7 +99,7 @@ RDD는 스파크에서 기본적인 데이터 단위라고 볼 수 있다.
  - Distributed : Cluster를 통해 메모리에 분산되어 저장(분산)
  - Dataset : 파일을 통해 가져올수있음 
 
-* 스쿱(sqoop)
+* sqoop
 
 관계형 데이터베이스와 하둡 사이에서 데이터 이관을 지원하는 툴이다. 스쿱을 이용하면 관계형 데이터베이스의 데이터를 HDFS, 하이브, Hbase에 임포트(import)하거나, 반대로 관계형 DB로 익스포트(export)할 수 있다. 
 
@@ -120,6 +120,7 @@ RDD는 스파크에서 기본적인 데이터 단위라고 볼 수 있다.
 
 * flume
 flume은 여러개의 서버에서 로그성 파일들을 한 곳으로 모아주는 로그 수집 agent이다.
+하둡은 데이터를 저장하는 곳을 분산시스템화 했다면, flume은 로그를 저장하고 한 곳에 모으는 것을 분산시스템 화 한것이다.
 
 * case class