13_analiza_składowych_głównych.R

# ANALIZA SKŁADOWYCH GŁÓWNYCH

# zadanie 1 ---------------------------------------------------------------
# W powyższym przykładzie do analizy składowych głównych zostały wykorzystane
# wszystkie zmienne. Jednak jedna z nich jest bardzo słabo skorelowana z pozostałymi. Ustal tę
# zmienną, a następnie wykonaj poniższe polecenia bez jej uzwględnienia: 

dane <- USArrests
dane <- dane[,-3]

# 1. Dokonaj analizy składowych głównych.

# Przygotowanie danych do analizy
var(dane)

# Skalowanie
dane_scale <- scale(dane)
var(dane_scale)

# Analiza składowych głównych
pca <- prcomp(dane, scale=TRUE)

# 2. Jaki procent wariancji ttumaczony jest przez poszczególne składowe? 

summary(pca)
# procent wariancji - drugi wiersz

# 3. Wyznacz współrzędne obserwacji w nowym układzie współrzędnych utworzonym przez
# składowe główne. 

# współrzędne obserwacji
head(pca$x)

# 4. Dokonaj interpretacji ładunków i zilustruj je na wykresie. 

#interpretacja ładunków
pca$rotation

# wykres
# ???

# 5. Narysuj wykres osypiska i zaproponuj optymalną liczbę składowych głównych w oparciu o
# trzy kryteria. 

# wykres osypiska
plot(pca)

# 6. Przedstaw stany w układzie dwóch pierwszych składowych głównych (dokładniej narysuj
# biplot i dokonaj jego interpretacji).

biplot(pca)

# 7. Przedstaw stany za pomocą minimalnego drzewa rozpinającego. 

#drzewo rozpinające
library(ape)
plot(mst(dist(dane_scale)), x1 = pca$x[, 1], x2 = pca$x[, 2])

# zadanie 2 ---------------------------------------------------------------
# Zbiór danych mtcars zawiera informacje na temat 32 samochodów z roku 1974. 

dane <- mtcars

# 1. Dokonaj analizy składowych głównych biorąc pod uwagę cechy: 
# mpg, disp, hp, drat, wt, qsec. 
mtcars_sel <- mtcars[, c(1, 3:7)]

# Analiza składowych głównych
(pca_2 <- prcomp(mtcars_sel, scale = TRUE))
dane_scale <- scale(mtcars_sel)

# 2. Jaki procent wariancji tłumaczony jest przez poszczególne składowe? 

# procent wariancji - drugi wiersz
summary(pca_2)

# 3. Wyznacz współrzędne obserwacji w nowym układzie współrzędnych utworzonym przez
# składowe główne. 

head(pca_2$x)

# 4. Dokonaj interpretacji ładunków i zilustruj je na wykresie.

pca_2$rotation

# 5. Narysuj wykres osypiska i zaproponuj optymalną liczbę składowych głównych w oparciu o trzy kryteria. 
# ???

# 6. Przedstaw samochody w układzie dwóch pierwszych składowych głównych (dokładniej
# narysuj biplot i dokonaj jego interpretacji). 

plot(pca_2)
biplot(pca_2)

# 7. Przedstaw samochody za pomocą minimalnego drzewa rozpinającego.
library(ape)
plot(mst(dist(dane_scale)), x1 = pca_2$x[, 1], x2 = pca_2$x[, 2])


# 8. Jak bardzo będą różniły się wyniki, jeśli nie wykonamy skalowania danych? 

# Analiza składowych głównych
(pca_3 <- prcomp(mtcars_sel, scale = FALSE, center = FALSE))
dane_scale <- scale(mtcars_sel)

# procent wariancji - drugi wiersz
summary(pca_3)

# współrzędne obserwacji
head(pca_3$x)

# interpretacji ładunków
pca_3$rotation

# wykres osypiska
plot(pca_3)

biplot(pca_3)

# drzewo rozpinające
library(ape)
plot(mst(dist(dane_scale)), x1 = pca_3$x[, 1], x2 = pca_3$x[, 2])