데이터 분석의 흐름


1.    데이터를 R로 읽어 들인다.

2.    읽어 들인 데이터를 플룻 한다.

3.    읽어 들인 데이터의 통계량을 구한다.

1은 함수 c()를 이용해서 데이터를 벡터로 간단히 읽어 들일 수 있다. 2는 데이터의 특징을 파악한다는 의미에서 중요하고, 그래픽 기능이 뛰어난 R이라면 간단히 처리할 수 있다. 3은 한 그룹이상의 데이터를 추정하고 검정하며, 데이터로부터 모델식을 작성하고 그 모델에 대해 회귀분석등을 한다. 여기서는 T검정과 직선 회귀, 최소 제곱법을 시행하는 방법을 소개한다.


여섯명에게 밀가루(약이라 생각하고 먹게함)를 다른 여섯명에게는 다이어트 약을 1개월간 복용한 후 체중의 변화량을 측정한 데이터이다.


흥미있는 것은 체중의 변화다. 우선밀가루 복용그룹과 다이어트 복용 그룹의 12명 전원의 체중 변화데이터를 읽어들인다.

1과정 수행

flour <- c(3, -2, -1 ,0 ,1, -2)

diet <- c(-4, 1, -3, -5, -2, -8)

total <- c(flour, diet)


2과정 데이터를 플롯한다.

#데이터를 플롯한다.

hist(total)

#히스토그램끼리 겹치기는 힘드므로 히스토그램을 선으로그린 밀도추정곡선으로 그룹 비교한다.

plot(density(flour), xlim=c(-8,8),ylim=c(0,0.2), lty=1, ann=F)

par(new=T)

plot(density(diet), xlim =c(-8,8), ylim=c(0,0.2),lty=2)

legend(4,0.2, c("밀가루", "다이어트약"), lty=1:2, ncol=1)



검정 결과 보는법

t검정을 시행 함수 t.test() 검정결과 출력한다.

주로 > 함수명(데이터를 벡터나 행렬로 지정)

함수명(x) 하나의 표본에 대해 검정할때는 하나의 벡터 X를 지정한다.

함수명(x,y) 두개의 표본에 대해 검정등을 할때는 두개의 벡터 x,y 를 지정한다.

함수명(A) 2x2 분할표나 분산분석표등에 대해 검정을 할때는 표의 성분을 행렬 A로 지정한다.


t.test(x,y=NULL , alternative=c("two.sided", "less", "greater"), mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95)


t.test(diet , mu=0) # 모평균 mu 가 0인지 검정해서 95%의 신뢰구간을 구한다.


One Sample t-test


data:  diet   #data : diet 검정한 데이터 이름

t = -2.842, df = 5, p-value = 0.03616 #t=-2.842 : t의 값, 이 값이 기각역에 들어가는지 본다. df = 5 : t의 자유도, p-value = 0.03616 : p의 값, 이 값이 0.05보다 작으면 유의차가 있는 것이다. (지금은 유의차가 나왔다.)

alternative hypothesis: true mean is not equal to 0  #alternative hypothesis : 대립가설, 모평균이 0이 아니다.

95 percent confidence interval: 95 % 신뢰 구간. 신뢰구간은 [-6.6657492, -0.3342508]로 되어있다.

 -6.6657492 -0.3342508

sample estimates: #추정값 , 지금은 표본평균을 추정하고 있으며 ,-3.5 로 되어있다.

mean of x 

     -3.5 

'Data Science > R' 카테고리의 다른 글

시계열분석  (0) 2015.09.25
R 도움말 & 함수 확인  (0) 2015.09.10
R 공부 1회차 Example  (0) 2015.08.31
Posted by MIDDLE
,