데이터 분석의 흐름
1. 데이터를 R로 읽어 들인다.
2. 읽어 들인 데이터를 플룻 한다.
3. 읽어 들인 데이터의 통계량을 구한다.
1은 함수 c()를 이용해서 데이터를 벡터로 간단히 읽어 들일 수 있다. 2는 데이터의 특징을 파악한다는 의미에서 중요하고, 그래픽 기능이 뛰어난 R이라면 간단히 처리할 수 있다. 3은 한 그룹이상의 데이터를 추정하고 검정하며, 데이터로부터 모델식을 작성하고 그 모델에 대해 회귀분석등을 한다. 여기서는 T검정과 직선 회귀, 최소 제곱법을 시행하는 방법을 소개한다.
여섯명에게 밀가루(약이라 생각하고 먹게함)를 다른 여섯명에게는 다이어트 약을 1개월간 복용한 후 체중의 변화량을 측정한 데이터이다.
흥미있는 것은 체중의 변화다. 우선밀가루 복용그룹과 다이어트 복용 그룹의 12명 전원의 체중 변화데이터를 읽어들인다.
1과정 수행
flour <- c(3, -2, -1 ,0 ,1, -2)
diet <- c(-4, 1, -3, -5, -2, -8)
total <- c(flour, diet)
2과정 데이터를 플롯한다.
#데이터를 플롯한다.
hist(total)
#히스토그램끼리 겹치기는 힘드므로 히스토그램을 선으로그린 밀도추정곡선으로 그룹 비교한다.
plot(density(flour), xlim=c(-8,8),ylim=c(0,0.2), lty=1, ann=F)
par(new=T)
plot(density(diet), xlim =c(-8,8), ylim=c(0,0.2),lty=2)
legend(4,0.2, c("밀가루", "다이어트약"), lty=1:2, ncol=1)
검정 결과 보는법
t검정을 시행 함수 t.test() 검정결과 출력한다.
주로 > 함수명(데이터를 벡터나 행렬로 지정)
함수명(x) 하나의 표본에 대해 검정할때는 하나의 벡터 X를 지정한다.
함수명(x,y) 두개의 표본에 대해 검정등을 할때는 두개의 벡터 x,y 를 지정한다.
함수명(A) 2x2 분할표나 분산분석표등에 대해 검정을 할때는 표의 성분을 행렬 A로 지정한다.
t.test(x,y=NULL , alternative=c("two.sided", "less", "greater"), mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95)
t.test(diet , mu=0) # 모평균 mu 가 0인지 검정해서 95%의 신뢰구간을 구한다.
One Sample t-test
data: diet #data : diet 검정한 데이터 이름
t = -2.842, df = 5, p-value = 0.03616 #t=-2.842 : t의 값, 이 값이 기각역에 들어가는지 본다. df = 5 : t의 자유도, p-value = 0.03616 : p의 값, 이 값이 0.05보다 작으면 유의차가 있는 것이다. (지금은 유의차가 나왔다.)
alternative hypothesis: true mean is not equal to 0 #alternative hypothesis : 대립가설, 모평균이 0이 아니다.
95 percent confidence interval: 95 % 신뢰 구간. 신뢰구간은 [-6.6657492, -0.3342508]로 되어있다.
-6.6657492 -0.3342508
sample estimates: #추정값 , 지금은 표본평균을 추정하고 있으며 ,-3.5 로 되어있다.
mean of x
-3.5
'Data Science > R' 카테고리의 다른 글
시계열분석 (0) | 2015.09.25 |
---|---|
R 도움말 & 함수 확인 (0) | 2015.09.10 |
R 공부 1회차 Example (0) | 2015.08.31 |