1. 자료의 정보를 이용해 집단에 관한 추측, 결론을 이끌어내는 과정인 통계적 추론에 대한 설명으로 가장 부적절한 것은?
- 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라고 한다.
- 점 추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것이다.
- 통계적 추론은 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적인 불확실성을 동반한다.
- 구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이며, 실제 모집단의 모수는 신뢰구간에 포함되어야 한다. → 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다.
2. 모집단 내에서 모집단의 특성을 잘 나타낼 수 있는 일부를 추출하여 이들로부터 자료를 수집하고 수집된 자료를 토대로 모집단의 특성을 추정하게 된다. 이 때 조사하는 모집단의 일부분을 표본(sample)이라고 한다. 다음 중 표본조사에 대한 설명으로 가장 부적절한 것은?
- 표본오차(sampling error)는 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차를 말한다.
- 표본편의(sampling bias)는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미한다.
- 표본편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률표본(random sample)이라고 한다.
- 비표본오차(non-samplisng error)는 표본오차를 제외한 모든 오차로 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가한다고 해서 오차가 커지지는 않는다. → 조사대상이 증가하면 커진다.
3. 다음 중 표본조사의 유의점에 대한 설명으로 가장 부적절한 것은?
- 표본편의는 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차를 의미한다.
- 표본편의는 모형추론방법으로 최소화하거나 없앨 수 있다. → 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
- 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있다.
- 응답오차, 유도질문 등은 표본조사에서 유의할 점이다.
4. 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 (귀무가설을 기각하는 오류) 이를 제 1종 오류라고 한다. 이 때 우리가 내린 판정이 잘못되었을 실제 확률을 무엇으로 나타낼 수 있는가? p-value
5. 통계적 추론이란 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정으로, 추정과 가설검정을 통하여 이루어진다. 표본을 이용하여 모집단의 특성치에 대한 추측값을 제공하고 오차한계를 제시하는 과정을 추정이라고 한다. 다음 중 추정에 대한 설명으로 부적절한 것은?
- 추정의 목적은 표본통계량에 기초하여 모수의 근사값을 결정하는 것이다. 표본 평균을 활용해서 모평균을 추정하는 것 등을 예로 들 수 있다.
- 추정량 ^μ를 사용하여 μ의 추정값과 그 오차한계를 제시할 때, 오차한계의 기본이 되는 것은 추정량 ^μ의 표준편차인 σ/√n이므로 이를 ^μ의 표준오차(standard error)라고 한다.
- 신뢰수준 95%의 의미는 추정값이 신뢰구간 내에 존재할 확률이 95%라는 것이다. → 신뢰수준 95%의 의미는 모수가 신뢰구간 내에 존재할 확률이 95%라는 것이다.
- 구간추정은 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는 것이며 실제 모집단의 모수는 신뢰구간에 포함되지 않을 수도 있다.
6. 히스토그램은 표로 되어 있는 도수분포표를 그래프로 나타낸 것이다. 다음 중 히스토그램에 대한 설명으로 부적절한 것은?
- 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타낸다. 계급은 보통 변수의 구간이며, 서로 겹치지 않는다.
- 히스토그램은 표본의 크기가 작아도 각 막대의 높이가 데이터 분포의 형상을 잘 표현해낸다. → 히스토그램은 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못한다.
- 그래프의 모양이 치우쳐있거나 봉우리가 여러개 있는 그래프는 비정규 데이터일 수 있다.
- 봉우리가 여러개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생한다.
7. 아래는 남학생과 여학생이 좋아하는 과일에 대한 빈도교차표이다. 전체에서 1명을 뽑았을 때, 그 학생이 남학생일 때 사과를 좋아할 확률은 얼마인가? 3/7 → 30 / (30 + 40)
사과 | 딸기 | |
남학생 | 30 | 40 |
여학생 | 10 | 20 |
8. 회귀분석에서 결정계수(R2)에 대한 설명으로 부적절한 것은?
- 총 변동 중에서 설명이 되지 않는 오차에 의한 변동이 차지하는 비율이다. → 결정계수는 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율이다.
- 회귀모형에서 입력 변수가 증가하면 결정계수도 증가한다.
- 다중 회귀분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절하다.
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다.
9. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?
- 히스토그램
- Q-Q plot
- Shapiro-Wilks test
- Durbin-Watson → Durbin-Watson test는 회귀모형 오차항의 자기상관이 있는지에 대한 검정이다.
10. 다음 중 최적회귀방정식을 선택하기 위한 방법에 대한 설명으로 가장 부적절한 것은?
- 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다.
- AIC나 BIC의 값이 가장 작은 모형을 선택하는 방법으로 모든 가능한 조합의 회귀분석을 실시한다.
- 전진선택법이나 후진제거법과 동일한 최적 모형을 선택하는 것이 단계적 방법이다. → 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이므로 전진선택법이과 후진제거법과 동일한 최적 모형을 가지는 것은 아니다.
- 전진선택법은 설명변수를 추가했을 떄 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가한다.
11. 주성분분석은 p개의 변수들을 중요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 방법을 사용한다. 다음 중 주성분 개수(m)를 선택하는 방법에 대한 설명으로 가장 부적절한 것은?
- 전체 변이 공헌도(percentage of total variance) 방법은 전체 변이의 70~90% 정도가 되도록 주성분의 수를 결정한다.
- 평균 고윳값(average eigenvalue) 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 제거하는 방법이다. → 주성분을 제거하는 것이 아닌 설정하는 방법이다.
- Scree graph를 이용하는 방법은 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 원만해지는 지점에서 1을 뺀 개수를 주성분의 개수로 선택한다.
- 주성분은 주성분을 구성하는 변수들의 계수 구조를 파악하여 적절하게 해석되어야 하며, 명확하게 정의된 해석 방법이 있는 것은 아니다.
12. 시계열 데이터의 분석 절차는?
시간 그래프 그리기 -> 추세와 계절성을 제거하기 -> 잔차를 예측하기 -> 잔차에 대한 모델 적합하기 -> 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기
13. 다음은 다차원척도법(MDS)에 대한 설명이다. 설명이 가장 부적절한 것은?
- 다차원척도법은 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석 방법이다.
- 다차원척도법의 목적은 데이터 속에 잠재한 패턴을 찾기 위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현하는 것이다.
- 일반적인 다차원척도법(classical MDS)은 계량적 다차원척도법(metric MDS)이라고도 부르며 순서척도의 데이터로 이루어진 개체들의 거리를 계산한다. → 계량적 다차원 척도법(metric MDS)는 비율척도, 구간척도의 데이터를 활용하며 비계량적 다차원 척도법(Non-Metric MDS)는 순서척도의 데이터를 활용한다.
- 스트레스 값이 0.05 이하이면 적합정도가 아주 좋은 것으로 해석하고 반복 분석과정을 중단해도 된다.
14. 단순회귀분석 모형을 Yi = α+ βXi + εi로 표현할 수 있다. 주어진 자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차 Σ(Yi - (β0+β1Xi))^2을 최소로 하는 값을 구한다. 이와 같이 구해진 회귀계수 추정량을 무엇이라고 하는가?
최소제곱
15. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법은? 계통추출방법
16. 단순 로지스틱 회귀모형에서 exp()의 의미는 x1, x2, ..., xk가 주어질 때 x1이 한 단위 증가할 때마다 성공(y=1)의 오즈(odds) 또는 승산이/가 몇 배 증가하는지를 나타내는 값이다.
17. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는? 정상성
18. 시계열 모형의 여러종류 중 아래에서 설명하는 것은? 자기회귀모형(AR모형, Autoregressive Model)
- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ... , p차 등을 사용하나 정상시계열 모형에서는 주로 1,2차를 사용
19. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은? 분해시계열
'자격증 공부 > ADsP' 카테고리의 다른 글
ADsP 38회 시험후기 - 가답안 복원/복기 (3) | 2023.08.19 |
---|---|
ADsP 오답노트(7) - 정형 데이터 마이닝 (5) | 2023.08.16 |
ADsP 오답노트(5) - 데이터 마트 (2) | 2023.08.13 |
ADsP 오답노트(4) - R 프로그래밍 기초 (0) | 2023.08.13 |
ADsP 오답노트(3) - 데이터 분석 개요 (0) | 2023.08.13 |
댓글