1. 데이터 마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는? 데이터 가공 단계
2. 과대적합(Overfitting)은 통계나 기계학습의 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생한다. 다음 중 과대 적합에 대한 설명으로 가장 부적절한 것은?
- 생성된 모델이 훈련 데이터에서 너무 최적화되어 학습하여 테스트 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다. → 테스트 데이터의 작은 변화에 민감하게 반응
- 학습 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다.
- 변수가 너무 많아 모형이 복잡할 때 생긴다.
- 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다.
3. 귀납적 추론을 기반으로 하는 의사결정나무모형은 실무적으로 가장 많이 사용되는 모델 중 하나이다. 다음 중 의사결정나무모형에 대한 설명으로 부적절한 것은?
- 대표적인 적용 사례는 대출신용평가, 환자증상유추, 채무불이행 가능성 예측 등이 있다.
- 의사결정나무모형에는 ID3, C4.5, CART 등 여러가지 알고리즘이 있는데, 핵심적인 공통개념은 상향식 의사결정 흐름과 해시 탐색(Hash Search) 기반의 구조를 가지고 있다는 것이다. → 의사결정나무모형에서 핵심적인 공통개념은 하향식 기법이 사용되며, 각 진행단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다.
- 과적합(Overfitting)의 문제를 해결하기 위해 가지치기 방법을 위용하여 트리를 조정하는 방법을 사용한다.
- 불순도 측도인 엔트로피 개념은 정보이론의 개념을 기반으로 하며, 그 의미는 여러가지 임의의 사건이 모여있는 집합의 순수성(Purity) 또는 단일성(Homogeneity) 관점의 특성을 정량화해서 표현한 것이다.
4. 의사결정나무 모형에서 과대적합되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위하여 사용되는 방법은? 가지치기(Pruning) → 가지치기 단계는 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가치 또는 불필요한 가지를 제거하는 단계이다.
5. 이익도표(Lift)를 작성함에 있어 평가도구 중 %Captured Response를 표현한 계산식은?
해당집단에서 목표변수의 특정범주 빈도 / 전체 목표변수의 특정범주 빈도 x 100 → 특정 범주의 고객에게 Action을 수행할 경우, 실제 반응이 나타난 고객 중 몇 %의 고객을 확보할 수 있는지에 대한 수치
6. 다음 중 앙상블 기법이라고 할 수 없는 것은?
- 시그모이드 → 시그모이드는 인경신경망에서 활성화함수로 쓰인다.
- 부스팅
- 배깅
- 랜덤포레스트
7. 앙상블모형(Ensemble)이란 주어진 자료로부터 여러 개의 예측모형을 만든 후 이러한 예측모형들을 결합하여 하나의 최종 예측모형을 만드는 방법을 말한다. 다음 중 앙상블모형에 대한 설명으로 적절하지 않은 것은?
- 배깅은 주어진 자료에서 여러개의 Bootstrap 자료를 생성하고 각 Bootstrap 자료에 예측모형을 만든 후 결합하여 최종 모형을 만드는 방법이다.
- 부스팅은 배깅의 과정과 유사하여 재표본 과정에서 각 자료에 동일한 확률을 부여하여 여러 모형을 만들어 결합하는 방법이다. → 부스팅은 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법이다.
- 랜덤포레스트는 의사결정나무모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형결합해 최종 학습기를 만드는 방법이다.
- 앙상블모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법(Supervised Learning)이다.
8. 신경망 모형은 동물의 뇌신경계를 모방하여 분류를 위해 만들어진 모형이다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억 특성을 닮았고 특정 사건으로부터 일반화하는 능력도 갖고 있다. 다음 중 신경망 모형에 대한 설명으로 부적절한 것은?
- 은닉층(Hidden Layer)의 뉴런 수와 개수를 정하는 것은 신경망을 설계하는 사람의 직관과 경험에 의존한다. 뉴런 수가 너무 많으면 과적합(Overfitting)이 발생하고 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.
- 신경망 모형에서 뉴런의 주요 기능은 입력과 입력 강도의 가중합을 구한 다음 활성화 함수에 의해 출력을 내보내는 것이다. 따라서 입력 변수의 속성에 따라 활성화 함수를 선택하는 방법이 달라지게 된다. → 뉴런은 활성화함수를 이용해 출력을 결정하며 입력시놓의 가중치 합을 계산하여 임계값과 비교. 입력변수의 속성에 따라 활성화 함수를 선택하지는 않는다.
- 역전파(Back Propagation) 알고리즘은 신경망 모형의 목적함수를 최적화하기 위해 사용된다. 연결강도를 갱신하기 위해서 예측된 결과와 실제값의 차이인 에러(Error)를 통해 가중치를 조정하는 방법이다.
- 신경망 모형은 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용하며, 잡음에 대해서도 민감하게 반응하지 않는다는 장점을 가지고 있다.
9. 로지스틱 회귀모형은 독립변수(x)와 종속변수(y) 사이의 관계를 설명하는 모형으로서 종속변수가 범주형(y=0 또는 y=1)값을 갖는 경우에 사용하는 방법이다. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
- 이러한 데이터에 대해 선형회귀모형을 적용하는 것이 기술적으로 가능하지만, 선형회귀 문제점은 0 이하의 값이나 1 이상의 값을 예측값으로 줄 수 있다는 것이며 따라서 이를 확률값으로 직접 해석할 수 없다.
- 로지스틱 회귀모형은 클래스가 알려진 데이터의 설명변수들 관점에서 각 클래스 내의 관측치들에 대한 유사성을 찾는데 사용할 수 있다.
- 종속변수 y 대신 로짓(logit)이라 불리는 상수를 사용하여 로짓을 설명변수들의 선형함수로 모형화하기 때문에 이 모형을 로지스틱 회귀모형이라 한다. → 종속변수 y 대신 로짓을 사용하는게 아니라 y 값의 범위를 [0, 1]로 조정하기 위하여 로짓 변환을 사용
- Odds(오즈)란 클래스 0에 속할 확률(1-p)이 클래스 1에 속할 확률 p의 비로 나타낸다. 즉 Odds = p/(1-p)로 나타낸다.
10. 계층적 군집분석을 위해 거리 계산을 수행할 때 사용되는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?
- minkowski
- cosine
- binary
- canberra
→ 유클리디안 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 민코우스키 거리
11. 다음 중 k-means 군집의 단점으로 가장 부적절한 것은?
- 볼록한 형태가 아닌 군집이 존재하면 성능이 떨어진다.
- 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.
- 잡음이나 이상값에 영향을 많이 받는다.
- 한번 군집이 형성되면 군집내 객체들은 다른 군집으로 이동할 수 없다. → k개의 초기 중심값은 임의로 선택이 가능하므로 한번 군집이 형성되어도 군집 내 객체들은 다른 군집으로 이동이 될 수 있다.
12. 군집분석은 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법이다. 다음 중 군집분석에 대한 설명으로 부적절한 것은?
- 군집분석에서는 군집의 개수나 구조에 대한 가정없이 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도하지 않는다. → 군집분석에서는 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도
- 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안정성이 있다고 할 수 있다.
- 군집의 분리가 논리적인가를 살펴보기 위해서는 군집 간 변동의 크기 차이를 검토한다.
- 개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있다.
13. SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화하는 방법이다. 다음 중 SOM 방법에 대한 설명으로 부적절한 것은?
- SOM은 입력변수의 위치 관계를 그대로 보존한다는 특징이 있다. 이러한 SOM의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
- SOM을 이용한 군집분석은 인공신경망의 역전파 알고리즘을 사용함으로써 수행 속도가 빠르고 군집의 성능이 매우 우수하다. → SOM은 역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빨라 실시간 학습처리를 할 수 있는 모형이다.
- SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.
- SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습한다. 이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.
14. k-평균 군집으로 대표되는 비계층적 군집 방법에는 군집의 개수인 k를 미리 정해주어야 하는데, 군집 수를 정하는 데 활용할 수 있는 그래프는? 집단 내 제곱합 그래프 → k-평균 군집은 초기 중심으로부터 오차 제곱합을 최소화 하는 방향으로 군집이 형성되므로 집단 내 제곱합 그래프가 필요
15. k-평균 군집 수행 절차는?
초기 (군집의) 중심으로 k개의 객체를 임의로 선택한다. -> 각 자료를 가장 가까운 군집 중심에 할당한다. -> 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 업데이트 한다. -> 군집 중심의 변화가 거의 없을 때(또는 최대 반복 수)까지 단계 2와 단계 3을 반복한다.
16. 다음 중 연관성 분석에 대한 설명으로 부적절한 것은?
- Apriori 알고리즘은 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법이다.
- 연관성 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품별 거래 빈도표를 통해 규칙을 찾는데서 시작했다.
- 품목 A와 품목 B의 구매가 상호 관련이 없다면 향상도는 1이 된다.
- 사건들이 어떤 순서로 일어나고 이 사건들 사이에 연관성을 알아내는 것이 시차 연관분석이지만 원인과 결과의 형태로 해석되지는 않는다. → 시차연관분석은 시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석으로 원인과 결과의 형태로 해석이 가능하여 결과가 더욱 유용하게 쓰인다.
17. 이상값 자료에 민감한 k-평균 군집의 단점을 보완하기 위해 평균 대신 사용되는 것은? 중앙값 → 군집에서 가장 중심에 위치한 객체인 median을 사용하는 k-medoids 군집화 알고리즘을 사용
18. R에서 연관성 분석을 위해 apriori 함수를 활용하여 연관규칙을 생성할 때, 생성된 연관규칙을 보기 위해 사용되는 함수는? inspect()
19. 베이즈 정리(Bayes Theory)와 특징에 대한 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘은? 나이브베이지안 분류
20. 신경망 모형에서 표준화 지수 함수로 불리며, 출력값 z가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하는 출력노드에 주로 사용되는 함수는? softmax 함수
21. 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하여 계산할 수 있는 유사성 측도는? 코사인 유사도(cosine similarity)
22. 혼합분포군집(Mixture Distribution Clustering)은 모형 기반의 군집 방법에서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood)추정에 사용되는 알고리즘은 무엇인가? EM(Expectation-Maximization)알고리즘
23. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로, 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는? 실루엣
24. SOM(Self-Organizing Maps)에서는 각 학습단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데, 이 때 선택된 프로토타입 벡터를 나타내는 용어는? BMU(Best-Matching Unit)
25. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로, 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에서 사용되는 이 그래프는 무엇인가? 향상도 곡선
'자격증 공부 > ADsP' 카테고리의 다른 글
ADsP 38회 합격 후기 - 사전점수 발표 (1) | 2023.09.11 |
---|---|
ADsP 38회 시험후기 - 가답안 복원/복기 (3) | 2023.08.19 |
ADsP 오답노트(6) - 통계분석 (0) | 2023.08.15 |
ADsP 오답노트(5) - 데이터 마트 (2) | 2023.08.13 |
ADsP 오답노트(4) - R 프로그래밍 기초 (0) | 2023.08.13 |
댓글