1. 많은 기업에서 평균거래주기를 3~4배 이상 초과하거나 다음 달에 거래가 없을 것으로 예상되는 고객을 무엇이라고 하는가? 휴면고객
2. 데이터명이 DS인 데이터에서 ID 컬럼과 Variable 컬럼에 대해 Time의 Value를 확인하고자 할 때 cast 함수를 활용한 R 프로그래밍은?
cast(ds, id+variable~time)
3. 데이터프레임명이 DF인 데이터에서 기초통계량과 각 feed별 weight의 평균을 계산하기 위한 R 프로그래밍은?
ddply(df, ~feed, summarize, groupmean=mean(weight))
4. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은?
- 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.
- 관측치가 있지만 실상은 Default 값이 기록된 경우에도 결측치로 처리해야 하는 것이 바람직하다. → 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하면 안된다. Default 값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수 있다.
- 결측치가 있는 경우 다양한 대치(Imputation) 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
- 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.
5. 다음은 결측값을 확인하고 결측값을 대치하는 데 활용되는 R 함수이다. 설명이 잘못된 것은?
- complete.cases() : 데이터 내 레코드에 결측값이 있으면 TRUE, 없으면 FALSE를 반환하는 함수 → 결측값이 없으면 TRUE, 있으면 FALSE
- is.na() : 결측값이 NA인지 여부를 판단하여 반환하는 함수
- knnImputation() : NA 값을 k 최근 이웃 분류 알고리즘을 사용하여 대치하는 함수로 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수
- rfImpute() : 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수
6. 이상치에 대한 설명으로 가장 부적절한 것은?
- 군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판정한다.
- 데이터를 측정과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제한 후 분석한다. → 이상치는 분석에 의미가 있을 수 있으므로 제거하면 안된다.
- 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 한다.
- 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.
7. 평균으로부터 t Stabdard Deviation 이상 떨어져 있는 값들을 이상값(Outlier)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은? ESD
'자격증 공부 > ADsP' 카테고리의 다른 글
ADsP 오답노트(7) - 정형 데이터 마이닝 (5) | 2023.08.16 |
---|---|
ADsP 오답노트(6) - 통계분석 (0) | 2023.08.15 |
ADsP 오답노트(4) - R 프로그래밍 기초 (0) | 2023.08.13 |
ADsP 오답노트(3) - 데이터 분석 개요 (0) | 2023.08.13 |
ADsP 오답노트(2) - 데이터 분석 기획 (2) | 2023.08.09 |
댓글