본문 바로가기
728x90
반응형

ADsP오답7

ADsP 오답노트(7) - 정형 데이터 마이닝 1. 데이터 마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는? 데이터 가공 단계 2. 과대적합(Overfitting)은 통계나 기계학습의 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생한다. 다음 중 과대 적합에 대한 설명으로 가장 부적절한 것은? - 생성된 모델이 훈련 데이터에서 너무 최적화되어 학습하여 테스트 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다. → 테스트 데이터의 작은 변화에 민감하게 반응 - 학습 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다. - 변수가 너무 많아 모형이 복잡할 때 생긴다. - 과대적합이 발생할 것으로 예상되면 학습을 종료하고 .. 2023. 8. 16.
ADsP 오답노트(6) - 통계분석 1. 자료의 정보를 이용해 집단에 관한 추측, 결론을 이끌어내는 과정인 통계적 추론에 대한 설명으로 가장 부적절한 것은? - 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라고 한다. - 점 추정은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것이다. - 통계적 추론은 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적인 불확실성을 동반한다. - 구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이며, 실제 모집단의 모수는 신뢰구간에 포함되어야 한다. → 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다. 2. 모집단 내에서 모집단의 특성을 잘 나타낼 수 .. 2023. 8. 15.
ADsP 오답노트(5) - 데이터 마트 1. 많은 기업에서 평균거래주기를 3~4배 이상 초과하거나 다음 달에 거래가 없을 것으로 예상되는 고객을 무엇이라고 하는가? 휴면고객 2. 데이터명이 DS인 데이터에서 ID 컬럼과 Variable 컬럼에 대해 Time의 Value를 확인하고자 할 때 cast 함수를 활용한 R 프로그래밍은? cast(ds, id+variable~time) 3. 데이터프레임명이 DF인 데이터에서 기초통계량과 각 feed별 weight의 평균을 계산하기 위한 R 프로그래밍은? ddply(df, ~feed, summarize, groupmean=mean(weight)) 4. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은? - 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다. - 관측치가 있지만 실상은 Default 값이.. 2023. 8. 13.
ADsP 오답노트(4) - R 프로그래밍 기초 1. 연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범주형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악할 수 있게 하는 함수는? summary 함수 2. 다음 중 아래의 R코드를 수행한 결과에 대한 설명으로 옳은 것은? > c(2,4,6,8) + c(1,3,5,7,9) 경고메시지와 함께 결과가 출력된다. → '두 객체의 길이가 서로 배수관계에 있지 않다'라는 경고메시지와 함께 결과도 출력됨 3. R의 데이터 구조와 저장형식에 관한 설명으로 가장 부적절한 것은? - as.numeric 함수에 논리형 벡터를 입력하면 TRUE에 대응하는 원소는 1, FALSE에 대응하는 원소는 0인 숫자형 벡터로 변형된다. - 숫자형 행렬에서 원소 중 하나를 문자형으로 변.. 2023. 8. 13.
ADsP 오답노트(3) - 데이터 분석 개요 1. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석방식은 무엇인가? 탐색적 자료 분석(EDA) 2. 데이터마이닝의 모델링에 대한 설명이다. 설명이 가장 잘못된 것은? - 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다. - 모델링 방법은 여러가지가 있으므로 모델링 시 반드시 다양한 옵션을 줘서 모델링을 수행하여 최고의 성과를 도출해야 한다. → 반드시는 아니고, 충분한 시간이 있으면 시도해보고 일정 성과가 나오면 해석과 활용 단계로 진행 - 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시한다. - 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할.. 2023. 8. 13.
ADsP 오답노트(2) - 데이터 분석 기획 1. 분석 기획 고려사항 중 장애요소에 대한 설명으로 부적절한 것은? - 비용대비 효과의 적정한 비용 - 분석 모형의 안정적 성능 확보 - 이해도 높은 모형보다는 복잡하고 정교한 모형 - 조직 역량으로 내재화를 위한 변화 관리 2. 다양한 데이터 유형 중 정형 데이터 - 반정형 데이터 - 비정형 데이터 순서로 가장 적절한 것은? - Demand Forecasts - Competitor pricing - Email records → 정형 : ERP, CRM, SCM 등의 정보시스템 → 반정형 : 로그 데이터, 모바일 데이터, 센싱 데이터 → 비정형 : 영상, 음성, 문자 등 - Facebook status - Weather data - Web logs - RFID - Internet of things se.. 2023. 8. 9.
ADsP 오답노트(1) - 데이터의 이해 1. 다음 중 지식(Knowledge)에 대한 예시로 가장 적절한 것은? - A사이트보다 B사이트가 다른 물건도 비싸게 팔 것이다. - B사이트보다 가격이 상대적으로 저렴한 A사이트에서 USB를 사야겠다. 데이터(D)→정보(I)→지식(K)→지혜(W) - A사이트는 10,000원에, B사이트는 15,000원에 USB를 팔고 있다. - B사이트의 USB 판매가격이 A사이트보다 더 비싸다. 2. 다음 중 글로벌 기업의 빅데이터 활용사례로 그 연결이 부적절한 것은? - 구글 : 실시간 자동 번역시스템을 통한 의사소통의 불편 해소 - 라쿠텐 : 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영 → Cinematch는 넷플리스의 영화추천 알고리즘이다. - 월마트 : 소셜 미디어.. 2023. 8. 7.
728x90
반응형