본문 바로가기
자격증 공부/빅데이터분석기사

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(3)

by 해모해모 2023. 6. 19.
728x90
반응형

주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하세요!
import pandas as pd
df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv')
print(df.head())

print(df.isnull().sum())
print(df.isnull().sum() >= len(df)*0.8) # 결측값이 80퍼 이상되는 컬럼 => 'f3'

print(df.isnull().sum())
df = df.drop(['f3'], axis=1)
print(df.isnull().sum())

# 이 구간에서 첫번째 망했고
df['city'].unique()

seoul = df['city']=='서울'
busan = df['city']=='부산'
daegu = df['city']=='대구'
kyeongki = df['city']=='경기'

s = df[seoul]['f1'].median()
b = df[busan]['f1'].median()
d = df[daegu]['f1'].median()
k = df[kyeongki]['f1'].median()

# 이 구간에서 완전히 망해버림
df['f1'] = df['f1'].fillna(df['city'].map({'서울':s,'경기':k,'부산':b,'대구':d}))

print(df['f1'].mean())

# 정답 : 65.52

출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

출처_퇴근후딴짓(유튜브) : https://www.youtube.com/@ai-study

 

퇴근후딴짓

퇴근 후, 함께 재미있게 성장하는 딴짓 커뮤니티 비 전공, 다른 직무라도 Re-skilling이 필요한 시대입니다. 함께 AI, 머신러닝, 딥러닝을 재미있게 Study 시작해보아요 :) 새롭게 알게 된 것, 공부한

www.youtube.com

728x90
반응형

댓글