본문 바로가기
728x90
반응형

자격증 공부/빅데이터분석기사41

빅데이터 분석기사 실기 예제 - 작업형 2유형(5) 성인 인구조사 소득 예측(50K 이하이면 0, 50K 초과이면 1) # X_train.shape, X_test.shape, y_train.shape, y_test.shape #((26048, 15), (6513, 15), (26048, 2), (6513, 2)) # print(X_train.head()) # print(y_train.head()) # id income # print(X_train.info()) # print(y_train['income'].value_counts()) # 결측치 # print(X_train.isnull().sum()) # print(X_test.isnull().sum()) # 결측치 제거 cols = ['workclass', 'occupation', 'native.coun.. 2023. 6. 20.
빅데이터 분석기사 실기 예제 - 작업형 2유형(4) 당뇨병 여부 판단 # EDA # print(X_train.head()) # print(X_test.head()) # print(y_test.head()) # id, Outcome # print(X_train.info()) # print(X_train.describe()) # print(y_train['Outcome'].value_counts()) # 0:403, 1:211 # 결측치 확인 # print(X_train.isnull().sum()) X # print(X_test.isnull().sum()) X # 필요없는 컬럼 제거 # print(X_train.shape, X_test.shape) X_train = X_train.drop('id', axis = 1) test_id = X_test.pop('i.. 2023. 6. 20.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(6) 주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # f1컬럼 결측치 제거 print(df.isnull().sum()) df = df.dropna(subset=['f1']) print(df.isnull().sum()) # 그룹 합계 계산 groupSum = df.groupby(['city', 'f2']).sum() print(gro.. 2023. 6. 20.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(5) 주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # 조건에 맞는 데이터 (ENFJ, INFP) ENFJ = df['f4'] == 'ENFJ' INFP = df['f4'] == 'INFP' print(df[ENFJ]) print(df[INFP]) # 조건에 맞는 f1의 표준편차 (ENFJ, INFP) stdENFJ = df['f1'][ENFJ].std() stdINFP = df['f1'][INFP].st.. 2023. 6. 19.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(4) 주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv') print(df.head()) # 'SalePrice'컬럼 왜도와 첨도계산 dfSkew = df['SalePrice'].skew() # 왜도(비대칭도) dfKurt = df['SalePrice'].kurt() # 첨도(두꺼운꼬리) print("왜도 : ", dfS.. 2023. 6. 19.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(3) 주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하세요! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.isnull().sum()) print(df.isnull().sum() >= len(df)*0.8) # 결측값이 80퍼 이상되는 컬럼 => 'f3' print(df.isnull().sum()) df = df.drop(['f3'], axis=1) print(df.isnull().sum()) # 이 구간에서 첫번째 망했고 df['.. 2023. 6. 19.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(2) 주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.info()) # 소수점 데이터 찾기 import numpy as np # 원 age 데이터와 소수점 버린 age의 차이가 0이 아니면 age가 소수점 데이터인 것 cond = (df['age'] - np.trunc(df['age'])) != 0 df = df[cond] print(df['age'].value_counts(.. 2023. 6. 19.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(1) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/titanic/train.csv') # print(df.head()) # EDA # print(df.isnull().sum()) df = df.dropna(axis=1) # 결측치 열 그냥 지워버림 # print(df.isnull().sum()) # IQR 구하기 Q3 = df['Fare'].quantile(.75) Q1 = df['Fare'].quantile(.25) # print(q3) # print(q1) IQR = Q3 - Q1 # print(IQR) # 이상치 데이터 구하기 cond1 =.. 2023. 6. 19.
빅데이터 분석기사 실기 예제 - 작업형 1유형(6) 문제 1 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후, 'age'컬럼에서 80 이상인 데이터의'f5 컬럼 평균값 구하기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df['f5'].head(20)) # print(df.isnull().sum()) df = df.sort_values('f5', ascending = False) # f5기준 내림차순 정렬 # print(df['f5'].head(20)) # print(df['f5'][:10].min()) # 컬럼 10개 중 최소값 찾기 91.29.. 2023. 6. 19.
빅데이터 분석기사 실기 예제 - 작업형 2유형(3) 문제 코드 # 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # 데이터 크기 확인 train.shape, test.shape # 샘플 확인 print(train.head(3)) print(test.head(3)) # 데이터 타입 확인 train.info() # 기초 통계값 확인 train.describe() test.describe() # object형 확인 train.describe(include='O') test.describe(include='O') # 결측치 확인 print(train.isnull().sum()) print(test.isnull().sum()) # 타겟 값 빼고 .. 2023. 6. 18.
728x90
반응형