본문 바로가기
728x90
반응형

sklearn37

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(11) # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv') # print(df.head()) df = df.groupby('country').max() # 접종률은 계속 올라가니까 한 국가의 최고 접종률로 기준을 잡는다 df = df.sort_values(by = 'ratio', ascending = False) # print(df['ratio'].head()) cond .. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(10) 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 # min-max스케일링 기준 상하위 5% 구하기 # 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # print(df.head()) upper.. 2023. 6. 22.
[Python] Min-Max 스케일링 Python에서 sklearn을 사용한 Min-Max Scaling from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['컬럼명'] = scaler.fit_transform(df[['컬럼명']]) # 대괄호 두개 확인 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(9) 주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 # print(df.head()) # print(df['f5'].head()) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # 데이터프레임 형태로 해줘야하나봐 # print(df['f5'].head()) print(df['f5'].median()) # 정답 : 0.260619629559015 출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdat.. 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(8) 주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) # print(df.head()) # print(df['f1'].isnull().sum()) cond = df['f2'] == 1 # 'f2'컬럼이 1인 조건 # print(df[cond]['f1']) result = df['f1'] = df[cond]['f1'].cumsum() # 조건에 해당하는 'f1'컬럼 누적합 # print(result) result = result.fillna(method = 'bfill') # 결측치 바로 뒤의 값 채우기 # .. 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(7) 'f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오! # print(df.shape) (100, 8) # print(df.head()) # print(df.info()) # print(df.describe()) cond1 = df['f4'] == 'ESFJ' # print(df[cond]) df['f4'] = df['f4'].replace('ESFJ', 'ISFJ') # print(df[cond]) cond2 = (df['city'] == '경기') & (df['f4'] == 'ISFJ') print(df[cond2]['age'].max()) # 정답 : 90.0 출처_퇴근후딴짓(캐글) :.. 2023. 6. 21.
빅데이터 분석기사 실기 예제 - 작업형 2유형(5) 성인 인구조사 소득 예측(50K 이하이면 0, 50K 초과이면 1) # X_train.shape, X_test.shape, y_train.shape, y_test.shape #((26048, 15), (6513, 15), (26048, 2), (6513, 2)) # print(X_train.head()) # print(y_train.head()) # id income # print(X_train.info()) # print(y_train['income'].value_counts()) # 결측치 # print(X_train.isnull().sum()) # print(X_test.isnull().sum()) # 결측치 제거 cols = ['workclass', 'occupation', 'native.coun.. 2023. 6. 20.
빅데이터 분석기사 실기 예제 - 작업형 2유형(4) 당뇨병 여부 판단 # EDA # print(X_train.head()) # print(X_test.head()) # print(y_test.head()) # id, Outcome # print(X_train.info()) # print(X_train.describe()) # print(y_train['Outcome'].value_counts()) # 0:403, 1:211 # 결측치 확인 # print(X_train.isnull().sum()) X # print(X_test.isnull().sum()) X # 필요없는 컬럼 제거 # print(X_train.shape, X_test.shape) X_train = X_train.drop('id', axis = 1) test_id = X_test.pop('i.. 2023. 6. 20.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(6) 주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # f1컬럼 결측치 제거 print(df.isnull().sum()) df = df.dropna(subset=['f1']) print(df.isnull().sum()) # 그룹 합계 계산 groupSum = df.groupby(['city', 'f2']).sum() print(gro.. 2023. 6. 20.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(5) 주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # 조건에 맞는 데이터 (ENFJ, INFP) ENFJ = df['f4'] == 'ENFJ' INFP = df['f4'] == 'INFP' print(df[ENFJ]) print(df[INFP]) # 조건에 맞는 f1의 표준편차 (ENFJ, INFP) stdENFJ = df['f1'][ENFJ].std() stdINFP = df['f1'][INFP].st.. 2023. 6. 19.
728x90
반응형