본문 바로가기
728x90
반응형

캐글11

빅데이터 분석기사 실기 통계함수 # 컬럼별 결측치 확인 .isnull().sum() # 절대값 .abs() # 최대 .max() # 최소 .min() # 평균 .mean() # 중앙 .median() # 최빈 .mode()[0] # 합 .sum() #개수 .count() # 1분위수 3분위수 .quantile(.25) .quantile(.75) # 분산 .var() # 표준편자 .std() # 왜도 .skew() # 첨도 .kurt() # 누적합 .cumsum()[:1] # 누적곱 .sumprod()[:1] # 누적 최대 .cummax()[:1] # 누적 최소 .cummin()[:1] # 평균 표준 오차 .sum() # 평균 절대 편차 .mad() # 열 곱 .prod() 2023. 6. 23.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(15) # 주어진 데이터 셋에서 f2가 0값인 데이터를 age를 기준으로 오름차순 정렬하고 # 앞에서 부터 20개의 데이터를 추출한 후 # f1 결측치(최소값)를 채우기 전과 후의 분산 차이를 계산하시오 (소수점 둘째 자리까지) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # f2가 0값인 데이터를 age를 기준으로 오름차순 정렬 df['f2'] = df['f2'] == 0 df = df[cond].sort_values('age') # print(df.head()) df = df.iloc[:20] # print(df.head(50)) before = df['f1'].var() # print(befor.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(14) # 주어진 데이터 셋에서 age컬럼 상위 20개의 데이터를 구한 다음 # f1의 결측치를 중앙값으로 채운다. # 그리고 f4가 ISFJ와 f5가 20 이상인 # f1의 평균값을 출력하시오! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df = df.sort_values('age', ascending=False) # print(df.head()) df = df.iloc[:20] # print(df.head(50)) df['f1'] = df['f1'].fillna(df['f1'].median()) # print(df.head()) cond = (df['f4'] == 'ISFJ') & (df['f5.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(13) city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) df = df.groupby(['city', 'f4'])[['f5']].mean() # print(df.head(20)) df = df.reset_index().sort_values('f5', ascending=False).head(7) # print(df.head()) print(round(df['f5'].sum(),2)) # 정답 : 643.68 출처_퇴근후딴짓(캐글) : ht.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(12) # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 import pandas as pd df = pd.read_csv('/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv') # print(df.head()) df = abs(df.corr().. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(11) # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv') # print(df.head()) df = df.groupby('country').max() # 접종률은 계속 올라가니까 한 국가의 최고 접종률로 기준을 잡는다 df = df.sort_values(by = 'ratio', ascending = False) # print(df['ratio'].head()) cond .. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(10) 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 # min-max스케일링 기준 상하위 5% 구하기 # 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # print(df.head()) upper.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(9) 주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 # print(df.head()) # print(df['f5'].head()) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # 데이터프레임 형태로 해줘야하나봐 # print(df['f5'].head()) print(df['f5'].median()) # 정답 : 0.260619629559015 출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdat.. 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(7) 'f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오! # print(df.shape) (100, 8) # print(df.head()) # print(df.info()) # print(df.describe()) cond1 = df['f4'] == 'ESFJ' # print(df[cond]) df['f4'] = df['f4'].replace('ESFJ', 'ISFJ') # print(df[cond]) cond2 = (df['city'] == '경기') & (df['f4'] == 'ISFJ') print(df[cond2]['age'].max()) # 정답 : 90.0 출처_퇴근후딴짓(캐글) :.. 2023. 6. 21.
빅데이터 분석기사 실기 예제 - 작업형 2유형(5) 성인 인구조사 소득 예측(50K 이하이면 0, 50K 초과이면 1) # X_train.shape, X_test.shape, y_train.shape, y_test.shape #((26048, 15), (6513, 15), (26048, 2), (6513, 2)) # print(X_train.head()) # print(y_train.head()) # id income # print(X_train.info()) # print(y_train['income'].value_counts()) # 결측치 # print(X_train.isnull().sum()) # print(X_test.isnull().sum()) # 결측치 제거 cols = ['workclass', 'occupation', 'native.coun.. 2023. 6. 20.
728x90
반응형