본문 바로가기
728x90
반응형

빅분기41

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(15) # 주어진 데이터 셋에서 f2가 0값인 데이터를 age를 기준으로 오름차순 정렬하고 # 앞에서 부터 20개의 데이터를 추출한 후 # f1 결측치(최소값)를 채우기 전과 후의 분산 차이를 계산하시오 (소수점 둘째 자리까지) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # f2가 0값인 데이터를 age를 기준으로 오름차순 정렬 df['f2'] = df['f2'] == 0 df = df[cond].sort_values('age') # print(df.head()) df = df.iloc[:20] # print(df.head(50)) before = df['f1'].var() # print(befor.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(14) # 주어진 데이터 셋에서 age컬럼 상위 20개의 데이터를 구한 다음 # f1의 결측치를 중앙값으로 채운다. # 그리고 f4가 ISFJ와 f5가 20 이상인 # f1의 평균값을 출력하시오! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df = df.sort_values('age', ascending=False) # print(df.head()) df = df.iloc[:20] # print(df.head(50)) df['f1'] = df['f1'].fillna(df['f1'].median()) # print(df.head()) cond = (df['f4'] == 'ISFJ') & (df['f5.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(13) city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) df = df.groupby(['city', 'f4'])[['f5']].mean() # print(df.head(20)) df = df.reset_index().sort_values('f5', ascending=False).head(7) # print(df.head()) print(round(df['f5'].sum(),2)) # 정답 : 643.68 출처_퇴근후딴짓(캐글) : ht.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(12) # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 import pandas as pd df = pd.read_csv('/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv') # print(df.head()) df = abs(df.corr().. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(11) # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv') # print(df.head()) df = df.groupby('country').max() # 접종률은 계속 올라가니까 한 국가의 최고 접종률로 기준을 잡는다 df = df.sort_values(by = 'ratio', ascending = False) # print(df['ratio'].head()) cond .. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(10) 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 # min-max스케일링 기준 상하위 5% 구하기 # 주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # print(df.head()) upper.. 2023. 6. 22.
[Python] Min-Max 스케일링 Python에서 sklearn을 사용한 Min-Max Scaling from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['컬럼명'] = scaler.fit_transform(df[['컬럼명']]) # 대괄호 두개 확인 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(9) 주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 # print(df.head()) # print(df['f5'].head()) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # 데이터프레임 형태로 해줘야하나봐 # print(df['f5'].head()) print(df['f5'].median()) # 정답 : 0.260619629559015 출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdat.. 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(8) 주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) # print(df.head()) # print(df['f1'].isnull().sum()) cond = df['f2'] == 1 # 'f2'컬럼이 1인 조건 # print(df[cond]['f1']) result = df['f1'] = df[cond]['f1'].cumsum() # 조건에 해당하는 'f1'컬럼 누적합 # print(result) result = result.fillna(method = 'bfill') # 결측치 바로 뒤의 값 채우기 # .. 2023. 6. 21.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(7) 'f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오! # print(df.shape) (100, 8) # print(df.head()) # print(df.info()) # print(df.describe()) cond1 = df['f4'] == 'ESFJ' # print(df[cond]) df['f4'] = df['f4'].replace('ESFJ', 'ISFJ') # print(df[cond]) cond2 = (df['city'] == '경기') & (df['f4'] == 'ISFJ') print(df[cond2]['age'].max()) # 정답 : 90.0 출처_퇴근후딴짓(캐글) :.. 2023. 6. 21.
728x90
반응형