본문 바로가기

728x90

전체 글151

[Python] Min-Max 스케일링 Python에서 sklearn을 사용한 Min-Max Scaling from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df['컬럼명'] = scaler.fit_transform(df[['컬럼명']]) # 대괄호 두개 확인 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) 2023. 6. 21.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(9) 주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 # print(df.head()) # print(df['f5'].head()) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5'] = scaler.fit_transform(df[['f5']]) # 데이터프레임 형태로 해줘야하나봐 # print(df['f5'].head()) print(df['f5'].median()) # 정답 : 0.260619629559015 출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdat.. 2023. 6. 21.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(8) 주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) # print(df.head()) # print(df['f1'].isnull().sum()) cond = df['f2'] == 1 # 'f2'컬럼이 1인 조건 # print(df[cond]['f1']) result = df['f1'] = df[cond]['f1'].cumsum() # 조건에 해당하는 'f1'컬럼 누적합 # print(result) result = result.fillna(method = 'bfill') # 결측치 바로 뒤의 값 채우기 # .. 2023. 6. 21.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(7) 'f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오! # print(df.shape) (100, 8) # print(df.head()) # print(df.info()) # print(df.describe()) cond1 = df['f4'] == 'ESFJ' # print(df[cond]) df['f4'] = df['f4'].replace('ESFJ', 'ISFJ') # print(df[cond]) cond2 = (df['city'] == '경기') & (df['f4'] == 'ISFJ') print(df[cond2]['age'].max()) # 정답 : 90.0 출처_퇴근후딴짓(캐글) :.. 2023. 6. 21.

빅데이터 분석기사 실기 예제 - 작업형 2유형(5) 성인 인구조사 소득 예측(50K 이하이면 0, 50K 초과이면 1) # X_train.shape, X_test.shape, y_train.shape, y_test.shape #((26048, 15), (6513, 15), (26048, 2), (6513, 2)) # print(X_train.head()) # print(y_train.head()) # id income # print(X_train.info()) # print(y_train['income'].value_counts()) # 결측치 # print(X_train.isnull().sum()) # print(X_test.isnull().sum()) # 결측치 제거 cols = ['workclass', 'occupation', 'native.coun.. 2023. 6. 20.

빅데이터 분석기사 실기 예제 - 작업형 2유형(4) 당뇨병 여부 판단 # EDA # print(X_train.head()) # print(X_test.head()) # print(y_test.head()) # id, Outcome # print(X_train.info()) # print(X_train.describe()) # print(y_train['Outcome'].value_counts()) # 0:403, 1:211 # 결측치 확인 # print(X_train.isnull().sum()) X # print(X_test.isnull().sum()) X # 필요없는 컬럼 제거 # print(X_train.shape, X_test.shape) X_train = X_train.drop('id', axis = 1) test_id = X_test.pop('i.. 2023. 6. 20.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(6) 주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # f1컬럼 결측치 제거 print(df.isnull().sum()) df = df.dropna(subset=['f1']) print(df.isnull().sum()) # 그룹 합계 계산 groupSum = df.groupby(['city', 'f2']).sum() print(gro.. 2023. 6. 20.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(5) 주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # 조건에 맞는 데이터 (ENFJ, INFP) ENFJ = df['f4'] == 'ENFJ' INFP = df['f4'] == 'INFP' print(df[ENFJ]) print(df[INFP]) # 조건에 맞는 f1의 표준편차 (ENFJ, INFP) stdENFJ = df['f1'][ENFJ].std() stdINFP = df['f1'][INFP].st.. 2023. 6. 19.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(4) 주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv') print(df.head()) # 'SalePrice'컬럼 왜도와 첨도계산 dfSkew = df['SalePrice'].skew() # 왜도(비대칭도) dfKurt = df['SalePrice'].kurt() # 첨도(두꺼운꼬리) print("왜도 : ", dfS.. 2023. 6. 19.

빅데이터 분석기사 실기 모의고사 - 작업형 1유형(3) 주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하세요! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.isnull().sum()) print(df.isnull().sum() >= len(df)*0.8) # 결측값이 80퍼 이상되는 컬럼 => 'f3' print(df.isnull().sum()) df = df.drop(['f3'], axis=1) print(df.isnull().sum()) # 이 구간에서 첫번째 망했고 df['.. 2023. 6. 19.

이전 1 ··· 10 11 12 13 14 15 16 다음

728x90

티스토리툴바