728x90 반응형 Python39 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(6) 주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # f1컬럼 결측치 제거 print(df.isnull().sum()) df = df.dropna(subset=['f1']) print(df.isnull().sum()) # 그룹 합계 계산 groupSum = df.groupby(['city', 'f2']).sum() print(gro.. 2023. 6. 20. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(5) 주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) # 조건에 맞는 데이터 (ENFJ, INFP) ENFJ = df['f4'] == 'ENFJ' INFP = df['f4'] == 'INFP' print(df[ENFJ]) print(df[INFP]) # 조건에 맞는 f1의 표준편차 (ENFJ, INFP) stdENFJ = df['f1'][ENFJ].std() stdINFP = df['f1'][INFP].st.. 2023. 6. 19. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(4) 주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv') print(df.head()) # 'SalePrice'컬럼 왜도와 첨도계산 dfSkew = df['SalePrice'].skew() # 왜도(비대칭도) dfKurt = df['SalePrice'].kurt() # 첨도(두꺼운꼬리) print("왜도 : ", dfS.. 2023. 6. 19. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(3) 주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값을 출력하세요! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.isnull().sum()) print(df.isnull().sum() >= len(df)*0.8) # 결측값이 80퍼 이상되는 컬럼 => 'f3' print(df.isnull().sum()) df = df.drop(['f3'], axis=1) print(df.isnull().sum()) # 이 구간에서 첫번째 망했고 df['.. 2023. 6. 19. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(2) 주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.info()) # 소수점 데이터 찾기 import numpy as np # 원 age 데이터와 소수점 버린 age의 차이가 0이 아니면 age가 소수점 데이터인 것 cond = (df['age'] - np.trunc(df['age'])) != 0 df = df[cond] print(df['age'].value_counts(.. 2023. 6. 19. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(1) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/titanic/train.csv') # print(df.head()) # EDA # print(df.isnull().sum()) df = df.dropna(axis=1) # 결측치 열 그냥 지워버림 # print(df.isnull().sum()) # IQR 구하기 Q3 = df['Fare'].quantile(.75) Q1 = df['Fare'].quantile(.25) # print(q3) # print(q1) IQR = Q3 - Q1 # print(IQR) # 이상치 데이터 구하기 cond1 =.. 2023. 6. 19. 빅데이터 분석기사 실기 예제 - 작업형 1유형(6) 문제 1 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후, 'age'컬럼에서 80 이상인 데이터의'f5 컬럼 평균값 구하기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df['f5'].head(20)) # print(df.isnull().sum()) df = df.sort_values('f5', ascending = False) # f5기준 내림차순 정렬 # print(df['f5'].head(20)) # print(df['f5'][:10].min()) # 컬럼 10개 중 최소값 찾기 91.29.. 2023. 6. 19. 빅데이터 분석기사 실기 예제 - 작업형 2유형(3) 문제 코드 # 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # 데이터 크기 확인 train.shape, test.shape # 샘플 확인 print(train.head(3)) print(test.head(3)) # 데이터 타입 확인 train.info() # 기초 통계값 확인 train.describe() test.describe() # object형 확인 train.describe(include='O') test.describe(include='O') # 결측치 확인 print(train.isnull().sum()) print(test.isnull().sum()) # 타겟 값 빼고 .. 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 1유형(5) # 문제1 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) # 코드 import pandas as pd df = pd.read_csv("5-1price.csv") # df.head() # 종량제 봉투 종류가 '규격봉투'이고, cond1 = df['종량제봉투종류'] == '규격봉투' # 종량제 봉투 용도가 '음식물쓰레기'인 cond2 = df['종량제봉투용도'] == '음식물쓰레기' # print(df[cond1 & cond2]) # (단, 가격0 제외, cond3 = df['2ℓ가격'] != 0 # 2L가격 평균을 출력하시오 result = df[cond1 & cond2 & cond3]['2ℓ가격'].mea.. 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 2유형(2) 문제 코드 ### EDA ### # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv") test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv") # 데이터 크기 확인 train.shape, test.shape # train 샘플 확인 train.head() # test 샘플 확인 test.head() # target 확인 train['Segmentation'].value_counts() # 결측치 확인(train) train.isnull().sum(.. 2023. 6. 18. 이전 1 2 3 4 다음 728x90 반응형