728x90 반응형 자격증 공부85 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(2) 주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') print(df.head()) print(df.info()) # 소수점 데이터 찾기 import numpy as np # 원 age 데이터와 소수점 버린 age의 차이가 0이 아니면 age가 소수점 데이터인 것 cond = (df['age'] - np.trunc(df['age'])) != 0 df = df[cond] print(df['age'].value_counts(.. 2023. 6. 19. 빅데이터 분석기사 실기 모의고사 - 작업형 1유형(1) 데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 # 라이브러리 및 데이터 불러오기 import pandas as pd df = pd.read_csv('../input/titanic/train.csv') # print(df.head()) # EDA # print(df.isnull().sum()) df = df.dropna(axis=1) # 결측치 열 그냥 지워버림 # print(df.isnull().sum()) # IQR 구하기 Q3 = df['Fare'].quantile(.75) Q1 = df['Fare'].quantile(.25) # print(q3) # print(q1) IQR = Q3 - Q1 # print(IQR) # 이상치 데이터 구하기 cond1 =.. 2023. 6. 19. 빅데이터 분석기사 실기 예제 - 작업형 1유형(6) 문제 1 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후, 'age'컬럼에서 80 이상인 데이터의'f5 컬럼 평균값 구하기 import pandas as pd df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df['f5'].head(20)) # print(df.isnull().sum()) df = df.sort_values('f5', ascending = False) # f5기준 내림차순 정렬 # print(df['f5'].head(20)) # print(df['f5'][:10].min()) # 컬럼 10개 중 최소값 찾기 91.29.. 2023. 6. 19. 빅데이터 분석기사 실기 예제 - 작업형 2유형(3) 문제 코드 # 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # 데이터 크기 확인 train.shape, test.shape # 샘플 확인 print(train.head(3)) print(test.head(3)) # 데이터 타입 확인 train.info() # 기초 통계값 확인 train.describe() test.describe() # object형 확인 train.describe(include='O') test.describe(include='O') # 결측치 확인 print(train.isnull().sum()) print(test.isnull().sum()) # 타겟 값 빼고 .. 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 1유형(5) # 문제1 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) # 코드 import pandas as pd df = pd.read_csv("5-1price.csv") # df.head() # 종량제 봉투 종류가 '규격봉투'이고, cond1 = df['종량제봉투종류'] == '규격봉투' # 종량제 봉투 용도가 '음식물쓰레기'인 cond2 = df['종량제봉투용도'] == '음식물쓰레기' # print(df[cond1 & cond2]) # (단, 가격0 제외, cond3 = df['2ℓ가격'] != 0 # 2L가격 평균을 출력하시오 result = df[cond1 & cond2 & cond3]['2ℓ가격'].mea.. 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 2유형(2) 문제 코드 ### EDA ### # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv") test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv") # 데이터 크기 확인 train.shape, test.shape # train 샘플 확인 train.head() # test 샘플 확인 test.head() # target 확인 train['Segmentation'].value_counts() # 결측치 확인(train) train.isnull().sum(.. 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 1유형(4) # 문제1 age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 # 코드 import pandas as pd df = pd.read_csv("../input/bigdatacertificationkr/basic1.csv") print(int(abs(df['age'].quantile(.25) - df['age'].quantile(.75)))) # 정답 : 50 # 문제2 (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인 데이터의 갯수 # 코드 import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification-kr.. 2023. 6. 18. 빅데이터분석기사 실기 시험환경 체험하기-작업형 3유형 문제 코드 import pandas as pd df = pd.read_csv('data/blood_pressure.csv', index_col=0) df['dif'] = df['bp_after'] - df['bp_before'] # 1번문제 print(round(df['dif'].mean(),2)) # 정답 : -5.09 # 2번문제 from scipy import stats result = stats.ttest_rel(df['bp_after'], df['bp_before'], alternative="less") # after - before일 때 : greater(>), less( 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 2유형(1) # 제공 데이터 목록 # train.csv # test.csv # 분류 모델을 만든 뒤 다음과 같은 형식으로 CSV파일로 생성하시오 (제출한 모델의 성능은 F1평가지표에 따라 채점) # index,target # 0,0 # 1,0 # 2,0 # ... # 111,1 # 112,1 # 113,1 # 수험번호.csv(예: 000.csv) 파일 생성 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df... 2023. 6. 18. 빅데이터 분석기사 실기 예제 - 작업형 1유형(3) # 문제 고유한 값이 가장 많은 컬럼의 이름은? # 작업형1-3 # 고유한 값이 가장 많은 컬럼의 이름은? # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-3.csv", index=False) ##################################################################### import pandas as pd a = pd.re.. 2023. 6. 18. 이전 1 ··· 5 6 7 8 9 다음 728x90 반응형