본문 바로가기
728x90
반응형

자격증 공부/빅데이터분석기사41

빅데이터 분석기사 실기 예제 - 작업형 1유형(5) # 문제1 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) # 코드 import pandas as pd df = pd.read_csv("5-1price.csv") # df.head() # 종량제 봉투 종류가 '규격봉투'이고, cond1 = df['종량제봉투종류'] == '규격봉투' # 종량제 봉투 용도가 '음식물쓰레기'인 cond2 = df['종량제봉투용도'] == '음식물쓰레기' # print(df[cond1 & cond2]) # (단, 가격0 제외, cond3 = df['2ℓ가격'] != 0 # 2L가격 평균을 출력하시오 result = df[cond1 & cond2 & cond3]['2ℓ가격'].mea.. 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 2유형(2) 문제 코드 ### EDA ### # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("../input/big-data-analytics-certification-kr-2022/train.csv") test = pd.read_csv("../input/big-data-analytics-certification-kr-2022/test.csv") # 데이터 크기 확인 train.shape, test.shape # train 샘플 확인 train.head() # test 샘플 확인 test.head() # target 확인 train['Segmentation'].value_counts() # 결측치 확인(train) train.isnull().sum(.. 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 1유형(4) # 문제1 age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 # 코드 import pandas as pd df = pd.read_csv("../input/bigdatacertificationkr/basic1.csv") print(int(abs(df['age'].quantile(.25) - df['age'].quantile(.75)))) # 정답 : 50 # 문제2 (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인 데이터의 갯수 # 코드 import pandas as pd df = pd.read_csv("../input/big-data-analytics-certification-kr.. 2023. 6. 18.
빅데이터분석기사 실기 시험환경 체험하기-작업형 3유형 문제 코드 import pandas as pd df = pd.read_csv('data/blood_pressure.csv', index_col=0) df['dif'] = df['bp_after'] - df['bp_before'] # 1번문제 print(round(df['dif'].mean(),2)) # 정답 : -5.09 # 2번문제 from scipy import stats result = stats.ttest_rel(df['bp_after'], df['bp_before'], alternative="less") # after - before일 때 : greater(>), less( 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 2유형(1) # 제공 데이터 목록 # train.csv # test.csv # 분류 모델을 만든 뒤 다음과 같은 형식으로 CSV파일로 생성하시오 (제출한 모델의 성능은 F1평가지표에 따라 채점) # index,target # 0,0 # 1,0 # 2,0 # ... # 111,1 # 112,1 # 113,1 # 수험번호.csv(예: 000.csv) 파일 생성 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df... 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 1유형(3) # 문제 고유한 값이 가장 많은 컬럼의 이름은? # 작업형1-3 # 고유한 값이 가장 많은 컬럼의 이름은? # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-3.csv", index=False) ##################################################################### import pandas as pd a = pd.re.. 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 1유형(2) # 문제 s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오 # 작업형1-2 # s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_diabetes() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df.to_csv("data1-2.csv", index=False) ###############################################.. 2023. 6. 18.
빅데이터 분석기사 실기 예제 - 작업형 1유형(1) # 문제 앞에서 부터 50%의 데이터와 'target'컬럼이 0 값을 가진 데이터만 활용해 'proline'컬럼의 평균을 구하시오 (소수점 절사(버림), 정수형 출력) # 작업형1-1 # 앞에서 부터 50%의 데이터와 'target'컬럼이 0 값을 가진 데이터만 활용해 'proline'컬럼의 평균을 구하시오 (소수점 절사(버림), 정수형 출력) # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("d.. 2023. 6. 18.
빅데이터분석기사 실기 시험환경 체험하기-작업형 2유형 문제 코드 import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # 결측치 확인 및 0으로 채우기 #print(X_train.isnull().sum()) X_train['환불금액'] = X_train['환불금액'].fillna(0) #print(X_train.isnull().sum()) X_test['환불금액'] = X_test['환불금액'].fillna(0) #print(X_train.info()) # object형 라벨인코딩 cols = ['주구매상품', '주구매지점'] from sklearn.pre.. 2023. 6. 18.
빅데이터분석기사 실기 시험환경 체험하기-작업형 1유형 문제 코드 import pandas as pd df = pd.read_csv('data/mtcars.csv', index_col=0) pd.set_option('display.max_columns', None) #컬럼 전체 다 출력하고 싶을 때 #print(df.head()) #최소최대 척도( Min-Max Scale)로 변환 from sklearn.preprocessing import minmax_scale print(sum(minmax_scale(df['qsec']) > 0.5)) #0.5보다 큰 값들을 sum #정답은 9, 정답 print문 제외 나머지 print문은 주석처리 후 제출 2023. 6. 18.
728x90
반응형