본문 바로가기
728x90
반응형

sklearn37

빅데이터 분석기사 실기 작업형 3유형 요약정리 p-value = 유의수준 0.05 : 귀무가설을 채택한다. from scipy import stats #1 표본평균 : after - before의 평균 귀무가설 : 표본평균 >= 0 대립가설 : 표본평균 < 0 검정통계량, p-value = stats.ttrest_rel(after 데이터, before 데이터, alternative='less') // 대립가설 기준 // alternative : 대립가설 기준으로 크면 greater, 작으면 less, 같으면 X(또는 two-sided) #2 A그룹, B그룹이 나뉘어져 있음 귀무가설 : A그룹과 B그룹이 차이가 없다. 대립가설 : A그룹과 B그룹이 차이가 있다. 검정통계량,.. 2023. 6. 24.
빅데이터 분석기사 실기 2회 기출 # 작업형 1유형 # 1. 범죄율 컬럼인 Crim 항목의 상위에서 10번째 값으로 상위 10개의 값을 변환한 후, age가 80이상인 데이터를 추출하여 crim의 평균값 추출 # print(df.head()) df = df.sort_values('CRIM', ascending = False) # print(df['CRIM'].head(20)) # print(df['CRIM'].iloc[9]) # print(df['CRIM'].iloc[:10]) df['CRIM'].iloc[:10] = df['CRIM'].iloc[9] # print(df['CRIM'].head(20)) cond = df['AGE'] >= 80 df = df[cond] # print(df.head()) print(df['CRIM'].mea.. 2023. 6. 23.
빅데이터 분석기사 실기 3회 기출 # 작업형 1유형 # 1. 데이터 중 결측치가 있는 경우 해당 데이터의 행을 모두 제거하고, 첫번째 행부터 순서대로 70%까지의 데이터를 훈련 데이터로 추출한 데이터 세트를 구성한다. # 변수 중 'housing_median_age'의 Q1(제1사분위수) 값을 정수로 계산하시오. # print(df.shape) # print(df.isnull().sum()) # 결측치 제거 df = df.dropna() # print(df.isnull().sum()) # print(df.shape) # print(len(df)) # 첫번째 행부터 순서대로 70%까지의 데이터 추출 # print(len(df)) # print(len(df)*0.7) train = df.iloc[:int(len(df)*0.7)] # prin.. 2023. 6. 23.
빅데이터 분석기사 실기 4회 기출 # 작업형 1유형 list = [2, 3, 3.2, 5, 7.5, 10, 11.8, 12, 23, 25, 31.5, 34] import pandas as pd df = pd.DataFrame({ 'value' : list }) # print(df) # 1-1. 제1사분위수와 제3사분위수 구하기 q1 = df['value'].quantile(.25) q3 = df['value'].quantile(.75) # print(q1, q3) # 정답 : 제1사분위수 = 4.55, 제3사분위수 = 23.5 # 1-2. 제1사분위수와 제3사분위수 차이의 절대값 구하기 # print(abs(q1-q3)) # 정답 : 18.95 # 1-3. 그 값의 소수점을 버린 후 정수로 출력 result = abs(q1-q3) pri.. 2023. 6. 23.
빅데이터 분석기사 실기 5회 기출 # 작업형 1유형 # 가격 컬럼 중 종량제 봉투가 존재하면 값이 0 # 1. 용도 : 음식물쓰레기, 사용대상 : 가정용, 2L 가격의 평균을 소수점 버린 후 정수로 출력 cond1 = df['용도'] == '음식물쓰레기' cond2 = df['사용대상'] == '가정용' cond3 = df['2L가격'] != 0 df = df[cond1&cond2&cond3] # print(df.head()) # print(df['2L가격'].mean()) print(round(df['2L가격'].mean())) # 정답 : 119 # 작업형 1유형 # BMI지수 = 몸무게(kg) / 키(m)의 제곱 # 2. 비만도가 정상에 속하는 인원수와 과체중에 속하는 인원수의 차이를 정수로 출력 df['BMI'] = (df['We.. 2023. 6. 23.
빅데이터 분석기사 실기 통계함수 # 컬럼별 결측치 확인 .isnull().sum() # 절대값 .abs() # 최대 .max() # 최소 .min() # 평균 .mean() # 중앙 .median() # 최빈 .mode()[0] # 합 .sum() #개수 .count() # 1분위수 3분위수 .quantile(.25) .quantile(.75) # 분산 .var() # 표준편자 .std() # 왜도 .skew() # 첨도 .kurt() # 누적합 .cumsum()[:1] # 누적곱 .sumprod()[:1] # 누적 최대 .cummax()[:1] # 누적 최소 .cummin()[:1] # 평균 표준 오차 .sum() # 평균 절대 편차 .mad() # 열 곱 .prod() 2023. 6. 23.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(15) # 주어진 데이터 셋에서 f2가 0값인 데이터를 age를 기준으로 오름차순 정렬하고 # 앞에서 부터 20개의 데이터를 추출한 후 # f1 결측치(최소값)를 채우기 전과 후의 분산 차이를 계산하시오 (소수점 둘째 자리까지) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # f2가 0값인 데이터를 age를 기준으로 오름차순 정렬 df['f2'] = df['f2'] == 0 df = df[cond].sort_values('age') # print(df.head()) df = df.iloc[:20] # print(df.head(50)) before = df['f1'].var() # print(befor.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(14) # 주어진 데이터 셋에서 age컬럼 상위 20개의 데이터를 구한 다음 # f1의 결측치를 중앙값으로 채운다. # 그리고 f4가 ISFJ와 f5가 20 이상인 # f1의 평균값을 출력하시오! import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') df = df.sort_values('age', ascending=False) # print(df.head()) df = df.iloc[:20] # print(df.head(50)) df['f1'] = df['f1'].fillna(df['f1'].median()) # print(df.head()) cond = (df['f4'] == 'ISFJ') & (df['f5.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(13) city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) import pandas as pd df = pd.read_csv('/kaggle/input/bigdatacertificationkr/basic1.csv') # print(df.head()) df = df.groupby(['city', 'f4'])[['f5']].mean() # print(df.head(20)) df = df.reset_index().sort_values('f5', ascending=False).head(7) # print(df.head()) print(round(df['f5'].sum(),2)) # 정답 : 643.68 출처_퇴근후딴짓(캐글) : ht.. 2023. 6. 22.
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(12) # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 import pandas as pd df = pd.read_csv('/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv') # print(df.head()) df = abs(df.corr().. 2023. 6. 22.
728x90
반응형