728x90
반응형
문제
코드
# 데이터 불러오기
import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
# 데이터 크기 확인
train.shape, test.shape
# 샘플 확인
print(train.head(3))
print(test.head(3))
# 데이터 타입 확인
train.info()
# 기초 통계값 확인
train.describe()
test.describe()
# object형 확인
train.describe(include='O')
test.describe(include='O')
# 결측치 확인
print(train.isnull().sum())
print(test.isnull().sum())
# 타겟 값 빼고 넣기
y_train = train.pop("price")
# 수치형만 사용하기
cols = ['year', 'mileage', 'tax', 'mpg', 'engineSize']
train = train[cols]
# 데이터 분리
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, y_train, test_size=0.2, random_state=2022)
X_tr.shape, X_val.shape, y_tr.shape, y_val.shape
test = test[cols]
# 랜덤포레스트 사용
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)
# RMSE로 평가하기
from sklearn.metrics import mean_squared_error
rmse(y_val, pred)
# test 예측하기
pred = rf.predict(test)
result = pd.DataFrame({
'pred':pred
})
# 결과 csv 파일 제출하기
result.to_csv("result.csv", index=False)
# 제출 잘 됐는지 확인
pd.read_csv('result.csv')
출처_퇴근후딴짓(캐글) : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
Big Data Certification KR
빅데이터 분석기사 실기 (Python, R tutorial code)
www.kaggle.com
출처_퇴근후딴짓(유튜브) : https://www.youtube.com/@ai-study
퇴근후딴짓
퇴근 후, 함께 재미있게 성장하는 딴짓 커뮤니티 비 전공, 다른 직무라도 Re-skilling이 필요한 시대입니다. 함께 AI, 머신러닝, 딥러닝을 재미있게 Study 시작해보아요 :) 새롭게
728x90
반응형
'자격증 공부 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터 분석기사 실기 모의고사 - 작업형 1유형(1) (0) | 2023.06.19 |
---|---|
빅데이터 분석기사 실기 예제 - 작업형 1유형(6) (0) | 2023.06.19 |
빅데이터 분석기사 실기 예제 - 작업형 1유형(5) (0) | 2023.06.18 |
빅데이터 분석기사 실기 예제 - 작업형 2유형(2) (0) | 2023.06.18 |
빅데이터 분석기사 실기 예제 - 작업형 1유형(4) (0) | 2023.06.18 |
댓글