본문 바로가기
자격증 공부/빅데이터분석기사

빅데이터 분석기사 실기 예제 - 작업형 2유형(1)

by 해모해모 2023. 6. 18.
728x90
반응형

# 제공 데이터 목록
	# train.csv
	# test.csv
# 분류 모델을 만든 뒤 다음과 같은 형식으로 CSV파일로 생성하시오 (제출한 모델의 성능은 F1평가지표에 따라 채점)
# index,target
		# 0,0
		# 1,0
		# 2,0
		# ...
		# 111,1
		# 112,1
		# 113,1
# 수험번호.csv(예: 000.csv) 파일 생성

# 시험환경 세팅
import pandas as pd
from sklearn import datasets
dataset = datasets.load_breast_cancer()
df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])
df['target'] = dataset['target']
df.to_csv("data2.csv", index=False)

from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.2, random_state=2022)
y_test = test.pop('target')
train.to_csv('train.csv', index=False)
test.to_csv('test.csv', index=False)

#####################################################################

import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# print(train.shape)

# dir로 set_option 찾기, help로 max_columns 사용법 찾기
pd.set_option('display.max_columns', 100)
# print(train.head())
# print(train.info())

# import sklearn
# print(sklearn.model_selection.__all__)
from sklearn.model_selection import train_test_split

# print(help(train_test_split))
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
X_tr, X_val, y_tr, y_val = train_test_split(train.drop('target', axis=1), train['target'], test_size=0.1, random_state=2022)
# print(X_tr.head())

# import sklearn.ensemble 
# print(sklearn.ensemble.__all__)
#RandomForestClassifier

from sklearn.ensemble import RandomForestClassifier
# print(help(RandomForestClassifier))

# clf = RandomForestClassifier(max_depth=2, random_state=0)
# clf.fit(X, y)
# RandomForestClassifier(...)
# print(clf.predict([[0, 0, 0, 0]]))

clf = RandomForestClassifier(max_depth=2, random_state=0)
clf.fit(X_tr, y_tr)
pred = clf.predict(X_val)

# import sklearn.metrics
# print(sklearn.metrics.__all__)
#f1_score

from sklearn.metrics import f1_score
# print(help(f1_score))
# print(f1_score(y_val, pred))

pred = clf.predict(test)

# dataframe
df = pd.DataFrame({
	'index' : test.index,
	'target' : pred
})

# print(df)

df.to_csv('000000.csv', index = False)

print(pd.read_csv('000000.csv'))

출처_퇴근후딴짓(인프런) : https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0

 

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3) - 인프런 | 강의

비전공자, 입문자가 빅데이터 분석기사 실기를 빠르게 취득할 수 있도록 안내해드려요! 꼭 필요한 파이썬, 판다스, 머신러닝을 다루고 있어요!, - 강의 소개 | 인프런

www.inflearn.com

출처_퇴근후딴짓(유튜브) : https://www.youtube.com/@ai-study

 

퇴근후딴짓

퇴근 후, 함께 재미있게 성장하는 딴짓 커뮤니티 비 전공, 다른 직무라도 Re-skilling이 필요한 시대입니다. 함께 AI, 머신러닝, 딥러닝을 재미있게 Study 시작해보아요 :) 새롭게 알게 된 것, 공부한

www.youtube.com

 

728x90
반응형

댓글