Python 일반

Python, Machine Learning 기본/기초, scikit-learn (sklearn)

말테 2021. 9. 22. 22:18

파이썬이 요즘 가장 핫한 이유 중 하나가 머신러닝입니다. 하지만 막상 머신러닝 하면 전문가의 영역으로 넘어가 버리고 개인적으로 쓰기엔 약간 장벽이 느껴집니다.(제가...)

 

그래서 머신 러닝을 배우고 또 개인이 일상 생활에 이용할 수 있도록 실전 프로젝트를 해보기 전 아주 기본적인 머신러닝 기본에 대해서 익혀보겠습니다.

 

먼저 scikit-learn이라는 라이브러리라는 가장 기본적이고 정석이라는 모듈을 설치합니다.

 

pip install scikit-learn scipy matplotlib scikit-image

pip install pandas

 

scikit-learn 이외에도 다른 여러 보조 라이브러리도 미리 설치해 줍니다.

 

그리고 실제 머신 러닝 입문시 배우는 붓꽃 데이터 분류하는 코딩을 해 봅시다.

아래는 '파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문' 이라는 책을 보고 작성한 자료임을 미리 밝혀 둡니다.

 

구글에 'iris.csv'를 검색하면 수많은 페이지들이 검색되고 그 자료는 다음과 같습니다.

"sepal.length","sepal.width","petal.length","petal.width","variety"

5.1,3.5,1.4,.2,"Setosa"

4.9,3,1.4,.2,"Setosa"

4.7,3.2,1.3,.2,"Setosa"

4.6,3.1,1.5,.2,"Setosa"

5,3.6,1.4,.2,"Setosa"

5.4,3.9,1.7,.4,"Setosa"

4.6,3.4,1.4,.3,"Setosa"

5,3.4,1.5,.2,"Setosa"

4.4,2.9,1.4,.2,"Setosa"

... 생략 ...

각 값은 순서대로 꽃받침의 길이/꽃받침의 너비/꽃잎의 길이/꽃잎의 너비/품종

총 5개로 150개로 구성되어 있고 품종은 총 세가지 품종 중 하나입니다.

 

그리고 코딩은 총 150개의 Data중 100개의 꽃받침과 꽃잎 Data에 대한 품종을 학습(상관관계를 학습)하고 나머지 50개의 꽃받침과 꽃잎의 Data만으로 각 품종을 추리해 내는 것입니다. 그리고 실제 품종과 추리해 낸 품종을 비교하여 얼마나 제대로 추리해 냈는지 점수를 1점 만점에 몇점인지 확인합니다.

 

모든 코딩라인에 주석을 달았습니다.

from sklearn import svm, metrics    # 관련 모듈 임포트
import random, re 

csv = []    # csv 파일을 열어 리스트로 저장하기 위한 변수 생성
with open('iris.csv', 'r', encoding='utf-8') as fp:     # iris.csv 파일 오픈하여 변수 fp로 저장
    for line in fp:             # 각 줄을 for문으로 반복
        line = line.strip()     # 줄변경 삭제
        cols = line.split(',')  # 각 줄의 항목들을 분할하여 리스트로 변경
        
        fn = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n # 문자는 숫자(소수)로 변경하는 함수 생성
        cols = list(map(fn, cols)) # map을 이용하여 cols에 fn함수를 적용
        csv.append(cols)           # 각 라인의 항목 리스트를 항목으로 csv 리스트에 추가

'''
csv = [
        ['\ufeff"sepal.length"', '"sepal.width"', '"petal.length"', '"petal.width"', '"variety"'], 
        [5.1, 3.5, 1.4, 0.2, '"Setosa"'], 
        [4.9, 3.0, 1.4, 0.2, '"Setosa"'],
        [4.7, 3.2, 1.3, 0.2, '"Setosa"'], 
        ... 위와 같이 csv를 만듭니다.
      ]
'''
del csv[0]  # 첫줄은 그냥 삭제합니다.

random.shuffle(csv) # csv 리스트를 random.shuffle()을 이용하여 순서를 섞습니다.

total_len = len(csv)             # 전체 개수 - 150개 데이터
train_len = int(total_len * 2/3) # 학습하는 개수는 전체 개수의 2/3으로 설정 - 100개 학습
train_data = []                  # 학습 데이터 리스트 생성
train_label = []                 # 학습 레이블 리스트 생성
test_data = []                   # 확인 데이터 리스트 생성
test_label = []                  # 확인 레이블 리스트 생성

for i in range(total_len):          # 150번 반복
    data = csv[i][0:4]              # 꽃받침의 길이/너비, 꽃잎의 길이/너비 값을 data 변수
    label = csv[i][4]               # 꽃종을 label 변수
    if i < train_len:               # 100개 학습을 마치기 전이면...
        train_data.append(data)     # train_data에 저장
        train_label.append(label)   # train_label에 저장
    else:                           # 100개 학습 이후면...
        test_data.append(data)      # test_data에 저장
        test_label.append(label)    # test_label에 저장

clf = svm.SVC()                  # svm.SVC()를 clf로 저장
clf.fit(train_data, train_label) # .fit 함수로 학습 train_data에 따른 train_label 관계 
pre = clf.predict(test_data)     # .predict로 test_data를 입력하면 train_label의 형식에 맞게 결과 예측

'''
pre = [
    '"Versicolor"' '"Versicolor"' '"Setosa"' '"Versicolor"' '"Setosa"'
    '"Versicolor"' '"Virginica"' '"Setosa"' '"Virginica"' '"Versicolor"'
    '"Virginica"' '"Versicolor"' '"Versicolor"' '"Setosa"' '"Setosa"'
    '"Setosa"' '"Setosa"' '"Versicolor"' '"Setosa"' '"Versicolor"'
    '"Virginica"' '"Virginica"' '"Versicolor"' '"Virginica"' '"Setosa"'
    '"Setosa"' '"Virginica"' '"Setosa"' '"Versicolor"' '"Virginica"'
    '"Setosa"' '"Setosa"' '"Versicolor"' '"Virginica"' '"Setosa"' '"Setosa"'
    '"Setosa"' '"Versicolor"' '"Setosa"' '"Versicolor"' '"Setosa"'
    '"Versicolor"' '"Setosa"' '"Versicolor"' '"Virginica"' '"Setosa"'
    '"Setosa"' '"Versicolor"' '"Virginica"' '"Virginica"'
    ]
'''
ac_score = metrics.accuracy_score(test_label, pre)    # test_label과 pre를 비교하여 얼마나 동일한지 확인
print("정답률 = ", ac_score)    # 동일한 정도를 출력

마지막 라인과 같이 정답률은 계속해서 0.98~1 사이로 나옵니다. 거의 정확하다는 것이지요! 

 

그냥 하고싶은 말은 최소한 위의 머신러닝은 그렇게 어렵지 않습니다. 사실 대부분의 코딩이 머신러닝 시키기 위한 밥상 차려주는 작업이고 학습은 .fit과 .predict 단 두줄로만 한 것이니깐요.

 

좀 머리를 굴려보면 뭔가 적용할 것들이 많이 생길것 같습니다. 다음에는 재미없는 붓꽃 Data가 아닌 실제 도움이 될 만한 머신러닝을 해보려 합니다! 결국 코딩은 응용인 것 같습니다.