[전자책] 선형대수와 통계학으로 배우는 머신러닝 with 파이썬

머신러닝의 기본적인 사용 방법뿐만 아니라 통계학, 선형대수, 최적화 이론 등 머신러닝에 필요한 배경 이론까지 다룬다. 이해가 필요한 부분은 수학 수식을 통해 자세히 설명함으로써, 해당 머

www.aladin.co.kr

회사 사내교육 프로그램을 수강하면서 참고자료가 필요해서 구매한 책이다. 사내 동영상 강의에서는 핵심 개론에 대해서 학습을 했다면, 이 책은 이론적인 배경에 대한 설명이 다른 책에 비해 많이 있고, 코드 라인마다 번호를 매기고 설명을 달아 친절하게 설명을 해준다. 전문가 수준까지 깊게 들어가는 책은 아니지만, 입문에서 중급까지 머신러닝을 공부하는데는 충분한 책으로 보인다.

머신러닝은 선형대수, 통계학, 최적화 등 수학에 기반을 두고 있고, 파이썬이라는 컴퓨터 언어로 구현한 방법론이다. 인공지능에서 머신러닝, 그리고 딥러닝으로 발전해 나가면서 난이도가 어려워지고, 적용 분야가 늘어나고 있다. 하지만 그만큼 손쉽게 사용할 수 있는 도구들도 많이 개발되어 퍼지고 있다. 모든 과정을 코드로 구현해야 하는 초기와 달리, 지금은 대부분의 과정이 패키지로 제작되어 있어 원리만 이해한다면 빠르게 습득할 수 있다.

데이터 사이언티스트가 목적이라면 수학(특히 통계학)에 대한 깊은 이해가 필수이겠지만, 그게 아니라면 기본 원리와 프로세스 정도만 알아도 충분하다. 머신러닝이든 딥러닝이든 중요한 것은 데이터이다. 핵심은 데이터! '쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out)'는 말처럼 데이터의 질과 양이 충족되지 않으면 아무리 훌륭한 알고리즘이라도 쓸모가 없다.

  • 머신러닝 적용 프로세스
    • 머신러닝 패키지를 불러온다
    • 데이터를 불러와서 컴퓨터가 계산할 수 있도록 숫자로 변경한다
    • 데이터를 학습데이터(70%)와 테스트데이터(30%)로 분리한다
    • 학습데이터에 패키지(예측, 분류, 군집 등)를 적용하고 알고리즘을 도출한다
    • 도출된 알고리즘을 테스트데이터에 적용해 예측(분류, 군집 등)해 본다
    • 예측된 결과에 대해 정확도를 평가한다

머신러닝 컨셉은 그리 어렵지 않지만, 파고들수록 수학과 컴퓨터 공학에 대한 이해가 매우 필요하다는 걸 알 수 있다. 데이터 사이언티스트 쪽 채용공고를 보면 대부분 석박사를 요구하는 이유가 있고, 그 만큼 공부가 많이 필요하다.

 

+ Recent posts