본문 바로가기

컴퓨터 과학/클라우드컴퓨팅

Azure를 이용한 클라우드 기반 Machine Learning 데이터 분석

//방송통신대학교 컴퓨터과학과 2023년도 2학기 정재화 교수님의 클라우드컴퓨팅 수업을 기반으로 작성한 글입니다

 

- Azure Machine Learning에서 ML 프로젝트 만들고 '할당량 보기'를 통해 Machine Learning Studio로 접근

 

- 분석할 데이터 추가

 

- 데이터 소스에 따라 알맞게 불러오기

 

 

 

- 필요한 컴포넌트들로 (1) 데이터 전처리

 

- 데이터 분석에 필요한 몇 가지 column만 가져오기

 

- 데이터 분석에 치명적인 악영향을 끼치는 Missing data 없애기

- Missing data는 median 값으로 대체할 수 있다.

 

- 전체 row를 없애버릴 수도 있다.

 

- 데이터 중에 단순히 number로만 표시된 값이 있는데 이를 다른 타입의 데이터로 변경하고 싶다.

- metadata 변경을 통해 categorical로 변경.

 

-  생존유무가 0/1 숫자로 기록되어 있는데, 이를 숫자가 아닌 로직으로 구분하고 싶다.

- metadata 변경을 통해  boolean로 변경.

 

 

- 그렇게 전처리 과정 마친 데이터를 7:3으로 나눈다. 

 

- 머신러닝 알고리즘을 이용해서 데이터를 분석할지 선택한다. 

- 어떤 알고리즘을 사용할지는 cheat sheet를 참고할 수 있다. (https://learn.microsoft.com/en-us/azure/machine-learning/algorithm-cheat-sheet?view=azureml-api-1)

- 알고리즘을 수행할 블럭도 따로 불러와야 한다.

- 여기에서는 ten-fold 방식을 사용하는 cross valiation Model을 적용하였다. 데이터를 10개 또는 20개로 나누어 하나를 검증용, 나머지를 훈련용도로 사용하는 과정을 반복한다.

 

- 어떤 column을 대상으로 분석을 진행할지 선택

 

 

- 데이터를 훈련시키기 위한 모듈 추가

- 훈련 시 어떤 데이터를 가지고 레이블링을 할 것이냐 --> 생존여부에 따라

- 훈련된 결과를 수치화하여 평가하기 위한 score 모듈 추가

- 훈련된 데이터와 검증하기 위해 split에서 남겨두었던 30%의 데이터를 인가하여 비교

 

- 시각화를 위해 evaluation model  추가

 

 

- 우측 상단의 Configure & submit으로 머신러닝 수행

- 한참 돌다가 연산이 완료되면 초록색 체크박스 표시!

 

- Evaluation Model 미리보기에서 각종 결과 확인 가능

- Threshold 변경해가며 predicted vs. actual 값 차이 실시간으로 비교 가능

 

 

- 스터디 완료 후 과금을 예방하기 위해 리소스의 삭제가 필요하다. 모든 형식의 리소스를 삭제하기 위해 '리소스 그룹'에서 리소스 그룹을 전체 삭제하는 것을 권고.

'컴퓨터 과학 > 클라우드컴퓨팅' 카테고리의 다른 글

클라우드 아키텍처  (1) 2023.12.01
클라우드 컴퓨팅 기술  (0) 2023.11.06
클라우드 컴퓨팅 OVERVIEW  (0) 2023.11.05