디자이너를 위한 머신러닝 입문

머신러닝은 "프로그래밍하지 않고도 컴퓨터가 학습 할 수 있는 연구 분야”이다.(Arthur Samuel, 1959)

기계 학습이라고도 번역되지만 최근 머신러닝이 고유명사화 되었기 때문에 이 글에서는 머신러닝으로 부르기로 한다. 아서 사무엘이 50년 전에 용어를 만들었지만 최근에야 머신러닝의 흥미로운 응용분야를 볼 수 있었다.

인공지능 비서, 자동주행, 스팸 없는 이메일등은 모두 머신러닝 덕분이다.

지난 십년간 새로운 알고리즘과 더 나은 하드웨어, 그리고 더 많은 데이터가 머신러닝을 보다 효과적으로 작동하게 했다. 최근 몇년간 구글, 아마존, 애플과 같은 기업이 개발자를 위한 강력한 머신러닝 도구를 만들었다.

지금이 머신러닝을 배우고 현재 만들고 있는 제품에 적용하기 가장 좋은 때이다.

왜 머신러닝이 디자이너에게 중요한가

머신러닝의 접근성이 높아지면서 디자이너들은 머신러닝이 작업중인 제품을 어떻게 발전시킬 수 있는지 생각할 기회가 생겼다. 디자이너들은 개발자와 무엇이 가능하고 어떻게 준비해야하며, 어떤 결과를 기대할 수 있는지 논의할 수 있어야한다. 아래는 이런 논의에 영감을 줄만한 예시들이다.

경험의 개인화 Personalize Experiences

머신러닝은 유저의 경험을 맞춤화하여 유저 중심의 제품을 만드는걸 도와준다. 추천, 검색 결과, 알람, 광고 품질을 개선하는데 도움이 된다.

추천 영상 컨텐츠에 영향을 주는 기본 요소

  1. 내가 시청한 영상과 비슷한 영상 추천

  2. 비디오의 인기도와 다른 특성들

  3. 비슷한 시청 습관을 가진 유저의 시청 비디오

예외 구분

머신러닝은 예외 콘텐츠를 구별하는데 효과적이다. 카드 회사들은 이를 이용해 사기를 찾아내고, 이메일 제공자들은 스팸을 걸러낸다. 소셜 미디어 회사들은 혐오 발언을 추척한다.

새로운 소통방식 제안

머신러닝은 컴퓨터가 우리가 하는 말(자연어)와 우리가 보는 것(컴퓨터 비전)을 이해할 수 있게 만든다.

예를들어 시리가 “시리, 1시간 뒤에 알람 맞춰줘” 와 같은 발화를 이해하거나, 구글 포토가 자동으로 분류한 애완동물 앨범, 페이스북이 시각장애인을 위해 사진을 설명해주는 기능들이 있다.

인사이트 제공

머신러닝은 어떻게 유저를 그룹지어야 하는지 이해하는데 도움이된다. 유저를 그룹별로 관찰하고 분석할 수 있는 토대가 된다. 여러 기능을 여러 그룹에서 평가하거나 특정 사용자 그룹에게만 배포 할 수 있다.

콘텐츠 준비

머신러닝을 통해 유저가 다음에 어떻게 행동할 지 예측할 수 있다. 예를 들어, 넷플릭스의 하우스 오브 카드는 유저들이 가장 좋아하는 배우, 감독, 시나리오등을 예측하고 준비한 콘텐츠이다.

머신러닝의 종류

머신 러닝(Machine Learning)이란 “데이터를 이용해서 컴퓨터를 학습시키는 방법론”이다. 이때, 머신 러닝 알고리즘은 크게 세가지 분류로 나눌 수 있다. 바로, 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning)이다.

지도 학습 Supervised Learning

지도 학습(Supervised Learning)은 데이터에 대한 레이블(Label)-명시적인 정답-이 주어진 상태에서 컴퓨터를 학습시키는 방법이다.

즉, (데이터(data), 레이블(label)) 형태로 학습을 진행하는 방법이다. 예를 들어, 사진과 연관된 해시태그, 부동산 정보(방의 개수, 위치)와 가격을 이용할 수있다.

이때, 예측하는 결과값이 discrete value(이산값)면 classification(분류) 문제이다. ex) 이 이미지는 개인가 고양이인가?

예측하는 결과값이 continuous value(연속값)면 regression(회귀) 문제이다. ex) 3개월뒤 이 아파트 가격은 2억1천만원 일 것인가? 2억2천만원 일 것인가?

지도 학습을 사용하여 데이터를 범주로 나누거나 추세를 나타내는 데이터에 그래프를 그릴 수 있습니다. 이 그래프를 이용해 새로운 데이터에 대한 예측을 할 수 있다. 예를들어, 새로운 사진에서 해시태그를 제안하거나, 새로운 부동산 매물의 정보를 통해 가격을 유추할 수 있다.

비지도 학습 Unsupervised Learning

비지도 학습(Unsupervised Learning)은 데이터에 대한 레이블(Label)-명시적인 정답-이 주어지지 상태에서 컴퓨터를 학습시키는 방법론이다. 즉, 데이터 형태로 학습을 진행하는 방법이다. 예를 들어 아래와 같이 데이터가 무작위로 분포되어 있을때, 이 데이터를 비슷한 특성을 가진 세가지 부류로 묶는 클러스터링(Clustering) 알고리즘이 있다. 비지도 학습은 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는데 사용된다.

강화 학습 Reinforcement Learning

강화 학습은 앞서 살펴본 지도 학습과 비지도 학습과는 약간은 다른 종류의 학습 알고리즘이다. 앞서 살펴본 알고리즘들이 데이터가 주어진 정적인 상태(Static Environment)에서 학습을 진행하였다면, 강화 학습은 에이전트(상황 발생시 스스로 갖고 있는 자료를 기초로 적절한 처리를 자동적으로 할 수 있는 반독립적인 프로그램)가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고 이로부터 어떤 보상(Reward)을 얻으면서 학습을 진행한다. 이때, 에이전트는 보상(Reward)을 최대화(Maximize)하도록 학습이 진행된다. 즉, 강화학습은 일종의 동적인 상태(Dynamic Environment)에서 데이터를 수집하는 과정까지 포함되어 있는 알고리즘이다.

예를들어 한 에이전트가 마리오를 플레이할 때 코인을 얻으면 긍적적인 보상을 얻고 버섯에게 걸어가면 부정적인 보상을 얻게 자동 플레이를 설정할 수 있다.

강화학습은 사람이 배우는 방법에서 영감을 얻어 컴퓨터를 학습시키는 방식이다. 특히, 컴퓨터가 바둑과 도타를 플레이하도록 학습하는데 효과적이다.

생각해볼만한 문제

에러

구글 이미지 검색에서 흑인이 고릴라로 분류되어 인종차별 문제가 되었던 적이 있다. 참고 데이터 세트와 이미지는 윤리적인 판단을 할 수 없으므로 일어난 사건이다. 비슷하게 테슬라 자동주행 차량이 역광탓에 흰색 트레일러를 하늘로 오인하고 충돌 사고를 낸 사례가 있다. 참고 머신러닝은 학습된 데이터에 따라 결과가 나오므로 이전 실험에서 테스트 하지 않은 상황이라면 일이 터지고 나서 수정할 수 밖에 없다.

돈과 시간

또, 데이터 세트가 충분하지 않은경우가 많다. 머신러닝인줄 알았더니 사실은 인건비가 저렴한 인도나 중국에서 데이터 세트를 수동으로 짝지어주고 있는 경우가 종종있다. 따라서 빅데이터를 기반으로 알고리즘을 운영한다는 투자 대행사, 광고, 소개팅 등등의 여러 서비스의 자본 규모를 확인해볼 필요가 있다.

참고 링크 🔗

Last updated