"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."


[ML] 머신러닝이란? (Machine Learning?)
728x90

 

머신러닝 (Machine Learning)에 대해서 알아보는 포스팅을 시작하려고 합니다.

머신러닝의 정의 부터 머신러닝의 알고리즘을 상세하게 다룰 예정입니다. 이번 포스팅에서는 머신러닝이 무엇인지 알아보도록 하겠습니다.

 

머신러닝의 정의 (Machine Learning)

위키피디아를 보면 다음과 같이 머신러닝을 말하고 있습니다.

 

기계 학습(機械學習) 또는 머신 러닝(machine learning, ML)은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다.
방대한 데이터를 분석해 '미래를 예측하는 기술'이자 인공지능의 한 분야로 간주된다.
기계 학습은 복잡한 패턴에 대한 학습을 통해 상황에 대한 예측과 의사 결정을 돕는다.
컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다.
가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다.

 

머신러닝은 데이터를 구문 분석하고, 해당 데이터를 통해 학습한 후 학습한 정보를 바탕으로 결정을 내리는 알고리즘입니다. 머신러닝이 가능하다는 것은 주어진 데이터로 기능을 수행하고, 시간이 지남에 따라 그 기능이 점차 향상됨을 의미합니다.

Tom M.Mitchell이 1997년도에 제시한 머신러닝의 정의를 살펴보면, 환경 (Environement, E)과 상호작용을 통한 경험적인 데이터 (Data, D)를 기반 지식으로 모델(Model, M)을 구축하고, 스스로 성능(Performance, P)을 향상하는 시스템이라고 합니다. 

 

 

머신러닝이란? (What is Machine Lenarning?)

머신러닝은 컴퓨터가 인간처럼 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 인공지능의 한 분야입니다.

머신러닝 기술은 컴퓨터가 알고리즘을 통해 데이터를 분석하게 하고, 그 결과를 스스로 학습하도록 함으로써 새로운 판단이나 예측을 할 수 있게 합니다. 머신러닝에서는 양질의 데이터가 핵심적인 역할을 하며, 우수한 데이터가 많을수록 시스템의 성능은 더욱 향상됩니다.

 

머신러닝의 발전은 빅데이터와 밀접한 관련이 있습니다. 빅데이터란 기존의 데이터베이스 관리 도구로는 다루기 어려운 매우 큰 규모의 데이터를 말합니다. 이러한 대규모 데이터는 기술의 발달과 함께 점점 쌓여가고, 이를 분석하여 인사이트를 도출하는 것이 머신러닝의 주요 작업 중 하나입니다.

 

머신러닝 개발자들은 데이터를 통해 모델을 학습시키며, 이 과정에서 인간의 노하우만큼이나 중요한 역할을 하는 것이 바로 데이터의 '라벨'입니다. 라벨은 데이터의 정답을 말하며, 이를 기반으로 컴퓨터는 오류를 줄이고 정확도를 높여가는 학습을 수행합니다. 이 과정을 통해 얻어진 모델을 실제 문제에 적용함으로써, 컴퓨터는 인간과 유사한 수준의 판단 능력을 발휘할 수 있게 됩니다. 이렇게 컴퓨터가 학습과 수정을 반복하면서 인간의 사고방식을 모방하는 과정 전체를 '머신러닝'이라고 합니다.

 

추가적으로 머신러닝에서 모델은 데이터로부터 패턴을 학습하여 예측이나 결정을 내리기 위한 수학적 구조를 의미합니다. 이 모델은 입력 데이터를 받아 처리하고, 출력을 생성하여 주어진 문제의 해답을 제시합니다. 모델은 학습 알고리즘에 의해 데이터로부터 생성되고 최적화되며, 다양한 형태와 복잡성을 가질 수 있습니다.

 

반응형

 

 

머신러닝의 학습 방법 (Machine Learning Method)

머신러닝의 학습 방법은 크게 세가지가 있습니다. 지도학습(Supervised Learninig), 비지도학습(Unsupervised Learning), 강화학습(Reinforce Learning)이 그 방법 입니다.

 

지도학습 (Supervised Learning)

지도학습은 정답이 있는 데이터를 활용해 데이터를 학습시키는 것입니다. 즉, 입력 값과 함께 결과 값(정답 레이블)을 같이 주고 학습을 시키는 방법입니다. 지도학습은 주어진 입력에 대한 정확한 출력을 예측하는 것이 목적입니다.

대표적으로 분류(Classification)와 회귀(Regression) 알고리즘이 있습니다.

분류는 주어진 데이터를 정해진 카테고리(라벨)에 따라 분류하는 방법으로 주로 데이터가 범주형인 경우에 사용합니다. 회귀는 연속된 값을 예측하는 문제로 주로 어떤 패턴이나 트렌드, 경향을 예측할 때 사용됩니다.

일반적으로 사용되는 지도 학습 알고리즘으로는 선형 회귀, 로지스틱 회귀, 결정 트리, 서포트 벡터 머신(SVM), 신경망 등이 있습니다.

 

비지도 학습 (Unsupevised Learning)

비지도학습은 정답(라벨)이 없는 데이터를 활용해 데이터를 학습시키는 것입니다. 즉, 정답을 알려주지 않고 예측하는 방법으로 데이터에서 숨겨진 패턴이나 구조를 찾는 데 사용됩니다.

대표적으로 클러스터링(Clustering), 차원축소(Dimension Reduction)가 있습니다.

클러스터링은 특정 기준에 따라 유사한 데이터 사례들을 하나의 세트로 그룹화 하는 방법입니다. K-평균 클러스터링, 계층적 클러터링 알고리즘 등이 있습니다. 차원축소는 고려 중인 변수의 개수를 줄이는 작업을 통해 변수의 관계 도출을 용이하게 하는 방벙입니다. 주성분석(PCA)이 가장 대표적인 알고리즘입니다.

 

강화학습 (Reinforcement Learning)

강화학습은 보상 및 벌칙과 함께 여러 번의 시행착오를 거쳐 스스로 학습하는 방법입니다. 주로 시행착오를 통한 학습이며, 특정 상황에서 어떤 행동이 최적인지를 결정하도록 하는 학습방법 입니다.

대표적인 알고리즘으로 DQN과 A3C가 있습니다.

 

 

머신러닝의 장단점 (Machine Learning Pros and Cons)

머신러닝의 장점은 다음과 같습니다.

  • 효율성 증가와 자동화
    머신러닝 모델은 반복적이고 일상적인 작업을 자동화하여 인간의 개입을 최소화할 수 있습니다. 이는 시간과 비용을 절약하며, 오류 발생 가능성을 줄일 수 있으며, 인간이 놓칠 수 있는 데이터 추세와 패턴을 식별할 수도 있습니다.
  • 복잡한 문제 해결
    머신러닝은 대규모 데이터셋에서 복잡한 패턴과 통찰력을 추출할 수 있습니다. 이는 다양한 데이터를 처리할 수 있기 때문에 인간이 처리하기 어려운 문제를 해결하는 데 도움을 줄 수 있습니다.
  • 맞춤화 및 개인화
    머신러닝은 사용자의 행동, 선호도, 이전 구매 내역 등을 분석하여 개인화된 경험을 제공할 수 있습니다. 이는 추천 시스템, 타깃 마케팅, 개인화된 의료 등에 활용됩니다.

 

머신러닝은 다음과 같은 단점을 갖습니다.

  • 데이터 의존성
    머신러닝의 성능은 사용된 데이터의 양과 질에 크게 좌우됩니다. 데이터가 부족하거나 편향되어 있으면, 모델의 예측이 부정확할 수 있습니다.
  • 알고리즘의 복잡성
    일부 머신러닝 알고리즘은 매우 복잡하며, 이해하고 해석하기 어려울 수 있습니다. 이는 '블랙박스' 문제로 인해 의사 결정 과정이 투명하지 않게 되는 원인이 될 수 있습니다.
  • 고비용 및 자원 소모
    효과적인 머신러닝 시스템을 구축하고 유지하기 위해서는 상당한 계산 자원과 전문 지식이 필요할 수 있으며, 이는 초기 비용이 많이 들 수 있습니다.

 

 

이상 머신러닝에 대해서 알아보았습니다. 

다음 포스팅에서는 학습 방법에 따른 머신러닝 알고리즘에 대해서 자세히 알아보겠습니다.

 

 

 

머신러닝(Machine Learning)

1. [ML] 머신러닝이란? (Machine Learning?)

2. [ML] 머신러닝 학습 방법 - 지도학습 (Supervised Learning)

3. [ML] 머신러닝 학습 방법 - 비지도학습 (Unsupervised Learning)

 

 

728x90
728x90
LIST