Technological Deep Dive

How to Get into the Tech

Course Review/Deep Learning Specialization

[Andrew Ng] Neural Networks & Deep Learning | Week 1

mju-bilab 2024. 11. 16. 00:55

*This review content is based on course "Deep Learning Specialization" provided by prof. Andrew Ng


Introduction to Deep Learning

What is a neural network (신경망)?

인공신경망(Artificial Neural Network, ANN)은 인간의 뇌 구조와 작동 방식을 본떠 만들어진 컴퓨터 알고리즘의 일종입니다. 이는 데이터를 처리하고 패턴을 학습하기 위해 연결된 여러 노드(뉴런)로 구성된 계층적인 구조를 가지며, 각 뉴런은 신호를 받아 이를 처리한 뒤 연결된 다른 뉴런으로 전달합니다. 이 과정에서 활성화 함수와 가중치(weight)가 사용되어 입력 신호를 조정하며 학습을 통해 성능을 개선합니다. - Oxford Academic

 

인공신경망의 주요 특징과 구성 요소는 다음과 같습니다:

  • 기본 구조: 신경망은 입력층(Input layer), 하나 이상의 은닉층(Hidden layer), 그리고 출력층(Output layer)으로 구성
  • 뉴런(Neurons): 각 층은 상호 연결된 노드 또는 '뉴런'으로 구성 - 정보를 처리하여 다음 층으로 전달
  • 가중치와 편향: 뉴런 간의 연결은 가중치(weight)를 가지며, 각 뉴런은 편향(bias)을 가짐 - 학습 과정에서 조정
  • 활성화 함수: 각 뉴런은 입력의 가중 합계를 비선형 활성화 함수에 통과시켜 출력을 생성
  • 학습 과정: 신경망은 입력 데이터와 원하는 출력을 사용하여 훈련 - 오차 역전파(backpropagation) 알고리즘을 통해 가중치와 편향이 조정

인공신경망의 구조(Network Architectures)

Standard NN ❘ Convolutional NN ❘ Recurrent NN (source: SabrePC)

Supervised Learning with Neural Networks

Supervised learning (지도 학습)은 기계 학습의 한 유형으로, 입력 데이터와 그에 대응하는 정답(레이블)이 주어진 상태에서 학습을 진행하는 방식입니다. 지도 학습 문제는 "회귀(Regression)"와 "분류(Classification)" 문제로 분류됩니다. 일반적으로 회귀 문제에서는 연속적인 출력을 예측하려고 하는 반면 분류 문제에서는 이산적인 출력을 예측하려고 합니다. 

 

지도 학습 예시는 다음과 같습니다:

Input: X Output: Y Application Neural Net Type
Home features Price Real Estate Standard NN
Ad. & User info. Click on ad? (0 or 1) Online advertising
Image Object (1, ... , 1000) Photo tagging Convolutional NN
Audio Text transcript Speech recognition Recurrent NN
English Korean Machine translation
Image & Radar info. Position of other cars Autonomous driving Custom/Hybrid NN

 

NNs can deal with both structured (정형) & unstructured (비정형) data

정형 데이터: 미리 정의된 데이터 모델에 따라 구성되어 있으며, 쉽게 검색하고 분석할 수 있는 형태의 데이터
비정형 데이터: 미리 정의된 데이터 모델이 없고, 정해진 형식이나 구조를 따르지 않는 데이터

정형 데이터 ❘ 반정형 데이터 ❘ 비정형 데이터 (source: 한국정보통신기술협회)

Why is Deep Learning Taking Off?

From statistical learning to deep neural network (source: Andrew Ng)

  1. Data: 빅데이터 시대의 도래로 인한 대규모 데이터셋의 가용성 증가
  2. Computing Power: GPU, TPU, NPU와 같은 특수 컴퓨팅 하드웨어의 발전
  3. Optimized Algorithms: 새로운 신경망 구조의 개발과 최적화 알고리즘의 개선

Faster computation is important to speed up

Sigmoid vs. ReLU

One of the big breakthroughs has been moving from "Sigmoid" to "ReLU" for faster Gradient Descent

시그모이드 함수와 ReLU 함수 비교 (source: KIEE)

연산 속도 관점

  • Sigmoid: 지수 함수를 포함하고 있어 게산이 복잡하기 때문에 상대적으로 많은 처리 시간이 필요
  • ReLU: 단순한 max 함수로 구현되어 매우 빠름

그래디언트 소실 관점

  • Sigmoid: 입력값이 크거나 작을 때 그래디언트가 0에 가까워지므로 깊은 네트워크에서 학습이 느려지거나 정체될 수 있음
  • ReLU: 양수 입력에 대해 일정한 그래디언트를 유지하므로 빠른 학습이 가능하지만, 음수 입력에 대해서는 그래디언트가 0이 되어 일부 뉴런이 비활성화될 수 있음
이러한 특성으로 인해 ReLU가 은닉층의 기본 활성화 함수로 널리 사용되고 있으며, Sigmoid는 0과 1 사이의 출력범위를 가지면서도 확률이나 백분율을 나타내는데 유용하기 때문에 이진 분류 문제의 출력층에서 사용
728x90
반응형