*This review content is based on course "Deep Learning Specialization" provided by prof. Andrew Ng
Introduction to Deep Learning
What is a neural network (신경망)?
인공신경망(Artificial Neural Network, ANN)은 인간의 뇌 구조와 작동 방식을 본떠 만들어진 컴퓨터 알고리즘의 일종입니다. 이는 데이터를 처리하고 패턴을 학습하기 위해 연결된 여러 노드(뉴런)로 구성된 계층적인 구조를 가지며, 각 뉴런은 신호를 받아 이를 처리한 뒤 연결된 다른 뉴런으로 전달합니다. 이 과정에서 활성화 함수와 가중치(weight)가 사용되어 입력 신호를 조정하며 학습을 통해 성능을 개선합니다. - Oxford Academic
인공신경망의 주요 특징과 구성 요소는 다음과 같습니다:
- 기본 구조: 신경망은 입력층(Input layer), 하나 이상의 은닉층(Hidden layer), 그리고 출력층(Output layer)으로 구성
- 뉴런(Neurons): 각 층은 상호 연결된 노드 또는 '뉴런'으로 구성 - 정보를 처리하여 다음 층으로 전달
- 가중치와 편향: 뉴런 간의 연결은 가중치(weight)를 가지며, 각 뉴런은 편향(bias)을 가짐 - 학습 과정에서 조정
- 활성화 함수: 각 뉴런은 입력의 가중 합계를 비선형 활성화 함수에 통과시켜 출력을 생성
- 학습 과정: 신경망은 입력 데이터와 원하는 출력을 사용하여 훈련 - 오차 역전파(backpropagation) 알고리즘을 통해 가중치와 편향이 조정
인공신경망의 구조(Network Architectures)
Supervised Learning with Neural Networks
Supervised learning (지도 학습)은 기계 학습의 한 유형으로, 입력 데이터와 그에 대응하는 정답(레이블)이 주어진 상태에서 학습을 진행하는 방식입니다. 지도 학습 문제는 "회귀(Regression)"와 "분류(Classification)" 문제로 분류됩니다. 일반적으로 회귀 문제에서는 연속적인 출력을 예측하려고 하는 반면 분류 문제에서는 이산적인 출력을 예측하려고 합니다.
지도 학습 예시는 다음과 같습니다:
Input: X | Output: Y | Application | Neural Net Type |
Home features | Price | Real Estate | Standard NN |
Ad. & User info. | Click on ad? (0 or 1) | Online advertising | |
Image | Object (1, ... , 1000) | Photo tagging | Convolutional NN |
Audio | Text transcript | Speech recognition | Recurrent NN |
English | Korean | Machine translation | |
Image & Radar info. | Position of other cars | Autonomous driving | Custom/Hybrid NN |
NNs can deal with both structured (정형) & unstructured (비정형) data
정형 데이터: 미리 정의된 데이터 모델에 따라 구성되어 있으며, 쉽게 검색하고 분석할 수 있는 형태의 데이터
비정형 데이터: 미리 정의된 데이터 모델이 없고, 정해진 형식이나 구조를 따르지 않는 데이터
Why is Deep Learning Taking Off?
- Data: 빅데이터 시대의 도래로 인한 대규모 데이터셋의 가용성 증가
- Computing Power: GPU, TPU, NPU와 같은 특수 컴퓨팅 하드웨어의 발전
- Optimized Algorithms: 새로운 신경망 구조의 개발과 최적화 알고리즘의 개선
Sigmoid vs. ReLU
One of the big breakthroughs has been moving from "Sigmoid" to "ReLU" for faster Gradient Descent
연산 속도 관점
- Sigmoid: 지수 함수를 포함하고 있어 게산이 복잡하기 때문에 상대적으로 많은 처리 시간이 필요
- ReLU: 단순한 max 함수로 구현되어 매우 빠름
그래디언트 소실 관점
- Sigmoid: 입력값이 크거나 작을 때 그래디언트가 0에 가까워지므로 깊은 네트워크에서 학습이 느려지거나 정체될 수 있음
- ReLU: 양수 입력에 대해 일정한 그래디언트를 유지하므로 빠른 학습이 가능하지만, 음수 입력에 대해서는 그래디언트가 0이 되어 일부 뉴런이 비활성화될 수 있음
이러한 특성으로 인해 ReLU가 은닉층의 기본 활성화 함수로 널리 사용되고 있으며, Sigmoid는 0과 1 사이의 출력범위를 가지면서도 확률이나 백분율을 나타내는데 유용하기 때문에 이진 분류 문제의 출력층에서 사용
728x90
반응형
'Course Review > Deep Learning Specialization' 카테고리의 다른 글
[Andrew Ng] Neural Networks & Deep Learning | Week 2 (part 2) (2) | 2024.12.03 |
---|---|
[Andrew Ng] Neural Networks & Deep Learning | Week 2 (part 1) (0) | 2024.11.24 |