Attention Is All You Need
Paper Ashish Vaswani, Noam Shazeer, Niki Parmar, jakob Uszkoreit, Llion Jones, Aidan N.Gomez, Lukasz Kaiser, Illia Polosukhin 12 Jun 2017 Abstract 대부분의 시퀀스 변환 모델은 인코더와 디코더를 포함한 복잡한 순환...
Paper Ashish Vaswani, Noam Shazeer, Niki Parmar, jakob Uszkoreit, Llion Jones, Aidan N.Gomez, Lukasz Kaiser, Illia Polosukhin 12 Jun 2017 Abstract 대부분의 시퀀스 변환 모델은 인코더와 디코더를 포함한 복잡한 순환...
‘시작이 반이다. 가만히 있으면 반이라도 간다. 그러므로 시작하고 가만히 있으면 완성된다.’ SNS에서 보고 항상 친구과 하던 우스갯소리였는데, 아이펠과 함께하는 6개월을 나는 저 농담같은 문장들과 함께하기로 했다. 물론 진짜로 시작했으니까 아무것도 안 하고 가만히 있겠다는 뜻은 아니다… 이게 되나? 싶었던 노드들과 무기로 써도 될 ...
5.1 일반화: 머신 러닝의 목표 최적화(optimization): 가능한 훈련 데이터에서 최고의 성능을 얻기 위해 모델을 조정하는 과정 일반화(generalization): 훈련된 모델이 새로운 데이터에서 얼마나 잘 수행되는지 의미 머신 러닝의 목표는 좋은 일반화 성능을 얻는 것 5.1.1 과소적합과 과대적합 과소적합 ...
구현 알고리즘은, 머릿속에 있는 알고리즘을 소스코드로 바꾸는 과정 풀이를 떠올리는 것은 쉽지만 소스코드로 옮기기 어려운 문제 완전 탐색 모든 경우의 수를 다 계산하는 해결 방법 시뮬레이션 문제에서 제시한 알고리즘을 한 단계씩 차례대로 직접 수행 구현 시 고려해야 ...
비지도학습(Unsupervised Learning)이란? 학습 데이터로 정답(lable)이 없는 데이터가 주어지는 학습 방식 주어지는 데이터가 어떻게 구성되어 있는지 스스로 알아냄 군집화(클러스터링, clustering), 차원 축소(dimensionality reduction), 생성 모델(generative model) 등을 모두 포...
Information Content 정보 이론(information content)이란 추상적인 ‘정보’라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야이다. 정보를 정량적으로 표현하기 위해 필요한 세 가지 조건 일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가...
확률 변수로서의 모델 파라미터 $y=f(x)=ax+b\,\,\,\,\,\,\,\,\,\,\,\,\,\, a,b\in \mathbb{R}$ 간단하게 일차함수 모델을 예시로 들어보자. 위 식에서 실수 a, b는 $f$라는 함수로 표현되는 모델의 형태를 결정하는 파라미터이다. 따라서 a, b 값을 바꾸면 모델이 변형된다. $\mathbb{...
Regression 회귀분석이란? 회귀분석이란 관찰된 데이터를 기반으로 연속형 변수 간의 관계를 모델링하고 이에 대한 적합도를 측정하는 분석 방법이다. 회귀분석으로 해석하는 실생활의 문제들의 예시는 아래와 같다. 부모의 키와 자식의 키 사이의 관계 자동차 스펙을 이용한 가격 예측 1인당 국민 총소득과 배기가스 배출량 사이의 관계 ...
Regularization과 Normalization Regularization 정칙화 과적합을 해결할 수 있는 방법 중 하나 모델에 제약 조건을 걸어 모델의 train loss를 증가시키고, 그에 따라 validation loss나 test loss를 감소시킨다 L1 Regularizatio...
딥네트워크 AlexNet VGG 3 x 3 커널을 사용하여 더 많은 레이어를 쌓고 이미지의 비선형적 특징을 더 잘 잡아낼 수 있도록 함. 이미지의 output size가 동일하다고 가정했을 때 작은 필터를 여러개 쌓는 것이 적은 parameter를 가지므로 더 효율적이다. ResNet...