딥러닝에서 번역, 요약, 챗봇을 공부하다 보면 꼭 등장하는 개념이 있습니다.

👉 바로 Attention Mechanism

처음 보면 수식이 많아서 어렵지만, 핵심은 하나입니다.

👉 “지금 필요한 정보에만 집중하자”

이 글에서는 Attention Score부터 최종 출력까지 한 흐름으로 쉽게 설명합니다.

📌 전체 흐름 한 줄 요약

Score → Softmax → Weighted Sum → Concatenate → 가공 → 출력

👉 이 6단계만 이해하면 끝입니다.

1️⃣ Attention Score (중요도 점수 계산)

✔️ 개념

👉 “지금 상태(sₜ)와 입력(hₙ)이 얼마나 비슷한가?”

✔️ 등장 변수

h₁, h₂, ..., hₙ → 입력 문장 정보 (인코더)
sₜ → 현재 상태 (디코더)

✔️ 계산

score(s_t, h_i) = s_t^T h_i

👉 두 벡터를 곱해서 “유사도” 계산

✔️ 쉽게 이해

나는 / 밥을 / 먹었다

sₜ = “먹었다”를 만들고 있는 상태

👉 비교 결과:

나는 → 낮음
밥을 → 중간
먹었다 → 높음 ⭐

👉 이게 Attention Score

2️⃣ Attention Distribution (Softmax)

✔️ 개념

👉 점수를 “확률”로 바꾸기

✔️ 계산

\alpha_t = softmax(e_t)

✔️ 결과

[0.1, 0.2, 0.7]

👉 의미:

먹었다 → 70% 집중

✔️ 핵심

👉 “어디에 얼마나 집중할지 결정”

3️⃣ Attention Value (가중합)

✔️ 개념

👉 중요한 정보만 모아서 하나로 만들기

✔️ 계산

a_t = \sum_{i=1}^{N} \alpha_{ti} h_i

✔️ 쉽게 이해

(나는 × 0.1) +
(밥을 × 0.2) +
(먹었다 × 0.7)

👉 결과 = aₜ (Attention Value)

✔️ 의미

👉 “지금 필요한 정보만 모은 요약 벡터”

👉 그래서 이걸 Context Vector라고도 부름

4️⃣ aₜ + sₜ 결합 (Concatenate)

✔️ 개념

👉 입력 정보 + 현재 상태 합치기

[aₜ ; sₜ]

✔️ 의미

aₜ → 입력에서 중요한 정보
sₜ → 지금까지 생성된 문장

👉 둘을 합치면?

👉 “완전한 문맥 정보”

5️⃣ 한 번 더 가공 (중요🔥)

✔️ 계산

\tilde{s}_t = \tanh(W_c [a_t ; s_t] + b_c)

✔️ 쉽게 설명

👉 합친 정보를 한 번 더 정리

Wc → 정보 섞기
tanh → 값 정리

👉 결과:
👉 ṡₜ (출력용 최종 벡터)

6️⃣ 최종 출력 (단어 예측)

✔️ 계산

\hat{y}_t = Softmax(W_y \tilde{s}_t + b_y)

✔️ 의미

👉 다음 단어 확률 계산

rice → 0.7
food → 0.2
meal → 0.1

👉 가장 높은 단어 선택

🔥 기존 seq2seq vs Attention

❌ 기존 seq2seq

출력 = sₜ

👉 입력 정보를 잘 못씀

✅ Attention

출력 = aₜ + sₜ

👉 입력 + 현재 상태 둘 다 활용

👉 성능 훨씬 좋아짐

🎯 핵심 비유 (완벽 이해)

👉 시험 문제 푸는 상황

sₜ → 내가 풀고 있는 문제 상태
aₜ → 교과서에서 찾은 핵심 내용

👉 둘 합쳐서 답 작성 = ṡₜ

💡 최종 한 줄 정리

👉 Attention = 입력을 계속 참고하면서 단어를 생성하는 기술

🚀 마무리

Attention은 단순히 복잡한 수식이 아니라,

👉 “중요한 정보만 골라서 쓰는 똑똑한 방법”

입니다.

'AI > ML' 카테고리의 다른 글

Transformer 포지셔널 인코딩 (1)	2026.04.21
트랜스포머(Transformer) — Attention Is All You Need (0)	2026.04.20
Attention Mechanism (0)	2026.04.19
인코더 디코더 Seq2Seq (0)	2026.04.18
Word2Vec (1)	2026.04.17

phg

Attention Mechanism 완전 쉽게 이해하기 (Score → Output까지)

📌 전체 흐름 한 줄 요약

1️⃣ Attention Score (중요도 점수 계산)

✔️ 개념

✔️ 등장 변수

✔️ 계산

✔️ 쉽게 이해

2️⃣ Attention Distribution (Softmax)

✔️ 개념

✔️ 계산

✔️ 결과

✔️ 핵심

3️⃣ Attention Value (가중합)

✔️ 개념

✔️ 계산

✔️ 쉽게 이해

✔️ 의미

4️⃣ aₜ + sₜ 결합 (Concatenate)

✔️ 개념

✔️ 의미

5️⃣ 한 번 더 가공 (중요🔥)

✔️ 계산

✔️ 쉽게 설명

6️⃣ 최종 출력 (단어 예측)

✔️ 계산

✔️ 의미

🔥 기존 seq2seq vs Attention

❌ 기존 seq2seq

✅ Attention

🎯 핵심 비유 (완벽 이해)

💡 최종 한 줄 정리

🚀 마무리

'AI > ML' 카테고리의 다른 글

티스토리툴바

Attention Mechanism 완전 쉽게 이해하기 (Score → Output까지)

📌 전체 흐름 한 줄 요약

1️⃣ Attention Score (중요도 점수 계산)

✔️ 개념

✔️ 등장 변수

✔️ 계산

✔️ 쉽게 이해

2️⃣ Attention Distribution (Softmax)

✔️ 개념

✔️ 계산

✔️ 결과

✔️ 핵심

3️⃣ Attention Value (가중합)

✔️ 개념

✔️ 계산

✔️ 쉽게 이해

✔️ 의미

4️⃣ aₜ + sₜ 결합 (Concatenate)

✔️ 개념

✔️ 의미

5️⃣ 한 번 더 가공 (중요🔥)

✔️ 계산

✔️ 쉽게 설명

6️⃣ 최종 출력 (단어 예측)

✔️ 계산

✔️ 의미

🔥 기존 seq2seq vs Attention

❌ 기존 seq2seq

✅ Attention

🎯 핵심 비유 (완벽 이해)

💡 최종 한 줄 정리

🚀 마무리

'AI > ML' 카테고리의 다른 글

관련글

티스토리툴바