13 Attention

Transformer 的基础之一,本文讲讲 Attention 的数学原理