modelle

Transformer

Die neuronale Netzwerk-Architektur, die allen modernen LLMs zugrunde liegt.

Die Transformer-Architektur wurde 2017 von Google vorgestellt (Paper: «Attention is All You Need»). Ihr Kern ist der Self-Attention-Mechanismus, der es dem Modell ermöglicht, Beziehungen zwischen allen Wörtern in einem Text gleichzeitig zu erfassen. Dies macht Transformer deutlich leistungsfähiger als frühere Architekturen (RNNs, LSTMs).

Alle Begriffe