Vladimir Malinovsky, ein Forscher in der wissenschaftlichen Abteilung von Yandex, hat einen bahnbrechenden Dienst entwickelt, der es ermöglicht, große Sprachmodelle mit 8 Milliarden Parametern auf normalen Computern oder sogar Smartphones direkt über einen Webbrowser auszuführen. Hier ist ein Überblick über diese innovative Technologie:

Zugänglich auf Standardgeräten

  • Der Dienst nutzt Llama 3.1-8B, ein großes Sprachmodell, das um das Achtfache verkleinert wurde – von 20GB auf 2,5GB.
  • Nutzer können den Dienst auf einer dedizierten Webseite testen, wo das Modell auf ihr Gerät heruntergeladen wird, um es offline zu nutzen.

Offline-Funktionalität

  • Nach dem Herunterladen arbeitet das Modell vollständig ohne Internetverbindung, was Privatsphäre und Unabhängigkeit von Cloud-Diensten gewährleistet.

Leistung

  • Die Geschwindigkeit des Modells hängt von der Rechenleistung des Geräts ab:
    • Zum Beispiel generiert das Modell auf einem MacBook Pro mit einem M1-Prozessor etwa 3-4 Zeichen pro Sekunde.

Mit modernen Technologien entwickelt

  • Rust und WebAssembly:
    • Der Dienst ist in Rust geschrieben und nutzt WebAssembly, eine Technologie, die es Anwendungen ermöglicht, effizient innerhalb eines Webbrowsers auf verschiedenen Plattformen und Sprachen zu laufen.

Fortschrittliche Kompressionstechniken

  • Der Dienst verwendet hochmoderne Methoden, die gemeinsam entwickelt wurden von:
    • Yandex Research
    • Institute of Science and Technology Austria (ISTA)
    • King Abdullah University of Science and Technology (KAUST)

Zwei Kernwerkzeuge

  1. Modellkompression:
    • Komprimiert Modelle bis zu achtmal, sodass sie auf einer einzigen GPU statt auf mehreren GPUs laufen können.
  2. Fehlerkorrektur:
    • Mildert Fehler, die während der Kompression entstehen, und stellt die hohe Qualität der Antworten des neuronalen Netzwerks sicher.

Veröffentlichung und Open Source

  • Das Projekt wurde erstmals im Sommer 2024 vorgestellt und ist seitdem der Öffentlichkeit zugänglich.
  • Der Quellcode ist offen auf GitHub verfügbar, was Entwickler dazu einlädt, diese Innovation zu erkunden und weiterzuentwickeln.