Vladimir Malinovsky, ein Forscher in der wissenschaftlichen Abteilung von Yandex, hat einen bahnbrechenden Dienst entwickelt, der es ermöglicht, große Sprachmodelle mit 8 Milliarden Parametern auf normalen Computern oder sogar Smartphones direkt über einen Webbrowser auszuführen. Hier ist ein Überblick über diese innovative Technologie:
Zugänglich auf Standardgeräten
- Der Dienst nutzt Llama 3.1-8B, ein großes Sprachmodell, das um das Achtfache verkleinert wurde – von 20GB auf 2,5GB.
- Nutzer können den Dienst auf einer dedizierten Webseite testen, wo das Modell auf ihr Gerät heruntergeladen wird, um es offline zu nutzen.
Offline-Funktionalität
- Nach dem Herunterladen arbeitet das Modell vollständig ohne Internetverbindung, was Privatsphäre und Unabhängigkeit von Cloud-Diensten gewährleistet.
Leistung
- Die Geschwindigkeit des Modells hängt von der Rechenleistung des Geräts ab:
- Zum Beispiel generiert das Modell auf einem MacBook Pro mit einem M1-Prozessor etwa 3-4 Zeichen pro Sekunde.
Mit modernen Technologien entwickelt
- Rust und WebAssembly:
- Der Dienst ist in Rust geschrieben und nutzt WebAssembly, eine Technologie, die es Anwendungen ermöglicht, effizient innerhalb eines Webbrowsers auf verschiedenen Plattformen und Sprachen zu laufen.
Fortschrittliche Kompressionstechniken
- Der Dienst verwendet hochmoderne Methoden, die gemeinsam entwickelt wurden von:
- Yandex Research
- Institute of Science and Technology Austria (ISTA)
- King Abdullah University of Science and Technology (KAUST)
Zwei Kernwerkzeuge
- Modellkompression:
- Komprimiert Modelle bis zu achtmal, sodass sie auf einer einzigen GPU statt auf mehreren GPUs laufen können.
- Fehlerkorrektur:
- Mildert Fehler, die während der Kompression entstehen, und stellt die hohe Qualität der Antworten des neuronalen Netzwerks sicher.
Veröffentlichung und Open Source
- Das Projekt wurde erstmals im Sommer 2024 vorgestellt und ist seitdem der Öffentlichkeit zugänglich.
- Der Quellcode ist offen auf GitHub verfügbar, was Entwickler dazu einlädt, diese Innovation zu erkunden und weiterzuentwickeln.