Yandex-Forscher entwickelt Dienst zum Ausführen des großen Sprachmodells Llama 3.1 „auf einem normalen Computer“ Yandex-Forscher entwickelt Dienst zum Ausführen des großen Sprachmodells Llama 3.1 „auf einem normalen Computer“

Vladimir Malinovsky, ein Forscher in der wissenschaftlichen Abteilung von Yandex, hat einen bahnbrechenden Dienst entwickelt, der es ermöglicht, große Sprachmodelle mit 8 Milliarden Parametern auf normalen Computern oder sogar Smartphones direkt über einen Webbrowser auszuführen. Hier ist ein Überblick über diese innovative Technologie:

Zugänglich auf Standardgeräten

Der Dienst nutzt Llama 3.1-8B, ein großes Sprachmodell, das um das Achtfache verkleinert wurde – von 20GB auf 2,5GB.
Nutzer können den Dienst auf einer dedizierten Webseite testen, wo das Modell auf ihr Gerät heruntergeladen wird, um es offline zu nutzen.

Offline-Funktionalität

Nach dem Herunterladen arbeitet das Modell vollständig ohne Internetverbindung, was Privatsphäre und Unabhängigkeit von Cloud-Diensten gewährleistet.

Leistung

Die Geschwindigkeit des Modells hängt von der Rechenleistung des Geräts ab:
- Zum Beispiel generiert das Modell auf einem MacBook Pro mit einem M1-Prozessor etwa 3-4 Zeichen pro Sekunde.

Mit modernen Technologien entwickelt

Rust und WebAssembly:
- Der Dienst ist in Rust geschrieben und nutzt WebAssembly, eine Technologie, die es Anwendungen ermöglicht, effizient innerhalb eines Webbrowsers auf verschiedenen Plattformen und Sprachen zu laufen.

Fortschrittliche Kompressionstechniken

Der Dienst verwendet hochmoderne Methoden, die gemeinsam entwickelt wurden von:
- Yandex Research
- Institute of Science and Technology Austria (ISTA)
- King Abdullah University of Science and Technology (KAUST)

Zwei Kernwerkzeuge

Modellkompression:
- Komprimiert Modelle bis zu achtmal, sodass sie auf einer einzigen GPU statt auf mehreren GPUs laufen können.
Fehlerkorrektur:
- Mildert Fehler, die während der Kompression entstehen, und stellt die hohe Qualität der Antworten des neuronalen Netzwerks sicher.

Veröffentlichung und Open Source

Das Projekt wurde erstmals im Sommer 2024 vorgestellt und ist seitdem der Öffentlichkeit zugänglich.
Der Quellcode ist offen auf GitHub verfügbar, was Entwickler dazu einlädt, diese Innovation zu erkunden und weiterzuentwickeln.

Zugänglich auf Standardgeräten

Offline-Funktionalität

Leistung

Mit modernen Technologien entwickelt

Fortschrittliche Kompressionstechniken

Zwei Kernwerkzeuge

Veröffentlichung und Open Source

Mehr in dieser Kategorie AI

Die Ethik autonomer Waffen: Kann KI in der Kriegsführung reguliert werden?

OpenAI kündigt nächste Familie von Schlussfolgerungsmodellen an — o3

Nvidia stellt kompakten KI-Supercomputer für Entwickler vor – Er passt in Ihre Hand

OpenAI veröffentlicht offiziell den Sora-Video-Generator im offenen Zugang

Treten Sie unserer Gemeinschaft bei 👋