Feinabstimmung von Qwen 14B für die Discord-Autovervollständigung

Ein Entwickler hat seine Erfahrungen geteilt, wie er das Qwen 14B Modell angepasst hat, um als Autocomplete-Tool zu fungieren, das auf seinen Discord-Nachrichten basiert. Diese Konfiguration ähnelt Tools wie GitHub Copilot, wo Vorschläge gemacht werden, während man tippt.
Der Entwickler verwendete etwa 250 Gespräche, die von Discord stammen und über ein Scraping-Tool gewonnen wurden, als Datensatz. Jedes Gespräch wurde als chat-ml Trainingsbeispiel formatiert, wobei der Schwerpunkt auf Nachrichten lag, in denen der Benutzer zuletzt etwas gesagt hat, ohne Code-Blöcke oder Links. Diese Wahl zeigt eine Fokus auf einen konversationellen Ton anstelle von technischem Inhalt.
Das Qwen 14B Modell wurde auf der unsloth.ai Plattform und QLoRA auf einem Kaggle-GPU feinabgestimmt, wobei der gesamte Trainingsprozess aufgrund der kleinen Datensatzgröße etwa 15 Minuten dauerte. Anschließend wurde das angepasste Modell in ein .gguf Format für die lokale Nutzung über ollama.com zusammengeführt.
Das Frontend dieses Autocomplete-Tools ist als Chrome-Erweiterung implementiert. Es erfasst die letzten paar Nachrichten und die laufende Eingabe des Benutzers, um einen chat-ml Prompt mit dem angemessenen Kontext zu erstellen, der dann verwendet wird, um eine Vervollständigung vom bereitgestellten Modell von Ollama zu generieren. Ein Null-Breite-Unicode-Zeichen wird clever verwendet, um anzuzeigen, wo der Vorschlag beginnt, während das Drücken von shift+tab den Vorschlag akzeptiert.
Die aktuelle Konfiguration ist auf Discord funktionsfähig, mit potenziellen zukünftigen Erweiterungen zur Unterstützung anderer Seiten. Der Entwickler schlägt auch vor, mit verschiedenen Modellgrößen zu experimentieren, da das derzeitige 14B Modell den verfügbaren Speicher fast maximal nutzt. Er schlägt vor, dass 4B oder 8B Modelle praktikable Alternativen sein könnten, wenn auch mit möglichen Datenbeschränkungen.
Der Quellcode und weitere Details sind auf dem GitHub des Entwicklers unter github.com/b44ken/finetune verfügbar.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Erstellen von syntaqlite: Ein SQLite-Entwicklungswerkzeug-Projekt, das mit KI-Unterstützung erstellt wurde
Lalit Maganti baute syntaqlite, eine Reihe von Entwicklertools für SQLite, in drei Monaten mithilfe von KI-Codierungsagenten, nachdem er es acht Jahre lang gewollt hatte. Das Projekt erforderte das genaue Parsen von SQL wie SQLite, was die Anpassung von SQLites dichtem C-Codebase mit über 400 Grammatikregeln beinhaltet.

Verbesserung der Claude-Code-Sitzungen mit claude-self-improve
Claude-self-improve ist ein CLI-Tool, das die AI-Leistung von Claude Code verbessert, indem es Sitzungsdaten analysiert und Speicherdateien automatisch aktualisiert.

HN SOTA: Verfolgung der Beliebtheit von Codierungsmodellen durch Hacker News-Kommentare
HN SOTA ist eine täglich aktualisierte Pipeline, die Hacker News-Kommentare scannt, Gemini verwendet, um Codierungsmodelle aus der OpenRouter-Liste zu identifizieren, und die Stimmung pro Erwähnung in einem öffentlichen Google Sheet protokolliert. Die Top-10-Modelle nach Erwähnungen über ein gleitendes 10-Tage-Fenster werden angezeigt.

Sandbox0: Open-Source Kubernetes-Native Sandbox-Infrastruktur für KI-Agenten
Sandbox0 ist eine Open-Source-Sandbox-Infrastruktur für KI-Agenten, die auf Kubernetes mit persistenter Speicherung über JuiceFS und automatischer Skalierung aufgebaut ist. Sie behebt Einschränkungen wie Parallelitätsgrenzen und flüchtige Ausführung, die in bestehenden Lösungen zu finden sind.