Lokales LLM‑Setup mit Proxmox & GPU für KMU und Gemeinden

Du willst KI im Alltag nutzen, ohne deine internen Dateien aus der Hand zu geben? Dann ist dieser Beitrag genau für dich. Ich zeige dir mein lokales LLM-Setup auf Proxmox mit OpenWebUI und Wissensdatenbank (RAG) inklusive Systemüberblick, Learnings aus der Praxis und einem Einstieg, der wirklich machbar ist.

Warum ich das lokal wollte

Viele wollen KI nutzen, aber sobald interne PDFs, Protokolle oder E-Mails ins Spiel kommen, wird’s heikel. Ich wollte genau das vermeiden: KI im Alltag nutzen, ohne dass Daten irgendwo extern in einer Cloud landen. Darum habe ich mir ein lokales LLM-Setup auf Proxmox gebaut.

Darum habe ich mein Setup so gebaut, dass Dokumente, Fragen und Antworten im eigenen Haus bleiben. Für mich sind das die drei wichtigsten Punkte:

  • Daten bleiben lokal (keine unbeabsichtigte Weitergabe)

  • Kosten sind planbar (kein Abo, keine kosten-Überraschungen)

  • Kontrolle bleibt bei mir (Zugriff, Rollen, Updates, Backups)

Das Setup in einfachen Worten

Ich habe die Lösung in drei Teile aufgeteilt. Stell dir das so vor:

  • Proxmox = Schaltzentrale: Damit betreibe ich auf einem Server mehrere «virtuelle Computer» und kann sie verwalten. (Link: Proxmox)

  • Ubuntu-VM = Rechenmaschine: Das ist ein virtueller Computer, der die Grafikkarte nutzt dort passiert die KI-Rechenarbeit.

  • OpenWebUI = Bedienoberfläche: Das ist die Oberfläche im Browser, wo man mit der KI chatten kann, Benutzer verwaltet und Dokumente hinterlegt. (Link: OpenWebUI)

Meine Proxmox-Architektur als Orientierung: Sie zeigt, wo welche Anwendungen laufen und wie sie miteinander verbunden sind. Nutze sie als Ausgangspunkt und passe sie an deine Situation an. (Bildquelle: Eigene Darstellung)

Diese Trennung ist für mich Gold wert: Wenn ich an der Bedienoberfläche etwas ändere oder das System zerstöre z.B. durch ein Update, bleibt die Rechenmaschine stabil und umgekehrt.

So läuft es im Alltag (Datenfluss)

Ich öffne OpenWebUI im Browser und tippe meine Frage ein, zum Beispiel:
«Wo sind bei uns die nächsten Abgabetermine?» oder «Wo findet der Unterricht statt?»

Wenn eine Wissensdatenbank aktiv ist, sucht das System zuerst in meinen Dokumenten nach passenden Stellen und gibt diese Textausschnitte der KI mit. Das nennt sich RAG Ich erkläre es gerne so: „Erst nachschlagen, dann antworten.“ Das macht Antworten deutlich zuverlässiger.

Hardware: nichts Spezielles, aber passend

Ich nutze einen alten Gaming-PC. Für viele Praxis-Use-Cases reicht das erstaunlich weit:

  • NVIDIA RTX 3090 (24 GB VRAM)

  • AMD Ryzen 5 5600X

  • 64 GB RAM

  • Speicher: 1× M.2 NVMe 2 TB + 3× 4 TB (Daten/Backups/Cold Files)

Meine Faustregel: Die Grafikkarte (VRAM) bestimmt, welche Modelle laufen. Und schneller Speicher bestimmt, ob sich alles im Alltag angenehm schnell anfühlt.

Warum OpenWebUI bei mir bleibt

Viele KI-Setups scheitern nicht an der Technik, sondern an der Bedienung. OpenWebUI ist bei mir der Teil, den man täglich nutzt: Chatten im Browser, Vorlagen speichern, Benutzer trennen und Dokumente pflegen, ähnlich wie z.B. bei ChatGPT von openAI.

Benutzeroberfläche von OpenWebUI: Hinzufügen von Wissen aus der eigenen Wissensdatenbank sowie Auswahl eines beliebigen LLM-Modells. (Bildquelle: Eigene Darstellung)

Wissensdatenbank: so starte ich sinnvoll

Ich starte klein und strukturiere nach Bereichen (z. B. HR, IT, Verwaltung). Kurz gesagt passiert Folgendes:

  1. Dokumente ablegen

  2. Das System erstellt einen «Such-Fingerabdruck» pro Textabschnitt (Embeddings)

  3. Bei einer Frage werden passende Stellen gefunden

  4. Die KI formuliert daraus eine passende Antwort

Mein Tipp: Lieber wenige, gepflegte Dokumente als «alles auf einmal».

Stolpersteine (damit du sie nicht auch hast)

  • Grafikkarte in der VM nutzen: Einmal sauber einrichten, dann läuft’s (das ist der „GPU Passthrough“-Teil).

  • Zugriff von aussen: Wenn extern, dann über VPN z.B. mit Tailscale oder einen Reverse Proxy mit Login.

  • Updates: Vor Updates Snapshot, wenn’s klemmt, zurückrollen.

  • Backups: Restore einmal testen, sonst ist es nur Hoffnung.

Startplan: pragmatisch

  1. Proxmox installieren, Netzwerk/Storage sauber setzen (Link)

  2. Ubuntu-VM erstellen, Grafikkarte aktivieren, erstes Modell starten (Link)

  3. OpenWebUI bereitstellen (intern oder via VPN) (Link)

  4. Erste Wissensdatenbank + 1–2 Use Cases testen (Link)

  5. Backup-Routine definieren und Restore testen (Link)

  6. Erst dann skalieren

Fazit

Ein lokales LLM-Setup lohnt sich, wenn du KI nutzen willst, aber deine Dokumente nicht aus der Hand geben möchtest. Mit der Trennung in Schaltzentrale (Proxmox), Rechenmaschine (VM) und Browser-UI (OpenWebUI) bleibt es verständlich und wartbar. Starte klein danach siehst du schnell, ob du eher mehr Leistung brauchst oder einfach eine bessere Dokumentenstruktur.

Dieser Blogbeitrag wurde mit Unterstützung von KI erstellt und vom Autor inhaltlich konzipiert, überarbeitet und verantwortet.

Beitrag teilen

Ueli Iff

Ich liebe es, neue Technologien kennenzulernen und sie direkt in der Praxis anzuwenden. In einer Welt, in der sich Technik rasant weiterentwickelt, ist genau das mein grösstes Hobby. Auf meinem Blog teile ich Erfahrungen, Learnings und praxisnahe Einblicke. Du bist herzlich eingeladen, weitere technische Beiträge von mir zu entdecken: www.iotueli.ch

Alle Beiträge ansehen von Ueli Iff →

Schreibe einen Kommentar