Künstliche Intelligenz ist längst im journalistischen, wissenschaftlichen und kreativen Alltag angekommen. Das Zusammenfassen von Texten, das Transkribieren von Interviews, das Durchsuchen großer Datenmengen oder das Generieren von Bildern oder Videos geht heute mithilfe künstlicher Assistenten schneller und oft besser als noch vor wenigen Jahren. Dabei stellt sich jedoch oft die Frage: Wie lässt sich der Einsatz von KI-Tools mit Datenschutz, Quellenschutz und DSGVO vereinbaren? Die ehrliche Antwort lautet: nur sehr schwer – solange man auf Online-Dienste setzt. Aber es gibt einfache Lösungen, die ich in diesem Beitrag vorstelle.
Das Grundproblem: KI aus der Cloud
Die meisten populären KI-Anwendungen funktionieren cloudbasiert. Die Server stehen häufig in den USA, in China oder zumindest außerhalb der EU. Selbst wenn Anbieter europäische Rechenzentren versprechen, bleiben mehrere zentrale Unsicherheiten:
- Welche Daten werden tatsächlich übertragen? Nur der eingegebene Text – oder auch Metadaten, Kontextinformationen, Nutzungsverhalten?
- Wer hat auf dem Weg zu den KI-Servern Zugriff auf die Daten und wer dort? Betreiber, Subunternehmen, Trainingspartner, Behörden oder Regierungsstellen
- Was steht in den Nutzungsbedingungen? Viele AGB sehen ausdrücklich vor, dass mit Behörden kooperiert werden muss oder soll. Das ist aus Sicht des Anbieters nachvollziehbar, aus Sicht von Journalist:innen, Forschenden oder Aktivist:innen jedoch oft hochproblematisch.
- Was ist mit der DSGVO? Eine rechtssichere Auftragsverarbeitung ist oft schwer oder gar nicht sauber abzubilden – insbesondere bei sensiblen oder personenbezogenen Informationen.
Für alle, die mit Informanten, vertraulichen Interviews, internen Dokumenten oder personenbezogenen Daten arbeiten, ist das kein theoretisches Risiko, sondern ein reales Problem.
Echte Datensouveränität und Quellenschutz ist nur lokal möglich
Wenn man Datenschutz wirklich ernst nimmt, bleibt am Ende nur eine Lösung:
KI lokal betreiben – auf dem eigenen Rechner.
Das bedeutet:
Keine Datenübertragung ins Internet, keine Cloud, keine externen Server. Stattdessen bauen wir uns ein quasi autonomes System, also einen Computer, der vollständig oder weitgehend vom Netz getrennt („air-gapped“) ist und auf dem dennoch KI-Systeme funktionieren.
Auf solchen Rechnern lassen sich heute erstaunlich viele KI-Anwendungen umsetzen:
- Interviews und Sprachaufnahmen transkribieren
- Texte überarbeiten, zusammenfassen, strukturieren
- Große, bereits heruntergeladene Datenmengen analysieren
- Bilder, Videos und Musik generieren
Alles ohne, dass sensible Inhalte den eigenen Rechner verlassen.
Im Folgenden stelle ich drei verschiedene Systeme für unterschiedliche Anwendungen vor
1. Sprache transkribieren – lokal mit Noscribe
Der erste Anwendungsfall ist oft der wichtigste: Sprache zu Text. Also transkribieren. Das geht inwzischen sehr gut auf dem eigenen Rechner.
Mit Tools wie Noscribe lassen sich Interviews, Podcasts oder Mitschnitte vollständig lokal transkribieren. Die Audiodatei bleibt auf dem eigenen Rechner, die Verarbeitung erfolgt offline.
Vorteile:
- Kein Upload von Sprachaufnahmen
- Kein Risiko für Informant:innen oder Gesprächspartner
- Schnelle, zuverlässige Transkription
- Ideal für journalistische Interviews, Forschungsgespräche oder interne Meetings
Gerade bei sensiblen Inhalten ist das ein enormer Gewinn an Sicherheit – und oft auch an Ruhe.
2. Texte & Daten verarbeiten – lokale LLMs mit GPT4All
Der zweite Anwendungsgruppe sind Large Language Models (LLMs) wie ChatGPT und Mistral oder DeepSeek, die nicht in der Cloud laufen, sondern lokal installiert werden.
Mit GPT4All lassen sich verschiedene Modelle direkt auf dem eigenen Rechner betreiben, zum Beispiel:
- Mistral-Modelle
- andere offene, leistungsfähige Sprachmodelle
Diese lokalen LLMs können:
- Texte überarbeiten und stilistisch verbessern
- Zusammenfassungen erstellen
- große Textsammlungen durchsuchen
- Notizen strukturieren
- Dokumente vergleichen
- Recherche in lokal gespeicherten Daten durchführen
Wichtig:
Die Modelle haben keinen Internetzugang, sofern man das nicht explizit erlaubt. Sie „wissen“ nur das, was im Modell steckt – und das, was man ihnen lokal zur Verfügung stellt.
Das ist kein Nachteil, sondern gibt mir genau das, was ich brauche: volle Kontrolle über die Daten.
3. Bilder, Videos & Sound – lokal mit Pinokio
Auch generative Medien lassen sich inzwischen lokal erzeugen. Über Pinokio können verschiedene KI-Tools installiert werden, unter anderem für:
- Bildgenerierung
- Videogenerierung
- Musik- und Sounderzeugung
Pinokio fungiert dabei als eine Art Installer und Verwaltungsoberfläche. Man muss kein Programmierer sein, um diese Tools zu nutzen – ein wenig technisches Verständnis reicht völlig aus.
Der große Vorteil:
- Keine Prompts auf fremden Servern
- Keine Bildideen oder Entwürfe in fremden Trainingspipelines
- Volle Kontrolle über kreative Inhalte
Gerade für journalistische Illustrationen, Lehrmaterialien oder experimentelle Formate ist das hochinteressant.
Was man dafür braucht (und was nicht)
Die gute Nachricht:
Man braucht keinen High-End-Server und keine Entwicklerkenntnisse.
Was man allerdings mitbringen sollte:
- Einen halbwegs aktuellen Computer
(je nach Anwendung idealerweise mit ordentlicher CPU, ausreichend RAM und ggf. einer GPU) - Bereitschaft, sich einzuarbeiten
- Verständnis dafür, dass „lokal“ manchmal etwas langsamer ist als Cloud-KI
Was man nicht braucht:
- Programmierkenntnisse
- permanente Internetverbindung
- Vertrauen in undurchsichtige AGB
Fazit: Datenschutz ist kein Feature, sondern Deine Entscheidung
KI und Datenschutz stehen nicht grundsätzlich im Widerspruch. Der Konflikt entsteht vor allem dort, wo Bequemlichkeit und Geschwindigkeit im Fokus stehen und Online-Systeme genutzt werden.
Wenn Du jedoch bereit ist, einen Schritt zurückzugehen und lokale KI-Systeme aufzubauen, ist das etwas Arbeit. Dafür hast Du dann aber die
- Kontrolle über Daten und Datenströme,
- kannst den Schutz von Quellen und Informanten sicherstellen,
- hast eine höhere rechtliche Sicherheit
- und wirst insgesamt unabhängiger, da die Anwendungen auch dann funktionieren, wenn gerade keine Internetverbindung da ist (wovon ich als regelmäßiger Bahnfahrer ein Lied singen kann).
All das ist natürlich kein Aufruf zum Rechtsbruch. Lokale, bundesstaatliche und europäische Gesetze gelten natürlich weiterhin. Das ist aber kein Widerspruch. Denn gerade im Journalismus, in der Wissenschaft, der Bildung oder der zivilgesellschaftlichen Arbeit sind Datensicherheit und Quellenschutz kein Luxus, sondern die Grundlage für eine vertrauensvolle Zusammenarbeit. Der Quellenschutz ist daher Teil der Pressefreiheit. Aber darüber hinaus ich wünsche mir ja auch, dass andere mit meinen Daten sorgsam umgehen und habe für mich den Anspruch, genauso mit fremden Daten und Datensätzen umzugehen.
Natürlich hat das auch seinen Preis: Die lokal installierten KIs sind in der Regel langsamer als solche, die auf riesigen Serverfarmen laufen. Außerdem haben sie, wenn man das nicht ausdrücklich möchte, keinen Zugriff auf das Internet und damit auf aktuelle Informationen. Aber dafür nutze ich eh andere Werkzeuge.
Eines sollte Dir trotzdem klar sein: Auch bei den oben beschriebenen Anwendungen werden natürlich Daten verarbeitet, denn das ist ja der Sinn der Systeme. Und auch das alles lokal passiert und Du somit (falls der Rechner, auf dem die Systeme laufen tatsächlich komplett vom Internet und Deinem Netzwerk getrennt ist) garantieren kannst, dass keine Daten abfließen, informiere Deine Quellen immer darüber, wie Du ihre oder die von ihnen gelieferten Daten verarbeiten möchtest und hole Dir gegebenenfalls die dafür notwendige Erlaubnis ein.
Wenn Du wissen möchtest, wie sich solche lokalen KI-Workflows konkret umsetzen lassen und welche Herausforderungen es dabei gibt, sprich mich gerne an.
