Die DeepSeek-Kontroverse: Woher stammen die Daten und wie sicher sind sie?
Der plötzliche Aufstieg von DeepSeek hat erhebliche Bedenken und Fragen aufgeworfen, insbesondere hinsichtlich der Herkunft und Verwendung der Trainingsdaten sowie der Datensicherheit.
Ein rasanter Aufstieg mit Folgen
Für diejenigen, die die neuesten Entwicklungen verpasst haben: DeepSeek ist ein neuer Akteur im Bereich der Künstlichen Intelligenz (KI). Das chinesische Startup hat innerhalb weniger Tage nach dem Launch die App-Stores im Sturm erobert. Bereits eine Woche nach der Veröffentlichung war die Anwendung die meistgeladene kostenlose App in den USA. Dies sorgte für erhebliche Turbulenzen an den Börsen und führte zu erheblichen Verlusten für nVidia- und Oracle-Aktionäre.
Open-Source oder nicht?
Obwohl DeepSeek als Open-Source-Projekt bezeichnet wird, trifft dies technisch gesehen nicht zu. Zwar sind bestimmte Modelle und Outputs öffentlich zugänglich, jedoch bleiben die zugrunde liegenden Trainingsdaten und der Code für die vollständige Reproduktion der Modelle weitgehend unter Verschluss. Daher wird das Projekt eher als Open-Weight-Modell klassifiziert.
Streit um die Trainingsdaten
Besonders die Herkunft der verwendeten Daten bereitet vielen Experten Sorge. OpenAI hat DeepSeek beschuldigt, sein ChatGPT-Modell für das Training des eigenen KI-Chatbots genutzt zu haben. Diese Vorwürfe haben nicht nur für hitzige Diskussionen gesorgt, sondern auch für eine Welle von Memes im Internet. Brisant dabei ist, dass OpenAI selbst in der Vergangenheit kritisiert wurde, Daten aus fremden Quellen für das Training von ChatGPT verwendet zu haben.
Regulierungsbehörden greifen ein
Behörden haben inzwischen begonnen, Fragen zu stellen. Die italienische Datenschutzbehörde GPDP hat DeepSeek aufgefordert, innerhalb von 20 Tagen umfassende Informationen darüber bereitzustellen, welche personenbezogenen Daten verarbeitet werden, woher diese stammen, zu welchem Zweck sie gesammelt werden und ob sie auf Servern in China gespeichert sind. Aufgrund dieser Bedenken wurde die App am 29. Januar 2025 aus den Google- und Apple-App-Stores in Italien entfernt. Die deutschen Datenschutzbehörden sind bisher nicht aktiv geworden.
Ein sicherheitskritisches Datenleck
Doch die größte Besorgnis dürfte eine weitere Enthüllung sein: Sicherheitsforscher von Wiz entdeckten eine öffentlich zugängliche Datenbank von DeepSeek. Diese enthielt eine enorme Menge an Chatverlauf, Backend-Daten und sensiblen Informationen, darunter Protokollströme, API-Schlüssel und Betriebsdetails. Besonders alarmierend war, dass die Datenbank nicht nur lesbar, sondern auch veränderbar war. Ohne jegliche Authentifizierung konnte jeder, der darauf stieß, sensible Protokolle und Klartext-Chatnachrichten abrufen sowie Passwörter und lokale Dateien entwenden.
Datenschutzrisiken und offene Fragen
Dieser Vorfall verdeutlicht erneut die gravierenden Datenschutzprobleme, die durch den rasanten Fortschritt im KI-Sektor entstehen. Sicherheit scheint in der Entwicklungsphase oft nur eine nachträgliche Rolle zu spielen. Nutzer sollten daher sorgsam überlegen, welche Informationen sie mit KI-Chatbots teilen, da diese an unerwartete und unerwünschte Orte gelangen könnten.
Die Zukunft von DeepSeek bleibt ungewiss, doch eines ist klar: Die Debatte über die Verantwortung und Transparenz von KI-Entwicklungen hat gerade erst begonnen.