Endlich Excel können ohne Excel zu können
Ein Beispiel: Das Statistische Landesamt in Rheinland-Pfalz bietet zum Download eine Excel-Datei zur Bevölkerungsentwicklung in den Verwaltungsbezirken des Landes an. Lädt man sie bei ChatGPT-4 hoch, interpretiert die Maschine die Daten anhand frei gestellter Fragen.
„Welcher Bezirk hatte das größte Bevölkerungswachstum seit 1939? (Der Rhein-Pfalz-Kreis.)
Welcher verlor die meisten Bewohnerinnen und Bewohner? (Pirmasens.)
„Mach mir eine Liste der fünf Bezirke, die am stärksten gewachsen sind.“
- Rhein-Pfalz-Kreis - Steigerung um etwa 110,84 %
- Germersheim - Steigerung um etwa 94,72 %
- Mainz-Bingen - Steigerung um etwa 84,44 %
- Ahrweiler - Steigerung um etwa 76,33 %
- Westerwaldkreis - Steigerung um etwa 73,39 %
„Von Hand“ ginge das auch in Excel, wenn man entsprechende Spaltenfunktionen einrichtet und sortiert. Die sprachliche Anweisung ist jedoch schneller erledigt.
Lädt man eine weitere Datei hoch, etwa die über die Arbeitslosenquoten in den Bezirken, werden auch Verknüpfungen zwischen den beiden Tabellen möglich: „Wo ist die Arbeitslosenquote im Verhältnis zur Bevölkerungsdichte am höchsten?“
„Lassen Sie uns zunächst die Arbeitslosendaten bereinigen“, schlägt ChatGPT-4 vor. Denn einige Zeilen in dem Dokument sind aus KI-Sicht unsinnig. Da wurden Tabellenzellen zusammengefasst, um Zwischenüberschriften wie „Kreisfreie Städte“ oder „Landkreise“ zu gestalten.
Das Ergebnis nach der von ChatGPT vorgenommenen Bereinigung: Der Landkreis Birkenfeld hat im Verhältnis zur Bevölkerungsdichte die höchste Arbeitslosenquote.
Im Hintergrund hat ChatGPT mit der Erweiterung „Code Interpreter“ eigene Skripte in der Programmiersprache Python geschrieben. Bei Bedarf kann man den hergestellten Code durch Aufklappen der Erweiterung einsehen.
Allerdings: Die KI ist auch weiterhin nicht vor Fehlern gefeit. Weil in der einen Tabelle von „Landau in der Pfalz“ die Rede ist und in der anderen von „Landau i. d. Pfalz“, gelingt ihr das korrekte Zusammenführen aller Daten nicht auf Anhieb. Weist man die Maschine darauf hin, entschuldigt sie sich wortreich und versucht, den Fehler zu beheben. Da genügt ein einfacher Hinweis, dass beide Bezirke identisch sind, auch wenn sie unterschiedlich geschrieben sind.
Der „Code Interpreter“ kann noch mehr: „Mach mir ein Chart aus den Daten“, lautet meine Anweisung. Die KI stutzt, Balkendiagramm, Torte oder was? Und Zack, will die Maschine ein Balkendiagramm fertigen. Zeigen kann ich es hier allerdings nicht: Irgendwo in den Daten steckt wohl noch ein Logikfehler. In mehreren Anläufen versucht die Maschine, ihn zu beheben, faselt etwa von einer plötzlich fehlenden Panda-Bibliothek, verschlimmbessert dabei immer mehr die abgelegten Tabellen und kommt letztlich nicht mehr ans Ziel.
Ein neuer Anfang für Datenanalysen ist jedenfalls gemacht.
Bleibt nur noch die Frage: Was könnte Bevölkerungsdichte mit Arbeitslosigkeit zu tun haben? Das ist ein anderes Thema. Fragen Sie mal die KI.
Comments ()