Entzaubert generative KI

Vortrag zu generativen Künstliche Intelligenz Systemen.
Sendung vom 2025/08/27 17:00:00 GMT+2
Download: pta250827.mp3

data

Der Vortrag von Stefan Kaufmann (stk) "Entzaubert generative KI … warum der Staat auf Linked Data setzen sollte statt auf IT-Alchemie" bei der Gulaschprogrammiernacht GPN23 media.ccc.de/v/gpn23-99-entzaubert-generative-ki-warum-der-staat-auf-linked-data-setzen-sollte-statt-auf-it-alchemie

Musik Playlist

Transkription

Hallo, hier ist das Politopia Magazin, euer gesellschaftspolitisches Magazin bei Radio X, dem Frankfurter Bürgerradio. Schön, dass ihr dabei seid, schön, dass ihr zuhört. Wir haben euch heute einen Vortrag mitgebracht mit dem Titel Entzaubert generative KI Warum der Staat auf Linked Open Data setzen sollte, statt auf IT-Alchemie.

Gehalten hat ihn der Stefan Kaufmann, SDK, und zwar neulich bei der Gulasch-Programmiernacht. Das ist eine jährliche Veranstaltung und da kommen auch Leute zusammen, man könnte sagen, da kommen Hacker zusammen, Computer-Nerds, aber Leute, die sich einfach auskennen, verschiedene Sachen genauer angucken wollen. Das künstliche Intelligenz-Thema ist ja zur Zeit eine Sache, die viele Dinge betrifft, viele Bereiche betrifft und jeder von uns hat auch schon mal ausprobiert, wie so generative KI funktioniert.

Dabei geht es darum, dass man eine Textvorgabe gibt und eine Vorstellung hat, was man erzeugt haben möchte und dann dieses künstliche Intelligenz-System genau das erzeugt. Also einen Text oder ein Bild oder ein Video oder ein Musikstück. Und diese Systeme nennt man generative künstliche Intelligenz-Systeme.

Wir hören also jetzt den Vortrag von Stefan Kaufmann Entzaubert generative KI, wo er die Frage ein bisschen genauer beleuchtet. Ja, wir möchten heute ein bisschen zu so früher Stunde, was anscheinend hinreichend viele Leute interessiert, generative KI zu entzaubern. Ich durfte mich damit beschäftigen, zum Glück, bei der Arbeit.

Dabei ist nach und nach iterativ dieser Vortrag entstanden, aber auch sogar ein gedrucktes Pamphlet, von dem ich ein paar Exemplare dabei habe. Das heißt, wer danach sagt, der hat nicht nur Quatsch erzählt, sondern das möchte ich anderen weitererzählen, kann da ein paar davon auch hinterher haben. Ja, wenn alles, wenn alles wie ein Hammer aussieht, was habe ich denn da geschrieben? Wenn man nur einen Hammer hat, sieht alles wie ein Nagel aus.

Das müsst ihr euch reindenken, was ich da gemeint habe. Vor ein paar Jahren, manche von euch, die Älteren erinnern sich, Blockchain war mal in aller Munde. Blockchain wird alles retten.

Blockchain trägt einen nach Hause. Blockchain löst die Schmerzen der öffentlichen Verwaltung. Momentan sind wir an einem Punkt, wo KI alles lösen wird, was die öffentliche Verwaltung an Schmerzen aufgebaut hat über die letzten 30 Jahre.

Und was ich da total spannend finde, wenn man da mal drauf schaut, ist die Frage, wer eigentlich was meint, wenn man von KI spricht. Man angefangen hat das Ganze ja vor vielen, vielen Jahrzehnten als Forschungsfeld. Also hier sehen wir ein künstliches neuronales Netzwerk, das Buchstaben erkennen soll.

Wir sind noch im Zeitalter der Relais-Technik, wo rechts das neuronale Netzwerk noch händisch angepasst wird mit den Gewichtungen. Und da kommen wir schon zur ersten grundlegenden Unterscheidung. Also seit Beginn des Forschungsfeldes, seit Beginn der Dartmouth-Konferenz quasi, haben wir zwei grundlegende Strömungen des ganzen Feldes.

Nämlich die künstliche neuronale Netze ist so die momentane Abstraktion. Also das konnektionistische Modell, das auf Heuristiken basiert, und regel- und logikbasierte Systeme, auch genannt das symbolische Modell. Wer jetzt das alles schon weiß, kann einfach währenddessen auf dem Handy scrollen.

Aber nur zur Erinnerung noch mal, das konnektionistische Modell, neuronale Netzwerke, künstliche neuronale Netzwerke, die orientieren sich ein bisschen an der Informationsverarbeitung im menschlichen Gehirn. Wir haben also Layer, verschiedene Schichten künstlicher Neuronen, das sind im Endeffekt mathematische Funktionen. Die werden durch Training parametrisiert, bekommen Input zum Beispiel, und über eine Error-Loss-Function werden sie dann trainiert, zum Beispiel Klassifikationen zu machen.

Im einfachsten Fall Buchstaben zu erkennen anhand ihres Umrisses, wenn es eben auf die jeweilige, auf den Font trainiert worden ist. Oder ich kann Hunde von Katzen unterscheiden hinterher. Ganz wichtig aber, diese Ausgabe basiert immer notwendigerweise auf Heuristiken.

Das ist angewandte Statistik, das heißt, ich habe halt immer auch eine Fehlerwahrscheinlichkeit. Und vor allem aber auch, es ist strittig, aber zumindest die Hinweise deuten darauf hin, dass solche Modelle kein formal-logisches oder mathematisches Schlussfolger können. Es gab vor einem Jahr schon ein viel beachtetes Papier, es erscheint ja immer alles nur auf Archive oder als Preprint oder sowas.

So richtig berutachtete Forschung muss man suchen. Aber da gab es ein Papier, das war von Apple-Beschäftigten, die das anhand einer Mathe-Olympiade, also Aufgaben der Mathe-Olympiade, versucht haben zu falsifizieren, dass da formal-logisches mathematisches Schlussfolger möglich ist. Und genau diese Gruppe hat vor rund einer Woche auch ein neues Papier rausgebracht, was sehr viel Aufruhr bei den typischen LinkedIn-KI-Quarktaschen verursacht hat.

Die da nämlich nochmal dieses Türme-von-Hanoi-Beispiel durchexerziert haben. Das ist also ein zeitliches Rabbit-Hole. Gary Marcus hat da einen schönen Aufschrieb gemacht, weil es auch ein Gegen-Paper gab, das sich aber hinterher als Witz herausgestellt hatte, das dann nur zum Trollen dieser Menschen verbreitet wurde.

Dem gegenüber steht seit Beginn der Forschung eben der logikbasierte Ansatz, symbolische KI, das ist ein schlechter Begriff, symbolische KI, symbolic AI. Da geht es darum, dass ich Faktenzusammenhänge, maschinenlesbar auf der Semantik-Ebene in so einen Wissensgrafen packe. Ich kann zum Beispiel sagen, also Hunde und Katzen hatten wir vorher auf der Bild-Ebene, und da muss ich nicht beschreiben, was ein Hund oder eine Katze ausmacht, das ist einfach trainiert.

Aber ich kann sagen, sowohl eine Katze wie auch ein Hund ist ein Säugetier, wie auch ein Bär, beide haben Fell. Ein Wal ist auch ein Säugetier, aber im Gegensatz zum, er lebt auch im Wasser, aber der Fisch ist eben kein Säugetier. Und da kann ich immer eben Ableitungen machen, zum Beispiel gebe mir mal alle Säugetiere aus, die im Wasser leben und Fell haben und bekomme dann vielleicht einen Biber raus oder sowas in Richtung, wobei der lebt auch an Land.

Also Abbildungsunschärfen. Dieser Wissensgraf kann aber eben nach formal logischen Regeln ausgewertet werden. Und wer im Grundstudium schon mal Prolog hatte zum Beispiel, da kann man solche typischen Logikrätsel ausgeben.

Wir haben fünf Häuser, jedes hat eine Farbe, und rechts neben dem roten Haus lebt jemand, der eine Katze als Haustier hat. Und ich habe eine unvollständige Aussagenbasis, und man kann sich dann zusammenknobeln, welcher Mensch in welchem Haus wohnt und welches Haustier hat und welches Getränk trinkt und so weiter. Und das ist dann so eine schöne Knobelaufgabe.

Und Prolog macht das natürlich in Sekundenbruchteilen. Und auf Basis dieser Herangehensweise hat der IBM Watson KI, nicht Bot, aber das KI-System, hat in den 2000ern Jeopardy ordentlich abgeräumt, weil dann sowas halt, gerade so Wissenszusammenhänge, ganz einfach ableitbar ist. Diese Herangehensweise hatte lange Zeit ein Skalierungsproblem.

Das ist super für Expert-Innensysteme, wo ich einen bestimmten Sachverhalt einfach nur auswerten möchte. Wenn ich aber das Wissen der ganzen Welt abbilden möchte, dann war das in den Forschungsprojekten oft mit dem Problem verbunden, dass irgendwann das Forschungsprojekt zu Ende war und ich dann die Hilfskräfte nicht mehr bezahlen konnte, die händisch diese Wissensbasen zusammengeklöppelt haben. Und dann ist das so ein bisschen gegen die Wand gefahren.

Und damals konnte sich aber noch niemand vorstellen, dass in den letzten, wie viel sind es jetzt, 13 Jahren, Zehntausende Freiwillige gemeinsam 117,9 Millionen Datenobjekte in der Wissensdatenbank Wikidata angelegt haben, die genau sowas versucht, also so einen Wissensgraf über möglichst viel Wissen der Welt aufzubauen, um solche Zusammenhänge auswertbar zu machen. Ich muss auch diese Zahl, wenn ich sie in der Folie habe, praktisch alle paar Wochen wieder aktualisieren, weil halt ständig so viele dazukommen. Das ist wirklich beeindruckend.

Ganz kleine Erinnerungen quasi. Ihr wisst das natürlich alle. Aber nochmal, um es in Erinnerung zu rufen, wie funktionieren denn solche Wissensgrafen, solche logisch auswertbaren Systeme? Wenn man einen Wikipedia-Artikel zu einem hochinteressanten Sachverhalt, wie zum Beispiel der Gulasch-Programmiernacht anschaut, dann kann ich und dann könnt ihr alle, die natürlich als Menschen interpretieren und lesen und die Wissenszusammenhänge, die da drin steht, einfach in euch aufsaugen und Kraft eures Gehirnes in Zusammenhänge vermitteln.

Das ist ein Text, der ist menschlicher Ausdruck, und da sind aber ein paar Wissenszusammenhänge drin. Zum Beispiel, dass die Gulasch-Programmiernacht, kurz GPN, heißt, dass sie eine viertägige und eine Konferenz für Hackertechnik begeisterte und interessierte Laien ist und vom Entropia e.V. ausgerichtet wird. Hier habe ich mal gelb hervorgehoben.

Und dann sind aber noch ein paar andere Zusammenhänge drin, zum Beispiel, dass es die zweitgrößte jährliche Veranstaltung des CCC nach dem Kongress ist. Man arbeitet hier dran. Und dass es in Karlsruhe ist und dass 2023 2.000 Menschen teilgenommen haben.

Wenn ich das jetzt in Wikidata abbilde, und zu jedem Artikel gibt es auch ein Datenobjekt, dann folgt es so einer Logik, Subjekt, Prädikat, Objekt. Also die Gulasch-Programmiernacht ist eine jährliche Veranstaltung und ein Hackertreffen, das gibt es als Konzept offenbar auch. Die wurde 2002 begründet.

Sie ist nach Gulasch benannt, nach dem Essen Gulasch und nicht nach einer Stadt, die vielleicht auch so heißen könnte. Und wird vom Entropia veranstaltet. Und wenn ich das in Zusammenhang bringe, habe ich quasi hier so einen Graphen, den ich mir aufbaue.

Die GPN 23 ist Teil der Reihe Gulasch-Programmiernacht. Das ist ein Hackertreffen, genau wie der Chaos Communication Kongress. Die Gulasch-Programmiernacht wird vom Entropia veranstaltet und der Entropia ist ein Erfahrungsaustauschkreis.

Wenn ich jetzt auswerten wollen würde, dass es die zweitgrößte Veranstaltung des CCC ist, brauche ich noch die Verbindung zum Chaos Computer Club. Und da ist ein kleines Problem, was mir jetzt letzte Woche noch aufgefallen ist, wie der Zusammenhang zum Chaos Computer Club ist. Da nehme ich noch ein bisschen unscharf.

Beim Chaos Communication Kongress steht drin, dass es vom Chaos Computer Club veranstaltet wird. Da sagen jetzt manche, nein, das ist die CCCV GmbH oder sowas. Aber auf einem Erfahrungsaustauschkreis ist der Codex zum Chaos Computer Club noch nicht drin.

Also wir müssen immer alles abbilden, was wir auch auswerten möchten. Dafür haben wir aber einen ganz großen Vorteil, nämlich wir können Begriffsunklarheiten auflösen. Da unten wird immer solche URIs dran geschrieben, was diese Konzepte beschreiben.

Und wenn ich jetzt zum Beispiel euch sage, ich habe auf dem Weg hierher ein Jaguar gesehen, dann könnte das ganz unterschiedliche Meinungen haben, was ich damit eigentlich sagen möchte. Also ich könnte das Auto getroffen haben, das könnte ein Chaos wohl sein. Ich könnte die Spielekonsole gesehen haben, das ist hier auf der GPN auch noch relativ wahrscheinlich.

Oder ich könnte die Raubkatze getroffen haben oder angetroffen haben. Das wäre interessant. Wenn ich solche Konzepte mit URIs auflöse, kann ich das einfach, das folgt dem Schema, das ist so ein URL eigentlich, wikidata.org, Entity, und dann kommt so eine Q-Nummer.

Das ist wirklich nur eine Nummer. So etwas können Maschinen wunderbar lesen. Und dann kann ich einfach eingeben, das meine ich damit.

Und dann ist für die Maschine auch eindeutig klar, was ich damit bezwecken möchte. Jetzt möchten wir es als Menschen auch noch lesen. Und da gibt es eine schöne Eigenschaft, nämlich Labels.

Das heißt, jedem so einem Datenobjekt sind Labels zugeordnet, in verschiedenen Sprachen auch. Das heißt, auf Deutsch heißt es Jaguar. Und ich habe gleich auch eine Mehrsprachigkeit mit drin, zum Beispiel, dass es auf Ukrainisch Jaguar heißt.

Und Japanisch und Hindi werde ich gar nicht versuchen auszusprechen. Und auch diese ganzen Zusammenhänge, dass ein Jaguar die Unterklasse von Raubkatze ist, ist auch eben in verschiedenen Sprachen direkt so abbildbar. Okay, Exkurs Ende.

Wenn wir jetzt aber von KI sprechen, und gerade in so einem öffentlichen politischen Diskurs ist damit eigentlich immer generative KI gemeint. Da wird so ein Passprototo, der kleine halbgefüllte Ausschnitt gerade für das ganze Feld, bezeichnet. Und das hat gravierende Folgen.

Wer nämlich, ich habe hier geschrieben, wer A einkauft, bekommt B gratis dazu. Ich werde jetzt nur am Rande die ersten zwei Dinge reißen. Nämlich, dass der eine Punkt, dessen sind wir uns alle bewusst, Training erfordert, Ausgangsmaterial.

Das Ganze wird trainiert auf großen Textkorpora. Da gibt es nachvollziehbarerweise Widerstand gegen, dass einzelne Akteure solche Modelle aufbauen, unter Benutzung aller möglichen anderer Werke. Da sind aber Seiteneffekte mit drin.

Wir haben seit einigen Jahren in Ausnahmeregelungen zum Text und Data Mining. Wenn wir an verwertbare Informationen reinkommen, wer von euch hat schon mal was gescrapet oder scrapen müssen, um Dinge mal sinnvoll auswerten zu müssen? Wer erinnert sich daran, dass es mal Dispute gab, ob ich zum Beispiel so eine Flugübersichtsseite überhaupt scrapen darf? Ob da irgendwelche Rechte betroffen sind oder ob ich da irgendwie abgemahnt werden kann? Da sind wir mittlerweile raus. Ich weiß noch, Fahrplandaten hatte Michael Greif vor vielen, vielen Monaten mal abgegrast und hatte dann eine freundliche Mail, da die Mail bekommen, dass er das doch bitte nicht tun möge, sonst behalte man sich Schritte vor.

Da gibt es mittlerweile Ausnahmeregelungen, Schrankenbestimmungen und Überrechte, die sagen, Text und Data Mining zur Analyse, zur besseren Auswertbarkeit, das ist nicht urrechtlich relevant. Und diese Ausnahme droht darüber gerade so ein bisschen in Gefahr zu geraten. Also nicht nach dem Motto, wir sehen da ist was, da passiert was damit, was wir nicht gut finden.

Wir könnten übersteuern oder sowas das vielleicht einhegen, sondern man versucht gerade so ein bisschen das Kind mit dem Bade auszuschütten. Und da sollten wir darauf achten als Community. Und weitere Seiteneffekte, wir haben die ganzen, ja, die Diskussion ist bekannt, es ist sehr viel menschliche Zuarbeit, war lange Zeit nötig, um diese Modelle zu trainieren, zu fein zu tunen, also gerade aus dem globalen Süden mit Clickworkern.

Wir haben einen immensen Energie- und Rohstoffbedarf, Menschen kommen jetzt auf die, ich hatte neulich auf LinkedIn, das war ein Meinungsstück, dass man sagte, wenn wir uns nicht abhängen lassen wollen, als Fortschrittsnation die KI benutzt, dann müssen wir auch wieder ernsthaft über Kernenergie nachdenken. Also sowas wird wieder sagbar und bekommt auch Platz in Kolumnen und Meinungsbeiträgen. Und nicht zuletzt ist auch so, es zeichnen sich da ganz eklatante Machtunterschiede.

Also wer kann sich überhaupt leisten, so ein Modell trainieren? Wer ist eigentlich nur am Ende der Verwertungskette? Und auch so Begriffe wie freie Open-Source-Software werden dadurch gerade zunehmend verwässert. Wir haben Ausnahmebestände im EAEG, im Europäischen, das Open-Source-Künstliche Intelligenz, auch wieder Sammelbegriff, das die weniger strikten Regularien unterliegt. Aber da ist ja die Frage auch, wer kann das denn überhaupt reproduzieren? Wer kann reproducible Builds auf einem Sprachmodell machen? Und die nächste Frage ist auch, ist das überhaupt praktikabel oder gewollt, dass wir jetzt alle rausgehen und den kompletten Textkorpus des Web scrapen dahin? Also freie Gegenmodelle sind eigentlich kaum praktikabel, das ist eigentlich eher Freeware momentan.

Und die letzte Frage, und auf die möchte ich eigentlich gerade im Bereich der Verwaltung aus, was ist eigentlich das Optimierungsziel von einem generativen System? Ich darf ja für Wikimedia mich für den politischen Hintergrund für freies Wissen einsetzen, und ich bin dann irgendwann mal draufgekommen, wissen, was ist Plausibilität? Also worum geht es eigentlich, wenn wir über Sprachmodelle sprechen? Und ich habe den großen Vorteil, dass meine Mitwohnerin Philosophie-Professorin ist und mir am Küchentisch abendeweise mal beigebracht hat, was eigentlich Wissen ist, weil das wusste ich nicht. Es gibt in der Philosophie, das ist anscheinend Grundkurs, also ich habe das leider nicht studiert, aber Grundkurs, erste Vorlesungsreihe ist die Definition aus der Philosophie, Wissen ist eine begründete, wahre Überzeugung. Das kann man mal sacken lassen.

Ich kann von etwas überzeugt sein, und es ist aber nicht wahr, und ich kann es auch nicht begründen, dann ist es halt eine Überzeugung, na gut. Es kann begründet, aber nicht wahr sein. Solche Ausnahmen gibt es auch.

Das ist ein Teil für das Philosophie-Seminar. Aber im Endeffekt, es muss korrekt sein. Es reicht nicht, dass ich überzeugt bin, sondern ich muss es auch begründen, herleiten können, damit ich dieses Wissen weitergeben kann.

Weil nur so kann mein Gegenüber ja nachvollziehen, welche Schritte ich vollzogen habe, um zu diesem Wissen zu kommen. So funktioniert Wissenschaft im Endeffekt, Argumentationen aufzubereiten, damit sie nachvollziehbar sind, und auch falsifizierbar im Zweifelsfall. Wenn wir aber konnektionistische Systeme anschauen, dann arbeiten die stets mit Wahrscheinlichkeiten.

Das heißt nicht, dass die keinen Anwendungszweck haben. Also Hunde von Katzen unterscheiden ist super. Ich muss nicht dem System alle Bilder von Hunden gezeigt haben, damit sie diesen Hund, also einen anderen abstrakten Hund, klassifizieren kann mit einer bestimmten Wahrscheinlichkeit.

Ich muss auch nicht alle Texte gezeigt haben, um Texterkennung machen zu können. Das heißt, für vorausgestellte Ausgangsdaten, also gesprochene Sprache, Bilderkennung und so weiter, ist es super. Und auch wenn wahrscheinliche Antworten reichen, ist es aber nicht hinreichend, wenn es um verlässliches, nachvollziehbares Wissen geht.

Und Tante hat es ja in den Blogposts mal so schön gesagt, also alles, was ein Sprachmodell generiert, ist eine Konfirmation, finde ich einen schöneren Ausdruck, und manches davon kann zufälligerweise auch wahr sein. Wenn wir jetzt aber für die, wenn wir die Verwaltung aber betrachten, die jetzt diese Systeme einsetzen möchte, ist eine ganz grundlegende Frage, wie viel Zufall ist für eine Regel- und normenbasierte Verwaltung eigentlich akzeptabel? Also, wie akzeptabel ist es eigentlich, dass, wenn ich da einen Prozess anstoße, einen Antrag stelle, sonst irgendwas in die Richtung, dass da mit einer gewissen Wahrscheinlichkeit das Richtige rauskommt? Ich rede jetzt nicht von einem Fehler eines Sachbearbeiters, sondern auch eine Anfrage, die ich stelle, sonst irgendwas, was davon ist eigentlich akzeptabel? Und was ich da interessant finde, ist, mal so eine Klassifizierung zu machen, für welche Anwendungszwecke die jeweilige Strömung, quasi die Geschmacksrichtung der klassischen KI-Forschung überhaupt anwendbar und zulässig ist. Also, konnektionistische KI, ich habe das auch erzählt bekommen, es gibt ausgerechnet in Kindertagesstätten offenbar das Problem, die haben da eben Leute, die sind extrem gut in Pädagogik, die sind nicht so besonders gut in Elternbriefschreiben, und die freuen sich natürlich sehr, wenn sie Stichpunkte ausformulieren können, in einen Elternbrief, der dann gut lesbar ist.

Audiotranskription, Übersetzung ist ein Anwendungsfall, der funktionieren kann, läuft auf dem Laptop im Zweifelsfall auch. Bilderkennung, Hunde von Katzen unterscheiden Mustererkennung, es gibt ja auch hier so vorausschauende Wartung, die anhand von Inputs laufen kann. Also das heißt generell, vorausschauende Inputs, ich habe eine Open-World-Annahme, ich kann nicht alles abbilden, was ich habe, und vor allem stochastische Fehler sind tolerabel, und ich kann sie erkennen und im Zweifelsfall korrigieren.

Symbolische KI ist aber eigentlich genau das für viele klassische Anwendungsfälle der Verwaltung, also Ausgaben müssen nachvollziehbar und begründet sein. Formalisierte Verfahren mit Gleichheitsanspruch, also ein wichtiger Grundsatz der Verwaltung ist der Gleichheitssatz, wenn du einen Antrag stellst bei einer Kommune zum Beispiel und du einen Antrag, dann müsst ihr gleich behandelt werden, egal ob die Nase der Person gefällt, aber auch unabhängig davon, auf welche Seite der Wahrscheinlichkeit gerade der Entscheidungsprozess kippt. Es gibt einen Ansatz hierzu von Förderfunke, die versuchen zum Beispiel gerade so Antragsstellungen zu formalisieren mit Shackle, so einer Constraint-Language, dass ich sagen kann, wenn ich Elterngeld beantragen möchte, welche Eigenschaften muss ich dafür eigentlich erfüllen, zum Beispiel älter sein.

Und natürlich zuletzt verlässlicher Abruf von Wissen, das ist halt die Stärke von symbolischen Systemen. Das heißt generell Information Material, Wissensabruf, ich brauche eine Beweisbarkeit bei der Ausgabe, ich möchte logische Schlussfolgerungen machen und vor allem stochastische Fehler sind nicht akzeptabel. Ein Einwand, der kommt, wo ich mich jetzt auch wundere, dass niemand den reingerufen hat, ich kann doch mit Rack Sachen recherchieren lassen.

Also Retrieval Augmented Generation, das Sprachmodell, ich habe nur ein Basemodel im Endeffekt und das wird zur Laufzeit versuchen, Dinge zu recherchieren, die ich haben möchte. Das ist auch die Begründung oder die Rechtfertigung, warum gerade in vielen Bereichen zum Beispiel für die Durchsuchung von Parlamentsprotokollen, von Ratsprotokollen Chatbots verwendet werden sollen. Die können ja theoretisch auf der Basis der Protokolle suchen.

Und ich habe mir so ein bisschen Hobby daraus gemacht, mal typische Abfragen zu sammeln, die ein Data zum Beispiel, also ein symbolisches Modell beantworten kann, wo Sprachmodelle aber auf die Nase fliegen. Und ich habe auch immer den Link auch dran gemacht, dass ihr es nachvollziehen könnt. Das ist jetzt zum Beispiel eine Frage, die 20 größten Städte in Deutschland absteigen, sortiert nach Einwohnerzahl, wo eine Frau Bürgermeisterin ist.

Ja, das mache ich gerne, weil da ganz unten ist meine Heimatstadt, die kommt da gerade noch so, taucht da auf. Auf dem Kongress war spätabends beim Späti mal die Frage, wie man dann reisen müsste, um alle Straßen zu besuchen, die nach Arnst-Tellmann benannt sind. Also das ist hier so, man muss die Abfrage auch sacken lassen.

Also zeige mir alle Straßen und die Koordinate der Straße. Und wenn die Straße keine Koordinate hat, dann die Koordinate der Stadt, in der die Straße ist, mit Bild dazu. Und man sieht hier zum Beispiel einen Ausreißer in Westdeutschland.

Und wenn ihr mal ein Sprachmodell fragt, welche die einzige Straße in Westdeutschland ist, die nach Arnst-Tellmann benannt ist, probiert es nachwirklich mit Sprachmodellen. Da kommen interessante Sachen raus. Bei den Bürgermeisterinnen, das wurde mir in der Schweiz auch gezeigt, da gab es dann eine viel längere Liste für die Schweizer Kommunen.

Und das war dann lustig, weil mit Lausanne, Lugano und Luzern drei Städte mit L in jedem Sprachgebiet der Schweiz, eine Stadt mit L, die falsch war, ausgegeben worden ist. Methodisch inkorrekt hat mich neulich ein Rabbit Hole geworfen, mal die ganzen Friedhöfe abzufragen, wo Nobelpreisträgerinnen begraben sind. Weil Göttingen ja aufgerufen worden ist und dann ist mir aufgefallen, ja ne, das ist aber auch in Stockholm und bei Moskau sind Friedhöfe, wo je neun Nobelpreisträgerinnen begraben sind.

Und viele von euch haben bestimmt den Vortrag am Donnerstag gesehen zu Landsmining. Genau mit demselben Problem habe ich mich im Februar auch beschäftigt, nämlich die Abfrage, welche Gäste wie häufig bei Markus Lanz Staffel 17, ich habe mir nur Markus Lanz angeschaut. Und Armin und ich haben uns gestern auch ausgetauscht und haben festgestellt, ja es ist auch fast nur Markus Lanz in Wikidata und wir gucken jetzt gerade, wie wir unsere beiden Ansätze da ein bisschen verknüpfen können und da bessere Abfragen machen können.

Da ist mein Blogpost auch verlinkt in meinem persönlichen Blog. Das Coole ist ja da, ich habe die ganzen Talkshow-Gäste eingetragen und ich habe quasi die Parteizugehörigkeit und auch das Geschlecht und so weiter gratis dazu bekommen, weil die ganzen Politiker natürlich schon ein Datenobjekt hatten. Das zeigt auch wieder ein bisschen, wenn ich zu einer Wissensbasis beitrage, jeder Beitrag stärkt das ganze System und jede Abfrage, auch wo ich Fehler erkenne, stärkt die ganze Vorgehensweise.

Wie können wir damit umgehen? Vor allem, wie können wir damit als Chaos-Community, Hacker-Community umgehen? Ich bin voll dafür, mal pragmatische Utopien zu bauen. Also Utopien finde ich immer gut, also mal so ein Gegenmodell, nicht von wegen, ich finde das doof und wir sollten das nicht tun, sondern so sieht ein Gegenmodell aus, das ich gerade vorschlagen könnte. Und das soll auch nicht Techno-Optimismus sein, nach dem Motto, nimm nur diese, also nimm Open Source, dann wird alles besser.

Sowas in Richtung, und auch nicht Technik-Dataminismus, das folgt dann logisch aufeinander, sondern, ich meine, wer von euch schon mal Infrastruktur gepflegt hat, der weiß so, es sind die langweiligen Sachen, über die man stolpert hinterher. Und dann mal zu analysieren, wo die öffentliche Hand die langweiligen Sachen noch nicht richtig implementiert hat und darauf zu zeigen und dafür auch zu sensibilisieren, das könnte ein riesengroßer Beitrag von unserer Community sein, für diesen ganzen Diskurs. Der erste, die erste Annahme, die glaube ich wichtig ist an der Stelle, ist davon auszugehen, dass generative KI sich nicht zwangsläufig durchsetzen wird.

Viel von dem Diskurs gerade kommt aus der Annahme, dass das unaufhaltsam ist, dass quasi die ganze Welt sich dorthin entwickeln wird und dass wer auf diesen Zug nicht aufspringt, quasi irgendwann den Anschluss verlieren wird und verloren sein wird. Also wir bauen gerade irgendwie Gigafactories, ist so ein europäisches Ziel, dass wir das alles aufbauen und so weiter und so fort. Und das kommt immer aus so ein bisschen FOMO raus.

Ich glaube, es ist aber wichtig, auch sich immer ins Bewusstsein zu rufen, wie wir Technologie einsetzen, welche Technologie wir einsetzen, ist eine Entscheidung. Und diese Entscheidung sollte begründet und wahr sein auf Basis von Wissen. Und das soll auch nicht, also ich möchte da nicht irgendwie so eine Nerdfight-Überheblichkeit mit einem immer besser Quiz oder so was nach dem Motto, sondern die Herausforderung ist die Überzeugung quasi, das Wissen auch so zu transportieren, dass es anschlussfähig ist.

Ich hatte hier ein Beispiel, also die Chatbots, dieses Beispiel ist ja rauf und runter gelaufen, da wurde der Chatbot Bobby in Berlin gefragt, wer die Regierende Bürgermeisterin Berlins ist und dann kann Daniela Franziska erklären, was das ist. Daniela Giffey sei die Regierende Bürgermeisterin von Berlin, obwohl es Kai Wegner schon war, ist ja auch wieder das Problem. Das Ding macht Rack und es hat einen Informationsbestand, den es abruft und wenn halt da gerade was sich verändert hat und ich ein sehr großes Ungleichgewicht von veralteten und neuen Informationen habe, habe ich ein Problem.

Löst also das Grundproblem nicht und vor allem Sprachmodelle sind vermutlich, Stand der Forschung, kein geeignetes Werkzeug für Information Retrieval. Es gibt da ein paar gute Arbeiten von Schaar und Bender, die darauf nochmal eingehen und die es auch wirklich wissenschaftlich zu analysieren versuchen. Und vor allem und das trifft, glaube ich, mich und uns als Community auch ziemlich arg, es gibt an ganz vielen Stellen schon Gegenmodelle, wie es eigentlich besser ging.

Also wenn jetzt gerade zum Beispiel wieder Durchsuchbarkeit von Parlaments und von Ratsprotokollen versucht wird, umzusetzen auf Basis von Chatbots, dann kann man ein bisschen in die Vergangenheit blicken und sehen, da gab es schon Menschen aus dem digitalen Ehrenamt, die sich der Sache 2013 angenommen haben, die dafür ein eigenes Standard entwickelt haben, die dafür eigene Systeme aufgesetzt haben, auf Basis von Elasticsearch und so weiter. Ich meine, sowas kann halt durchsuchen, auch deterministisch und so, wo ich mir auch Abos machen kann, nach dem Motto benachrichtige mich, wenn in meiner Straße, also wenn etwas verhandelt wird, was in meiner Straße stattfindet, sowas in der Richtung. Und das liegt halt auf GitHub eigentlich, schlüsselfertig, unter freier Open Source Software Lizenz.

Da ist dann die Frage eher, kann die jeweilige Kommune mit der Aussage, hier ist etwas auf GitHub Rolles aus, was anfangen. Es ist ja deutlich einfacher, ein Sprachmodell für eine Viertelmillion beim Dienstleister zu beauftragen, als mal schnell irgendwo ein System hochzuziehen, wo ich ein Ancillary Script ausführe. Und das ist ein Problem tatsächlich, das wir beleuchten sollten.

Wie könnte ein strategisch sinnvolleres Modell für die Verwaltung an sich aussehen, in verlinkten Daten zu denken statt in Kommunen? Mein Lieblingsbeispiel die ganze Zeit war jetzt auch immer Straßennamen. Ich war neulich in meiner Ehrenamtsfunktion, vom Hackspace waren wir mal im Straßenbauamt und haben so sieben Leitsordner durchgesucht, nach wem Straßen benannt worden sind in unserer Kommune, weil wir das abbilden. Und was da immer wieder auffällt ist, selbst in der Verwaltung selber gibt es für jeden Straßennamen so zwischen drei und fünf verschiedene Schreibweisen.

Also mit Bindestrich, ohne Bindestrich, mit Scharf-S, mit Doppel-S und so weiter und so fort. So gemeinsame Suchen über den ganzen Datenbestand in der Kommune werden da unglaublich schwierig drüber. Ein anderer Ansatz wäre natürlich zu sagen, ich habe eine zentrale Straßendatenbank, die identifiziert eine Straße als Datenobjekt, da ist ein Label auch dahinter und in meinem System, wo ich die Straße eintrage, gebe ich den Straßennamen ein, das Auto vervollständigt auch das Datenobjekt und wenn dann die Straße mal umbenannt werden sollte, dann wird das auch ein ganzes System aktualisiert und damit kann ich auf einmal verlässlichere, regelbasierte Auswertung machen.

Zum Beispiel mir eine automatische Karte rausgeben lassen, wie eigentlich die Wahlbezirke zugeschnitten sind, weil die sind in der Regel einfach nur eine Auflistung von Straßennamen. Die Meldebehörde braucht nur die Auflistung der Straßennamen, um die Wahlbenachrichtigung rauszuschicken an die Leute, die im jeweiligen Wahlbezirk abstimmen. Ich brauche dafür keine geografische Darstellung, wenn ich aber das so abgebildet habe, dann kann ich automatisch auch einen Geo-Umriss von diesem Stimmbezirk generieren lassen, was momentan ganz viele Datenjournalisten einfach von Hand irgendwie zusammenklöppeln, wenn sie es möchten.

Und wenn ich auch dann zugeordnet habe, nach wem die Straße benannt ist, dann kann ich auch Auswertungen machen, wie zum Beispiel das Geschlechterverhältnis eigentlich aussieht, nach wem Straßen benannt werden. Wie gesagt, das ist mein Lieblingsbeispiel. Ich war vor ein paar Wochen in Bern und habe das dann jemandem von der Staatskanzlei dort erzählt, die viel mit Link Open Data machte.

Ich dachte, das wäre doch so toll, wenn es das irgendwie gäbe. Und die Person schaute mich dann mit so einer Mischung aus Mitleid und ich weiß nicht an und sagte dann, ich versuche jetzt nicht Schweizerisch oder Berndeutsch nachzumachen. Das haben wir für jede Straße in der Schweiz.

Das gibt es da schon. Und ich war in dem Moment, also mein Emoziotop war schwer zu beschreiben in dem Moment, wie ich mit der Information eigentlich umgehe. Ich habe dann überlegt, gehe ich jetzt einfach und springe da in den Fluss.

Dann meinte er, die Are ist auch, hat auch ein Datenobjekt. Das kannst du dann rausfinden, wie du da hinkommst. Und nicht nur das, die haben halt auch sogar ein URI-Schema festgelegt.

Also LD für linkdata.admin.ch ist vorgesehen. Da wird das Zeug veröffentlicht. Die machen so DNS-Delegation, dass der Geo-Bereich hat dann geo.ld.admin.ch. Das war schwer für mich.

Also das hat mich sacken lassen müssen, also ein bisschen. Und als Coping-Mechanismus habe ich dann während der weiteren Veranstaltungen so eine kleine Abfrage geschrieben. Gib mir jetzt mal alle Geometrien aller Straßen in Bern.

Und das ging dann einfach in 0,2 Sekunden. Das war schön. Ich habe versucht, diese ganzen, Entschuldigung.

Ich habe versucht, diese ganzen Emotionen in einen Aufschrieb in meinen persönlichen Blog zu gießen. Also das ist dann nochmal so ein, das ist eigentlich alles eine Sammlung von Rabbit-Holes. Man kann an jeder Stelle in Rabbit-Holes wieder rein.

Wie käme jetzt die öffentliche Verwaltung dazu, in solchen Strukturen zu denken? An ganz vielen Stellen gibt es eigentlich für die Informationshaltung des Staates schon Fachverfahren. Also es gibt eine wunderbare Vielfalt. Zum Beispiel für Friedhofs ist ganz oft so sehr wenige, sehr spezialisierte Fachverfahren.

Standesamt Wesen gibt es meines Wissens nur einen Hersteller. Das heißt, wenn Leute zum Beispiel mal jetzt aufgrund des Selbstbestimmungsgesetzes ihren Namen ändern wollten und einen Termin sich früh geben lassen haben und dann ging das noch nicht, weil die Software das nicht konnte, dann liegt das daran, dass es da nur einen Hersteller gibt, der das dann zu dem Zeitpunkt noch nicht implementiert hatte. Oder auch für die Friedhofsverwaltung gibt es eigentlich nur drei Hersteller.

Die elektronische Friedhofsverwaltung Elfried und die Windows-Friedhof-Verwaltung Winfried. Und ich glaube, das dritte heißt Hades X. Das ist so die, also X Hades kann auch sein. Ich bin mir jetzt nicht mehr ganz sicher gerade auswendig.

Die sind usability-technisch nicht immer alle toll. Also ganz oft ist es auch so, wenn man aus, also es gibt dann nicht immer Schnittstellen. Man müsste dann, wenn man zum Beispiel vom Baumkataster Daten exportiert, muss man eine Abfrage machen und dann alles markieren.

Dann drückt man Steuerung C und dann macht man Excel drauf. Also ihr wisst, wie das dann so weitergeht. Aber viel davon ist auch möglich und das zeigen einige Bundes-, also einige Bundes-, das zeigt Schleswig-Holstein.

Schleswig-Holstein zeigt das gerade, hat es am praktischen Beispiel durchexerziert. Die haben gesagt, wenn es im Fachverfahren drin ist, ich kenne das so voll, die magische Technik, die heißt ETL. Das Zeug wird da gespeichert in einer relationalen Datenbank.

Ich kann ja einfach auch mir ein Transformations-Skript schreiben, das quasi die Semantik, was jetzt welche Spalte beschreibt, bei der Extraktion, bei der Transformation dran klöppelt und dann kann ich hinterher ADFA oder sowas rausschreiben und kann es exportieren. Und es hat auch einen ganz praktischen Vorteil für die Verwaltung selbst. Also in dem Schleswig-Holstein Beispiel war es so, da war eine Person im Landesdenkmalamt jeden Monat, ein bis eineinhalb Tage damit beschäftigt, so ein Report zu erstellen, wo das dann hinterher immer so ein Bericht gemacht wird.

Stehen die Denkmäler noch? Ich weiß gar nicht, was der reporten soll. Aber es sollte ein Report gemacht werden und es war alles händisch. Und dann haben sie sich überlegt, wir haben doch Technik, wir können das automatisieren und dann ist halt eben auch der PDF-Bericht automatisch rausgefallen, der erstellt werden sollte, aber gleichzeitig eben auch knowledge-graph-ähnlich die Aufbereitung dieser Denkmal-Datenbank.

Also win-win, eigentlich die Person kann jetzt sich ihrer eigentlichen Leidenschaft zuwenden, nämlich die Fotodokumentation aller Denkmäler. Da haben wir alle mehr davon, als wenn man einfach so repetitive Quatscharbeit macht. Was ja eigentlich, also das ist ja immer das Versprechen gerade von KI, dass man repetitive Quatscharbeit ersetzt und damit irgendwie Personalkosten einspart.

Aber das heißt ja unterm Strich auch, wenn ich so ein bisschen ETL mache, alles was ich brauche, ist eine sehr, sehr, sehr, sehr schwache Maschine, die ein paar nicht sehr komplizierte Python-Skripts ausführen kann. Und als ich die Folie zum ersten Mal gezeigt habe, kam hinterher jemand und fragte so, was muss ich da genau kaufen. Aber genau das Problem ist ja, es geht nicht um die Maschine, sondern ich muss halt die Kompetenzen aufbauen tatsächlich innerhalb der Verwaltung, um so ein sehr einfaches Python-Skript warten und durchführen zu können.

Und das habe ich vorhin schon gesagt, der normale Exportprozess ist, ich mache das Fachverfahren auf, mache Machsteuerung A, Machsteuerung C und mache Excel auf. Und damit zeigt sich ein weiteres Problem. An ganz vielen Stellen werden ja Informationen der öffentlichen Hand so quasi in der Käfighaltung für Informationen gehalten, in irgendwelchen Office-Dokumenten.

Das ist ja die artungerechteste Haltungsform für Informationen überhaupt. Das liegt oft daran an technischen Defiziten, die sich also entwickeln. Man arbeitet ja um Probleme rum und es gibt dann eine Liegenschaften-Datenbank, die hat der Wolfgang Häberle 1998 mit Microsoft Access geklöppelt und die wird dann so von Generation zu Generation weitergegeben.

Also das sind so all diese VBA-Skripte werden einmal dir gehören, Simba. Und es wird weitergereicht dann einfach. Ihr lacht da.

Das Problem ist, wir reden ja auch gerade darüber, dass es ganz wichtig wäre, jetzt KI und gemeint ist meistens generative KI in der Schule zu lernen. Die haben, also ganz viele Menschen, die Informationen ablegen, haben ja zum Beispiel auch Office in der Schule gelernt und für die ist das das naheliegendste Mittel, um Informationen zu speichern. Wiederverwertbarkeit, Wiederverwendbarkeit von Informationen spielt ja in dieser Ausbildung keine große Rolle und oft ist es auch schwer vorstellbar, dass andere Stellen Informationen wiederverwenden möchten, könnten.

Ich hatte ein Beispiel von einer Senatsverwaltung in Berlin, die muss regelmäßig in die Bezirksämter, in Kellern der Registratur, um von Schulen solche Akten rauszuziehen, weil die jeweiligen Bezirksamter, die legen das nur als Akte auf Papier ab, damit wenn jemand klagt, die das rausziehen können und vorzeigen können. Dass jemand anderes es wiederverwenden könnte oder brauchen könnte wieder, ist meistens gar nicht, also das wissen die nicht unbedingt. Das heißt, wir haben nie die Strukturen aufgebaut, wir haben jetzt eigentlich über Jahrzehnte hinweg uns immer so iterativ weiter fortbewegt nach dem Motto, da müssen wir vielleicht da ein bisschen was ausbauen und weiter verändern.

Und das zeigt sich auch gerade, also vorgestern war es, glaube ich, ist der erste Entwurf des Organigramms des neuen Bundesministeriums für Digitalisierung und Staatsmodellisierung, BMDS, wichtig, die Reihenfolge, rumgegangen und ich war ja schon ein bisschen gespannt und habe natürlich dann die Metainformationen angeguckt. Also das ist nochmal ein Screenshot von einem alten Organigramm, von einem jetzt nicht mehr existierenden Ministerium und wenn man diese Ministeriumsorganigramme anschaut, also sie sind erstens schwer zu finden, also wenn ich rausfinde, ich suche nachher, ich drücke Steuerung F und gebe einen Namen ein und dann muss ich so ein bisschen, das ist so ein bisschen wie bei Jurassic Park, bewegt euch nicht, der Vision ist based on movement, also du bist da wirklich so, irgendwas wurde gerade gehighlighted, aber ich muss gerade wirklich suchen, wo in diesem Ding ist das dann hinterher und in den Metainformationen, so ein Organigramm steht meistens drin, erstellt mit Microsoft PowerPoint und das ist die normale Rangehensweise, weil das ist die naheliegendste Rangehensweise natürlich auch, weil das das Werkzeug ist, was alle gelernt haben, was alle gewohnt sind, dass man so etwas automatisch generieren könnte, ist meistens nicht bewusst und vor allem auch, dass ich, wenn ich mit semantischen Daten, mit Wissensgrafen sowas organisieren würde, dass ich auch sagen kann, gibt mir alle Personen in allen Ministerien, die sich zum Beispiel mit Linked Data beschäftigen oder alle Referate, die sich mit irgendwas mit Daten beschäftigen, sowas wäre natürlich möglich, wenn ich auf Basis von Wissensgrafen arbeiten würde und hier zeigt sich auch ein bisschen, ganz viel wird gerade immer propagiert nach dem Motto, lasst uns weggehen von Microsoft 365, lasst uns auf freie Software setzen, berechtigter Ansatz, aber ob das Organigramm hinterher in Microsoft PowerPoint oder LibreOffice Impress gemalt worden ist, ändert ja im Prozess nicht unbedingt was. Ein häufiger Einwand, der dann kommt, ist dann generative KI, kann ja Informationen aus Office-Dokumenten ziehen, generative KI kann alles, da habe ich einen schönen Einwand gesehen, vielleicht kennen einige von euch Chainforge, das könnt ihr auf dem Laptop aufsetzen, da könnt ihr so grafische Flows zusammenstecken und dann mal so Testabfragen in Richtung von entweder lokal laufenden oder eben auch im Web erreichbaren Modellen werfen und da ist ein Beispiel, was ich auf der SciKa-Konferenz, Wissenschaftskommunikationskonferenz gelernt habe, ein typisches Anwendungsbeispiel für generative KI in der Verwaltung ist, machen wir einen Vergleich, wir haben das Stadtfest und wir haben da Liste, Excel-Liste von allen Firmen in der Stadt und hier haben wir Excel-Liste von unserem Veranstaltungs-Organ, wer das Stadtfest schon sponsert und dann finden wir raus, wer das Stadtfest noch nicht sponsert.

Da könnte man auch irgendwie recht einfach skripten, aber das ist ein ernsthaftes Beispiel, was gerade in Handreichung auch rumgereicht wird, wenn ich diese Anfrage stelle, macht ChatGPT ein kleines Python-Skript und führt das in der Sendbox aus und guckt halt auf, wird mit Rack zum Beispiel irgendwo bei Stackoverflow was suchen und das habt ihr vielleicht schon rausgefunden, nicht alle Stackoverflow-Antworten sind richtig und auch bei der Aufbereitung können wieder heuristische Fehler passieren und wenn ihr, das könnt ihr mit Chainforge schon eben machen, ich habe diese Aufgabenstellung, vergleiche zwei Listen, ich habe eine Musterlösung, mach das 100 mal und ihr seht dann richtig schön hinten auf dem Grafen, was für eine Fehlerquote habe ich denn und da wieder die Frage, welche Fehlerquote ist überhaupt tolerierbar. Dann kommen wir, da wollten wir eigentlich hin, zum Argumente-Werkzeugkasten. Wenn ihr solchen Diskussionen begegnet in eurer Kommune zu Hause, vielleicht um Himmelswillen, vielleicht nicht, in eurem Arbeitsumfeld nach dem Motto, wir müssen jetzt generative KI einführen, haben wir ein bisschen mal zusammengesammelt, wie man damit eigentlich umgehen könnte.

Der erste Punkt ist generell sagen, was ist. Also ich bin, ich habe mich jetzt so reingenerdet, so ein bisschen, dass ich mittlerweile ein bisschen allergisch auch reagiere, wenn jemand nur KI sagt und nicht benennt, was damit gemeint ist und ich glaube, ein erster Schritt ist, ich möchte euch jetzt alle davon, also das ist wie wenn man Leuten beibringt, wie schlecht das Kerning aussieht. Ich habe diesen Schmerz jetzt erfahren, ich möchte ihn euch weitergeben, dass ihr mal darauf achtet, in Diskussionen im Zweifelsfall auch nachfragt nach dem Motto, wenn KI gesagt wird, was konkret, welche Geschmacksrichtung ist gemeint, kennt ihr die andere eigentlich, habt ihr die berücksichtigt.

Wer da tiefer eingraben möchte, es gibt ein wunderbares Paper aus der Politikwissenschaft, The Role of Magic Concepts, die beschreiben dann zum Beispiel, also wann wird so ein Begriff eigentlich nur noch zur Projektionsfläche, der verschiedene Begriffsbedeutung haben kann, die überlappend sein können, die sich widersprechen und wenn ihr in so einer Runde mal sagt, jetzt beschreibt mal diesen Sachverhalt ohne den Begriff KI zu verwenden oder ohne digitale Souveränität zu sagen oder sowas in der Richtung, das ist total spannend, weil zum Teil sich dann erst auflöst, dass da mehrere Parteien miteinander diskutieren und eigentlich glauben, dasselbe zu meinen und jetzt stellt sich raus, die meinten gar nicht dasselbe. Das macht, also für mich macht das Spaß, für andere, also andere können, das ist gut. Und dann haben wir uns der Grundsatzfrage gestellt, wie kann ich überhaupt strategisch sinnvoll mit Gen AI als Lösungsvorschlag umgehen, wenn das ins Gespräch gebracht wird und wir hatten uns das ja vor allem in Bezug auf die Verwaltung angeschaut und irgendwann war das dann so ein Aha-Moment, wir können ja eigentlich da einen ganz klassischen Ansatz der Verwaltung verwenden, um den als Schablone zu verwenden, nämlich den Verhältnismäßigkeitsgrundsatz.

Der ist ja eigentlich gedacht, naja, warum lacht der? Der ist eigentlich gedacht, um abzuwägen, ob Eingriffe in individuelle Freiheiten gerechtfertigt und verhältnismäßig sind, aber eigentlich ist der als Schablone, der Vorteil ist, die Leute kennen das natürlich schon aus der Verwaltung, deswegen kann man den da anwenden, hat normalerweise vier Schritte, das heißt, das erste Ziel, der erste Schritt, ist das Ziel legitim? Okay, legitim ist normalerweise beim Eingriff in Grundrechte, hier kann man aber auch sagen, ist das Ziel überhaupt definiert? Es gibt eine wunderbare Begutachtung von Rand, die sich gescheiterte KI-Projekte angeschaut haben und die kam dann irgendwann zum Schluss, dass in den meisten Fällen, wo die Projekte scheiterten, vorher nicht klar war, was sie damit eigentlich lösen möchten, sondern es ging darum, etwas mit KI zu machen. Alleine das aufzudecken, wenn das stattfindet, ist schon, glaube ich, wertvoll. Der zweite Schritt ist, ist das gewählte Mittel zum Erreichen des Ziels wenigstens grundsätzlich geeignet? Da geht es nicht darum, ob es das beste Ziel ist.

Ich kann natürlich auch einen Nagel mit einem Akkuschrauber in die Wand hämmern. Gut ist es nicht, aber es funktioniert. Und der dritte Schritt ist, einer der wichtigsten, finde ich, ist das gewählte Mittel, das vorgesehene Mittel zum Erreichen des Ziels erforderlich? Gibt es vielleicht bessere Alternativen, die weniger Seiteneffekte haben, die günstiger sind, die vielleicht sogar auch strategisch sinnvoller sind, umzusetzen? Ich kann eine Dose Ravioli auch mit einem Schiffsdieselmotor erwärmen, den ich in meinem Vorgarten betreibe.

Es ist aber vielleicht nicht die sinnvollste, es ist nicht erforderlich, mir dafür einen Schiffsdieselmotor zu erwerben, außer ich komme darauf, ich möchte unbedingt einen Schiffsdieselmotor haben. Und der vierte Punkt ist eben, sind die einzupreisenden Seiteneffekte, sind all das, was mich damit einkauft, auch in Richtung Unabhängigkeit und so weiter, sind die für den erwarteten Erfolg angemessen? Das heißt auch hier für das langfristige Ziel ganz wichtig, gibt es überhaupt ein langfristiges Ziel, worauf dieser Vorschlag von Digitalisierung hinarbeiten soll? Also mal fragen, wie sieht eigentlich aus, wenn das jetzt alles erfolgreich wird? Wie sieht das in drei, in fünf, in zehn Jahren aus, wo wir dahin kommen? Geht es auch konkret? Geht es auch noch konkreter? Wie sieht der Weg dahin aus in den Zwischenschritten? Ist es so ein, wir fangen jetzt damit an und dann kommt ein, hier passiert ein Wunderwolke und dann ist das Ziel erreicht, ist der Weg durchskizziert und dann vor allem auch, wenn der Weg wirklich nachvollziehbar durchskizziert ist, wie genau bringt uns die Methode dem Ziel näher? Weil wenn wir iterativ vorgehen, also wenn wir jetzt sagen, kommen wir laufen jetzt gemeinsam, also nicht bei der Hitze, aber wir gehen jetzt mal gemeinsam in Richtung London und wir machen das einfach nur iterativ, Schritt für Schritt, ohne vom Ziel her die Route geplant zu haben, dann landen wir halt hier irgendwo an der Kanalküste und dann haben nur die, was davon gewonnen, die entweder gut schwimmen können oder ein Schlauchboot dabei haben. Aber eigentlich, wenn man vom Ziel her kartiert hätte, wäre uns halt aufgefallen, wir hätten vielleicht vorher in Paris in den Eurostar einsteigen sollen.

Eine wichtige Seitenfrage auch bei dieser Bewertung ist, gibt es einen Anspruch auf Richtigkeit des Ergebnisses? Also wieder, wie vorher gesagt, Gleichheitsgrundsatz. Kriege ich da verlässliche Ausgaben raus, ist eigentlich auch wichtig, dass die Bevölkerung den Ausgaben so einer Verwaltungsleistung, so einer Verwaltungshandlung auch vertraut und ist Korrektheit als Zielanspruch definiert. Es gibt gerade jetzt wieder, es werden ganz viele Papiere gerade geschrieben in der Verwaltung, die jetzt versuchen, irgendwie mit KI auf Sammelbegriff umzugehen, wo dann Sachen definiert werden, wie human in the loop muss noch irgendwie drin sein, sonst irgendwie.

Was ich aber wirklich frappierend fand, ich habe bislang noch keine Papiere drin gefunden, dass eine Richtigkeit von Ausgaben, eine Richtigkeit von Auswertungen als Ziel festgeschrieben ist. Da kann man diskutieren, ist es erreichbar, aber überhaupt mal als Ziel festzuschreiben, dass ich möglichst nah dahin kommen möchte, das wäre schon interessant. Und genau, gibt es bessere Methoden, das Ziel zu erreichen? Also ganz oft gibt es, werden Sachen wiedererfunden, gerade für, also werden Chatbots auf Probleme geworfen, die schon längst gelöst sind.

Und ich finde, da ist die Frage des großen bayerischen Philosophen Gerhard Polt jederzeit berechtigt. Braucht es das? Braucht es das jetzt hier, um das Ziel zu erreichen? Und ganz zum Schluss, gibt es auch Konflikte mit den bestehenden Beschlusslagen, also diese Verhältnismäßigkeit Abwägung? In Kommunen gibt es zum Teil Beschlusslagen zu Sustainable Development Goals, dass wir vielleicht auch irgendwie Emissionen reduzieren möchten. Passt es zum Einsatz von generativen Modellen? Strategische Unabhängigkeit von Dienstleistern wird oftmals unter Souveränität irgendwie überschrieben.

Wie spielt denn das da rein? Wie abhängig bin ich hinterher von Dienstleistern in 15 Jahren, wenn ich jetzt meine künftige Infrastruktur darauf baue? Und dann ist auch die Frage, wurde das überhaupt berücksichtigt? Was wir als Community hier vor allem machen können, zum Schluss jetzt quasi noch zwei Inputs. Mein zweites Hobby neben dieser Auflistung von Abfragen ist Digitalisierungarchäologie. Es gibt den schönen Ausspruch von Basanta Tapa, alles was man zur Verwaltungsdilatierung wissen muss, ist bis 1989 endgültig und abschließend aufgeschrieben worden.

Je tiefer ich mich in diese alten Sachen reingrabe, desto mehr komme ich der Überzeugung, dass es stimmen könnte. Das hier ist ein Tagungsband. Wenn ihr mal eine Sache lebt, das ist wirklich ein mega Schinken, lasst ihn euch nicht vom Chatboard zusammenfassen, der ist von 1980 von der Tagung, das ist mega cool, 200 Leute zusammengepackt und haben sich hauptsächlich gestritten und dann diese Protokolle davon aufgezeichnet nach Impulsvorträgen.

Und da sind mega Sachen drin, die haben damals schon Onlinezugangsgesetz vorausgesehen, was man eigentlich bräuchte. Die haben damals schon Registermonetisierung vorausgesehen, wie das zusammenspielen sollte, dass man unbedingt interdisziplinär arbeiten sollte, dass man viel mehr beforschen sollte, viel mehr berücksichtigen sollte. Es ist ultra spannend in Austauschrunden, wie wenig das noch präsent ist, dass es solche Aufschriebe gab.

Selbst das Bund-Online-Konzept von 2005 kennen viele nicht mehr. Und was wir auch ändern, also das können wir immer wieder in Erinnerung rufen, wer da Lust hat, reinzugehen, es gibt einen Lesekreis, wir lesen diese Schinken. Das ist ein spezielles Nerd-Interest-Thema, wer da Lust hat, kontaktiere mich.

Und zum Schluss, was wir auch noch drehen müssten, ist, wir müssen die Applauslogiken ändern. Wir haben momentan einen ganz starken politischen Anreiz, eben Projekte zu machen, um der Projekte willen. Die Leuchttumoritis.

Und dabei werden die Infrastrukturen vernachlässigt. Es ist ganz selten, dass ein metaphorischer Abwasserkanal mit Blasmusik und Bratwürst eingeweiht wird. Aber das sind eigentlich, außer in Schleswig-Holstein, wurde mir gesagt, die haben die zweite Wasserleitung, das muss ein Mordsfest gewesen sein.

Schleswig-Holstein ist special, das ist alles anders. Aber wir brauchen eigentlich wieder sowas, dass sowas toll ist. Das ist die Kandidation in Köln, das ist der Kronleuchter-Saal.

Die haben einen Kronleuchter-Saal in der Kandidation, die haben da Empfänge gemacht, um zu zeigen, ist das nicht geil, was wir als Infrastruktur für die Daseinsvorsorge eingerichtet haben, damit wir nicht mehr die Kacke bis zum Knie stehen haben. Also das muss sich drehen, dass diese langweiligen Sachen, dass man dafür Zuspruch bekommt, dass es dafür Rückhalt gibt. Ich habe noch kein Patentrezept, wie wir das gedreht bekommen.

Lasst uns darüber nachdenken, wir müssen das irgendwie drehen, sonst werden wir da immer weitermachen. Und dann können wir auch in Richtung Almende nämlich weiterdenken, dass wir nicht mehr so unterwegs sind nach dem Motto, die Wirtschaft wird alles retten, lasst uns einfach nur einzelne Produkte einkaufen. Wir brauchen eigentlich so ein Konzept von Wissensalmende, wo wir mehr freies Wissen für alle hinterher haben, wo wir mehr Kooperation, Kollaboration haben, wie bei dem Landsmanning-Projekt einfach gerade, dass wir zusammenarbeiten und hinterher mehr davon haben, weil mehr teilen heißt hinterher mehr Reichtum für alle.

Wer jetzt Hunger auf mehr hat, wer sagt, Straßen-Datenbanken finde ich ultra geil. Da gibt es eine Möglichkeit, es gibt ganz viele Ortsgruppen, die machen das auf Wikidata-Basis schon. Wenn ihr damit anfangt, also wenn ihr eine Tendenz habt, ich muss 100-Prozent-Balken vollständig zu machen und ihr habt zu wenig Zeit, dann fangt nicht damit an.

Ich bin in diese Trash-Hole gefallen und fahre jetzt ständig rum und mache Bilder von Straßenschildern und sowas. Wer da einen Einstieg finden möchte, findet es da unten. Das ist ein ganz spannendes Projekt.

Es gibt ein anderes Projekt, gerade die Stolpersteine als Erinnerungskultur weiter ausbauen und pflegen möchten. Es gibt ja diese Liste der Stolpersteine in Wikipedia. Hier geht es auch darum, die Menschen dahinter auch noch mal sichtbarer zu machen und das miteinander zu verdaten.

Und wer generell noch tiefer einsteigen möchte, es gibt diesen wunderbaren Aussatz, Programmers forgetting, der auch mit der Hacke-Ethik ein bisschen zusammenspielt. Im Rückgriff auch auf den Tante-Vortrag zum Faschismus kann man viel rausziehen und Artificial Intelligence und modernen Forschung. Das ist ein 1200-Seiten-Schinken, aber genau, da kann man reingehen.

Und damit kommen wir endlich zur Q&A. Danke euch. Das war also jetzt der Vortrag von Stephan Kaufmann, STK.

Entzaubert generative KI. Warum der Staat auf Linked Open Data setzen sollte, statt auf IT-Alchemie. Den Vortrag hat er gehalten bei der Gulasch-Programmiernacht 23.

Die war jetzt gewesen im Juli. Auf unserer Webseite zu unserer Sendung könnt ihr natürlich diese Sendung nachhören und findet dort auch in den Show Notes, in den Sendungsnotizen, weiterführende Links und Informationen und könnt euch selber noch ein bisschen schlau machen zu dem Thema. Wir freuen uns, dass ihr dabei wart und zugehört habt und wir hören uns nächste Woche wieder beim Polytopia Magazin.

Jeden Mittwoch 16 Uhr bei Radio X. Bis dann.