Juriskop

Wrap-up Teil 2: Unsere Forschungsergebnisse

Das haben wir aus dem Forschungsprojekt gelernt

In diesem Bei­trag wollen wir nach Abschluss unseres For­schungs­pro­jekts „Juri­skop“ einen Über­blick dar­über geben, was unsere wich­tigsten For­schungs­er­geb­nisse und Erkennt­nisse aus dem Pro­jekt sind.

Was wir genau erforscht haben, welche Pro­to­typen wir ent­wi­ckelt und welche LLMs wir getestet haben und wie wir dabei jeweils vor­ge­gangen sind, haben wir in Teil 1 unseres Wrap-ups zusam­men­ge­fasst. Unsere Pro­to­typen selbst können hier ange­sehen und getestet werden.

Über­blick über unsere 10 wich­tigsten Learnings

  • Unsere Annahme hat sich bestä­tigt: Juris­ti­sches Wissen lässt sich sehr gut auto­ma­ti­sieren, auch bei kom­plexen Themen
  • Regel- bzw. wis­sens­ba­sierte Sys­teme lie­fern ver­läss­li­chere und nach­voll­zieh­ba­rere Ergeb­nisse als reine LLMs, erfor­dern aber einen hohen Auf­wand für die Formalisierung
  • Visua­li­sie­rungen (z. B.  Fluss­dia­gramme) sind beim Struk­tu­rieren von Wissen und Logik äußerst hilfreich
  • Prä­di­ka­ten­logik eignet sich sehr gut für die For­ma­li­sie­rung juris­ti­schen Wis­sens, manchmal genügt aber auch eine Tabelle oder ein Diagramm
  • Juris­ti­sche Bots müssen eine Balance finden zwi­schen juris­ti­scher Voll­stän­dig­keit und Kor­rekt­heit, Lai­en­ver­ständ­lich­keit, Trans­pa­renz und Nutzerfreundlichkeit
  • Es müssen nicht immer Chat­bots oder LLMs sein, in bestimmten Fällen funk­tio­nieren ein­fache Click­bots oder „Smart FAQ“ sogar besser
  • Beson­ders viel­ver­spre­chend sind hybride Ansätze, z.B. LLMs zur Sach­ver­halts­ana­lyse kom­bi­niert mit wis­sens­ba­sierten Sys­temen zur recht­li­chen Bewertung
  • LLMs eignen sich gut für juris­ti­sche Anwen­dungen – in unseren Tests schnitt ChatGPT am besten ab, aber auch Open-Source-Modelle wie Llama oder Deep­Seek lie­ferten teils sogar ver­gleich­bare Ergebnisse
  • Der Output von LLMs lässt sich durch Retrieval-Aug­mented Gene­ra­tion (RAG) und gutes Promp­ting verbessern
  • Das Nut­zer­feed­back zu unseren Bot-Pro­to­typen war durchweg positiv und brachte wert­volle Impulse – etwa die Idee, einen geführten Dialog mit einem Chat für frei­text­liche Rück­fragen oder Ein­gaben zu kom­bi­nieren, um die Sach­ver­halts­er­mitt­lung zu verbessern 

 

Unsere Lear­nings zur For­ma­li­sie­rung von juris­ti­schem Wissen

Im Rahmen unseres For­schungs­pro­jekts haben wir unter­sucht, inwie­weit juris­ti­sche Fra­ge­stel­lungen auto­ma­ti­siert bear­beitet werden können. Dabei zeigt sich: In klar struk­tu­rierten Rechts­ge­bieten wie z.B. der gesetz­li­chen Erb­folge ist eine Auto­ma­ti­sie­rung bereits heute sehr gut mög­lich. Auch kom­ple­xere Bereiche, in denen unbe­stimmte Rechts­be­griffe, Abwä­gungen oder Bewer­tungen aus einer Gesamt­schau aller Ein­zel­fall­um­stände eine Rolle spielen – etwa bei der Straf­bar­keit einer Belei­di­gung – lassen sich ansatz­weise auto­ma­ti­sieren, indem Kri­te­rien, Bei­spiele und Abwä­gungs­schritte eben­falls for­ma­li­siert werden. Gene­rell hilft die Auf­tei­lung einer juris­ti­schen Prü­fung in ein­zelne Schritte wie z.B. Sach­ver­halt, Defi­ni­tion und Sub­sum­tion – ein Vor­gehen, das sich ins­be­son­dere auch bei der Nut­zung von LLMs als hilf­reich erweist.

Zur Abbil­dung juris­ti­scher Wis­sens­struk­turen eignet sich die Prä­di­ka­ten­logik sehr gut, manchmal genügt jedoch bereits eine struk­tu­rierte Dar­stel­lung in Tabellen oder Dia­grammen, um Wissen sys­te­ma­tisch auf­zu­be­reiten und in Sys­teme ein­zu­binden. Lösungen gibt es dabei auch für den Umgang mit Unsi­cher­heiten, sei es auf Nut­zer­seite oder aus recht­li­cher Sicht.

Visua­li­sie­rungen haben uns enorm geholfen bei der For­ma­li­sie­rung (z.B. die Dar­stel­lung einer Prü­fungs­rei­hen­folge in Fluss­dia­grammen). Wir haben so das zusam­men­ge­tra­gene juris­ti­sche Wissen zunächst struk­tu­riert, um es dann in Prä­di­ka­ten­logik oder ein­zelne Kon­stel­la­tionen und Bedin­gungen-Ergeb­nisse-Bezie­hungen für eine Tabelle über­setzen zu können.

Aller­dings bleibt die For­ma­li­sie­rung juris­ti­schen Wis­sens bis­lang mit viel Hand­ar­beit und damit mit hohem Auf­wand ver­bunden. Eine auto­ma­ti­sierte Aus­wer­tung von Gesetzen, Urteilen und Lite­ratur ist der­zeit kaum mög­lich, da es an stan­dar­di­sierten Struk­turen fehlt. Hier könnten künftig leis­tungs­fä­hi­gere LLMs Abhilfe schaffen – vor­aus­ge­setzt, ihre Ergeb­nisse werden ver­läss­li­cher und nachvollziehbarer.

Unsere Lear­nings zur Imple­men­tie­rung von juris­ti­schem Wissen in Bots

Ins­ge­samt hat das Pro­jekt gezeigt, dass in ver­schie­densten Berei­chen sehr viel Wissen in Chat- oder Click­bots auto­ma­ti­siert nutzbar gemacht werden kann. Und das auch bei kom­plexen Fra­ge­stel­lungen (siehe Hate­speech-Thema) oder bei einer umfas­senden Bera­tung inkl. nicht rein juris­ti­scher Aspekte wie stra­te­gi­schen Erwä­gungen, Risi­ko­ab­wä­gungen und indi­vi­du­ellen Vor­lieben (siehe Filesharing-Thema). 

Ein ent­schei­dender Unter­schied zwi­schen auto­ma­ti­sierter Bera­tung durch solche Bots und der klas­si­schen anwalt­li­chen Bera­tung „face-to-face“ wurde uns in den Anfängen des Erb­rechts-Bots schmerz­lich bewusst: Bei einer Bot-Bera­tung kann der Nut­zende frei ent­scheiden, ob und welche Hin­weis­texte er liest – im Gegen­satz zur Bera­tung in Person, bei der er zumin­dest in den Grenzen der Höf­lich­keit gezwungen ist, sich die anwalt­li­chen Hin­weise und Beleh­rungen anzu­hören. So stellte sich für uns über­ra­schend deut­lich heraus, dass Nut­zende bei einem Bot nur sehr sehr wenige Hin­weise zu lesen bereit sind. Ein sol­ches System sollte also von der Text­fülle her so schlank wie mög­lich daher­kommen, bes­ten­falls selbst­er­klä­rend zu bedienen sein, wich­tige Hin­weise müssen auf das absolut Nötigste redu­ziert werden und Hil­fe­stel­lungen am besten ledig­lich ange­boten werden (etwa als Mou­seover- oder klick­bare Info-Texte). 

Dabei stehen wir Juristen immer wieder vor Ziel­kon­flikten, u.a. zwi­schen juris­ti­scher Vollständigkeit/Korrektheit und Lai­en­ver­ständ­lich­keit sowie zwi­schen Trans­pa­renz und les­barem Umfang der Informationen.

Ein wei­terer zen­traler Aspekt im Pro­jekt war die Wahl der geeig­neten Bot-Form. Unsere Erfah­rungen im Pro­jekt haben uns gezeigt, dass Chat­bots oder Sys­teme mit LLM-Ein­bin­dung gar nicht immer das Non­plus­ultra sind. Aus unserer Sicht ent­falten Chat­bots ihre Stärken bei kom­plexen, dia­lo­gi­schen Sach­ver­halten – etwa wenn viele Vari­anten und Ant­wort­mög­lich­keiten bestehen, wenn unstruk­tu­rierter Input ver­ar­beitet oder juris­tisch anspruchs­volle Kri­te­rien abge­fragt bzw. oft­mals Nach­fragen gestellt werden müssen. Click­bots hin­gegen eignen sich sehr gut bei klar umris­senen, von Nut­zenden ein­fach zu beant­wor­tenden Fra­ge­stel­lungen, bei geringer Kom­ple­xität und wenn eine enge User­füh­rung gefragt ist. Die von uns im Pro­jekt ent­wi­ckelte Idee von „Smart FAQ“ kommt in Frage bei ein­fa­chen, klaren Sach­ver­halten, die aber eine große Menge von Ergeb­nissen bzw. Fra­ge­stel­lungen umfassen, bei denen also Click­bots grund­sätz­lich geeignet wären, aber auf­grund der Menge unüber­sicht­lich und inef­fi­zient werden würden.

Dabei zeigt sich: Es gibt nicht DIE eine rich­tige Technik oder Methode. Je nach Anwen­dungs­fall ist oft­mals auch eine Kom­bi­na­tion ver­schie­dener Ansätze und Tech­niken sinn­voll – etwa die Nut­zung eines LLMs zur Sach­ver­halts­er­mitt­lung im Dialog, gefolgt von einer wis­sens­ba­sierten Bewer­tung anhand fest­ge­legter juris­ti­scher Logik, so geschehen etwa bei unseren Pro­to­typen zu Erbrecht und Hatespeech.

Wer es schafft, den „sweet spot“ zwi­schen den o.g. Ziele sowie den unter­schied­li­chen Methoden und Tech­niken zu finden – also ihre jewei­ligen Stärken zu kom­bi­nieren und die Schwä­chen zu mini­mieren – kann in kurzer Zeit beein­dru­ckende, effek­tive und zugleich recht­lich belast­bare Anwen­dungen entwickeln.

Unsere Lear­nings zum Ein­satz von LLMs im juris­ti­schen Bereich

Unsere umfang­rei­chen Tests haben uns gezeigt, dass die „großen“ Large Lan­guage Models (70 Mil­li­arden Para­meter oder mehr) sehr gut in der Lage sind, deut­sche Texte zu schreiben und zu ver­stehen. Auch das Erfassen von Rechts­normen und Geset­zes­texten gelingt meist, wie auch das Ant­worten auf Fragen hierzu. So konnte ChatGPT 4o aus knapp 88 % unserer Test-Doku­mente den rich­tigen Inhalt extra­hieren und diesen recht­lich ein­ordnen, auch das Open-Source-Modell Llama 3.3 70B kam auf einen ähn­li­chen Wert. Nicht so leicht taten sich die Sprach­mo­delle mit Mul­tiple-Choice-Fragen zu Rechts­themen, von denen selbst das beste getes­tete LLM nicht mehr als 75 % richtig beant­worten konnte. Vor allem Fragen zu kon­kreten recht­li­chen Begriff­lich­keiten und nach Hand­lungs­emp­feh­lungen gelangen nicht immer.

Ins­ge­samt lagen bei unseren Tests ChatGPT und Gemini vorne, es gab aber auch Open Source Modelle mit sehr brauch­baren Ergeb­nissen, allen voran Deep­Seek, das sogar das Niveau von ChatGPT errei­chen konnte.

Hier ein Auszug aus unserer Auswertung: