Juriskop

Wrap-up Teil 2: Unsere Forschungsergebnisse

Das haben wir aus dem Forschungsprojekt gelernt

In diesem Bei­trag wollen wir nach Abschluss unseres For­schungs­pro­jekts „Juri­skop“ einen Über­blick dar­über geben, was unsere wich­tigsten For­schungs­er­geb­nisse und Erkennt­nisse aus dem Pro­jekt sind.

Was wir genau erforscht haben, welche Pro­to­typen wir ent­wi­ckelt und welche LLMs wir getestet haben und wie wir dabei jeweils vor­ge­gangen sind, haben wir in Teil 1 unseres Wrap-ups zusam­men­ge­fasst. Unsere Pro­to­typen selbst können hier ange­sehen und getestet werden.

Über­blick über unsere 10 wich­tigsten Learnings

  • Unsere Annahme hat sich bestä­tigt: Juris­ti­sches Wissen lässt sich sehr gut auto­ma­ti­sieren, auch bei kom­plexen Themen
  • Regel- bzw. wis­sens­ba­sierte Sys­teme lie­fern ver­läss­li­chere und nach­voll­zieh­ba­rere Ergeb­nisse als reine LLMs, erfor­dern aber einen hohen Auf­wand für die Formalisierung
  • Visua­li­sie­rungen (z. B.  Fluss­dia­gramme) sind beim Struk­tu­rieren von Wissen und Logik äußerst hilfreich
  • Prä­di­ka­ten­logik eignet sich sehr gut für die For­ma­li­sie­rung juris­ti­schen Wis­sens, manchmal genügt aber auch eine Tabelle oder ein Diagramm
  • Juris­ti­sche Bots müssen eine Balance finden zwi­schen juris­ti­scher Voll­stän­dig­keit und Kor­rekt­heit, Lai­en­ver­ständ­lich­keit, Trans­pa­renz und Nutzerfreundlichkeit
  • Es müssen nicht immer Chat­bots oder LLMs sein, in bestimmten Fällen funk­tio­nieren ein­fache Click­bots oder „Smart FAQ“ sogar besser
  • Beson­ders viel­ver­spre­chend sind hybride Ansätze, z.  LLMs zur Sach­ver­halts­ana­lyse kom­bi­niert mit wis­sens­ba­sierten Sys­temen zur recht­li­chen Bewertung
  • LLMs eignen sich gut für juris­ti­sche Anwen­dungen – in unseren Tests schnitt ChatGPT am besten ab, aber auch Open-Source-Modelle wie Llama oder Deep­Seek lie­ferten teils sogar ver­gleich­bare Ergebnisse
  • Der Output von LLMs lässt sich durch Retrieval-Aug­mented Gene­ra­tion (RAG) und gutes Promp­ting verbessern
  • Das Nut­zer­feed­back zu unseren Bot-Pro­to­typen war durchweg positiv und brachte wert­volle Impulse – etwa die Idee, einen geführten Dialog mit einem Chat für frei­text­liche Rück­fragen oder Ein­gaben zu kom­bi­nieren, um die Sach­ver­halts­er­mitt­lung zu verbessern 

 

Unsere Lear­nings zur For­ma­li­sie­rung von juris­ti­schem Wissen

Im Rahmen unseres For­schungs­pro­jekts haben wir unter­sucht, inwie­weit juris­ti­sche Fra­ge­stel­lungen auto­ma­ti­siert bear­beitet werden können. Dabei zeigt sich: In klar struk­tu­rierten Rechts­ge­bieten wie z.B. der gesetz­li­chen Erb­folge ist eine Auto­ma­ti­sie­rung bereits heute sehr gut mög­lich. Auch kom­ple­xere Bereiche, in denen unbe­stimmte Rechts­be­griffe, Abwä­gungen oder Bewer­tungen aus einer Gesamt­schau aller Ein­zel­fall­um­stände eine Rolle spielen – etwa bei der Straf­bar­keit einer Belei­di­gung – lassen sich ansatz­weise auto­ma­ti­sieren, indem Kri­te­rien, Bei­spiele und Abwä­gungs­schritte eben­falls for­ma­li­siert werden. Gene­rell hilft die Auf­tei­lung einer juris­ti­schen Prü­fung in ein­zelne Schritte wie z.B. Sach­ver­halt, Defi­ni­tion und Sub­sum­tion – ein Vor­gehen, das sich ins­be­son­dere auch bei der Nut­zung von LLMs als hilf­reich erweist.

Zur Abbil­dung juris­ti­scher Wis­sens­struk­turen eignet sich die Prä­di­ka­ten­logik sehr gut, manchmal genügt jedoch bereits eine struk­tu­rierte Dar­stel­lung in Tabellen oder Dia­grammen, um Wissen sys­te­ma­tisch auf­zu­be­reiten und in Sys­teme ein­zu­binden. Lösungen gibt es dabei auch für den Umgang mit Unsi­cher­heiten, sei es auf Nut­zer­seite oder aus recht­li­cher Sicht.

Visua­li­sie­rungen haben uns enorm geholfen bei der For­ma­li­sie­rung (z.B. die Dar­stel­lung einer Prü­fungs­rei­hen­folge in Fluss­dia­grammen). Wir haben so das zusam­men­ge­tra­gene juris­ti­sche Wissen zunächst struk­tu­riert, um es dann in Prä­di­ka­ten­logik oder ein­zelne Kon­stel­la­tionen und Bedin­gungen-Ergeb­nisse-Bezie­hungen für eine Tabelle über­setzen zu können.

Aller­dings bleibt die For­ma­li­sie­rung juris­ti­schen Wis­sens bis­lang mit viel Hand­ar­beit und damit mit hohem Auf­wand ver­bunden. Eine auto­ma­ti­sierte Aus­wer­tung von Gesetzen, Urteilen und Lite­ratur ist der­zeit kaum mög­lich, da es an stan­dar­di­sierten Struk­turen fehlt. Hier könnten künftig leis­tungs­fä­hi­gere LLMs Abhilfe schaffen – vor­aus­ge­setzt, ihre Ergeb­nisse werden ver­läss­li­cher und nachvollziehbarer.

Unsere Lear­nings zur Imple­men­tie­rung von juris­ti­schem Wissen in Bots

Ins­ge­samt hat das Pro­jekt gezeigt, dass in ver­schie­densten Berei­chen sehr viel Wissen in Chat- oder Click­bots auto­ma­ti­siert nutzbar gemacht werden kann. Und das auch bei kom­plexen Fra­ge­stel­lungen (siehe Hate­speech-Thema) oder bei einer umfas­senden Bera­tung inkl. nicht rein juris­ti­scher Aspekte wie stra­te­gi­schen Erwä­gungen, Risi­ko­ab­wä­gungen und indi­vi­du­ellen Vor­lieben (siehe Filesharing-Thema). 

Ein ent­schei­dender Unter­schied zwi­schen auto­ma­ti­sierter Bera­tung durch solche Bots und der klas­si­schen anwalt­li­chen Bera­tung „face-to-face“ wurde uns in den Anfängen des Erb­rechts-Bots schmerz­lich bewusst: Bei einer Bot-Bera­tung kann der Nut­zende frei ent­scheiden, ob und welche Hin­weis­texte er liest – im Gegen­satz zur Bera­tung in Person, bei der er zumin­dest in den Grenzen der Höf­lich­keit gezwungen ist, sich die anwalt­li­chen Hin­weise und Beleh­rungen anzu­hören. So stellte sich für uns über­ra­schend deut­lich heraus, dass Nut­zende bei einem Bot nur sehr sehr wenige Hin­weise zu lesen bereit sind. Ein sol­ches System sollte also von der Text­fülle her so schlank wie mög­lich daher­kommen, bes­ten­falls selbst­er­klä­rend zu bedienen sein, wich­tige Hin­weise müssen auf das absolut Nötigste redu­ziert werden und Hil­fe­stel­lungen am besten ledig­lich ange­boten werden (etwa als Mou­seover- oder klick­bare Info-Texte). 

Dabei stehen wir Juristen immer wieder vor Ziel­kon­flikten, u.a. zwi­schen juris­ti­scher Vollständigkeit/Korrektheit und Lai­en­ver­ständ­lich­keit sowie zwi­schen Trans­pa­renz und les­barem Umfang der Informationen.

Ein wei­terer zen­traler Aspekt im Pro­jekt war die Wahl der geeig­neten Bot-Form. Unsere Erfah­rungen im Pro­jekt haben uns gezeigt, dass Chat­bots oder Sys­teme mit LLM-Ein­bin­dung gar nicht immer das Non­plus­ultra sind. Aus unserer Sicht ent­falten Chat­bots ihre Stärken bei kom­plexen, dia­lo­gi­schen Sach­ver­halten – etwa wenn viele Vari­anten und Ant­wort­mög­lich­keiten bestehen, wenn unstruk­tu­rierter Input ver­ar­beitet oder juris­tisch anspruchs­volle Kri­te­rien abge­fragt bzw. oft­mals Nach­fragen gestellt werden müssen. Click­bots hin­gegen eignen sich sehr gut bei klar umris­senen, von Nut­zenden ein­fach zu beant­wor­tenden Fra­ge­stel­lungen, bei geringer Kom­ple­xität und wenn eine enge User­füh­rung gefragt ist. Die von uns im Pro­jekt ent­wi­ckelte Idee von „Smart FAQ“ kommt in Frage bei ein­fa­chen, klaren Sach­ver­halten, die aber eine große Menge von Ergeb­nissen bzw. Fra­ge­stel­lungen umfassen, bei denen also Click­bots grund­sätz­lich geeignet wären, aber auf­grund der Menge unüber­sicht­lich und inef­fi­zient werden würden.

Dabei zeigt sich: Es gibt nicht DIE eine rich­tige Technik oder Methode. Je nach Anwen­dungs­fall ist oft­mals auch eine Kom­bi­na­tion ver­schie­dener Ansätze und Tech­niken sinn­voll – etwa die Nut­zung eines LLMs zur Sach­ver­halts­er­mitt­lung im Dialog, gefolgt von einer wis­sens­ba­sierten Bewer­tung anhand fest­ge­legter juris­ti­scher Logik, so geschehen etwa bei unseren Pro­to­typen zu Erbrecht und Hatespeech.

Wer es schafft, den „sweet spot“ zwi­schen den o.g. Ziele sowie den unter­schied­li­chen Methoden und Tech­niken zu finden – also ihre jewei­ligen Stärken zu kom­bi­nieren und die Schwä­chen zu mini­mieren – kann in kurzer Zeit beein­dru­ckende, effek­tive und zugleich recht­lich belast­bare Anwen­dungen entwickeln.

Unsere Lear­nings zum Ein­satz von LLMs im juris­ti­schen Bereich

Unsere umfang­rei­chen Tests haben uns gezeigt, dass die „großen“ Large Lan­guage Models (70 Mil­li­arden Para­meter oder mehr) sehr gut in der Lage sind, deut­sche Texte zu schreiben und zu ver­stehen. Auch das Erfassen von Rechts­normen und Geset­zes­texten gelingt meist, wie auch das Ant­worten auf Fragen hierzu. So konnte ChatGPT 4o aus knapp 88 % unserer Test-Doku­mente den rich­tigen Inhalt extra­hieren und diesen recht­lich ein­ordnen, auch das Open-Source-Modell Llama 3.3 70B kam auf einen ähn­li­chen Wert. Nicht so leicht taten sich die Sprach­mo­delle mit Mul­tiple-Choice-Fragen zu Rechts­themen, von denen selbst das beste getes­tete LLM nicht mehr als 75 % richtig beant­worten konnte. Vor allem Fragen zu kon­kreten recht­li­chen Begriff­lich­keiten und nach Hand­lungs­emp­feh­lungen gelangen nicht immer.

Ins­ge­samt lagen bei unseren Tests ChatGPT und Gemini vorne, es gab aber auch Open Source Modelle mit sehr brauch­baren Ergeb­nissen, allen voran Deep­Seek, das sogar das Niveau von ChatGPT errei­chen konnte.

Hier ein Auszug aus unserer Auswertung:

„Bewer­tung gesamt“ in dieser Aus­wer­tung quan­ti­fi­ziert unsere sub­jek­tive Ein­schät­zung, in wel­chem Umfang ein LLM die gestellten Auf­gaben voll­ständig und kor­rekt bear­beitet hat, ins­be­son­dere um die LLMs unter­ein­ander ins­ge­samt ver­glei­chen zu können.

Ver­bes­se­rungen konnten wir durch Fine­tu­ning erzielen: Bei­spiel­haft haben wir einen Daten­satz mit 25 Haf­tungs­aus­schlüssen aus AGB bzw. Ver­trägen erstellt und in diesem ange­geben, warum die ein­zelnen Klau­seln wirksam sind oder nicht. Daraus sollten die LLMs lernen und ihr neu gewon­nenes Wissen auf andere Klau­seln anwenden. Das klappte zumin­dest bei klei­neren Modellen selbst mit diesem kleinen Daten­satz erstaun­lich gut: Llama 3.1 8B erkannte vor dem Fine­tu­ning nur etwa die Hälfte der Klau­seln richtig und konnte seine Feh­ler­quote durch das Fine­tu­ning immerhin um 16 % redu­zieren. Der Output umfang­reich vor­trai­nierter Modelle wie ChatGPT 4o blieb durch unser Fine­tu­ning weit­ge­hend unver­än­dert, war aber auch vorher schon sehr gut.

Zudem lässt sich der Output von LLMs mit­tels RAG (Retrieval-Aug­mented Gene­ra­tion) ver­bes­sern, kon­kret z.B. durch die Ein­bin­dung von Bei­spiel-Doku­menten oder Dateien mit ein­schlä­gigem Fachwissen.

Und schließ­lich lässt sich der Output meist durch Anpas­sungen am prompt ver­bes­sern. Wir haben in unseren Tests etwa mit fol­genden Maß­nahmen posi­tive Erfah­rungen gemacht:

  • Zuwei­sung einer kon­kreten Rolle ans LLM (z.B. Anwalt oder Richter)
  • Vor­gabe einer Ziel­gruppe (z.B. andere Juristen oder Privatleute)
  • Ein­fügen prä­ziser recht­li­cher Vor­gaben und Definitionen
  • Anfügen von Bei­spielen (z.B. bzgl. Inhalt und Tonfall)
  • Vor­geben eines struk­tu­rierten Output-For­mats (z.B. Tabelle oder json-Datei), was die Genau­ig­keit ver­bes­sert, weil das LLM eher die ein­zelnen Schritte auch wirk­lich alle abar­beitet, außerdem kann ein sol­cher Output besser wei­ter­ver­ar­beitet werden
  • Auf­tei­lung einer Auf­gabe in Unter­auf­gaben bzw. Denk­schritte, z.B. auf­ein­an­der­fol­gende prompts für die Zusam­men­fas­sung eines Doku­ments und die recht­liche Bewer­tung, chain-of-thought-prompting

Beim promp­ting sollte man sich aller­dings auf das Nötige beschränken, da in unseren Tests zu umfang­reiche prompts die Ergeb­nisse regel­mäßig ver­schlech­tert haben.

Unsere Lear­nings aus den Eva­lu­ie­rungen unserer Bot-Prototypen

Zu guter Letzt möchten wir – zur Unter­füt­te­rung der bis­he­rigen, eher all­ge­mein gehal­tenen Erkennt­nisse – unsere Lear­nings aus den Eva­lu­ie­rungen unserer kon­kreten Pro­to­typen zu den Themen Erbrecht, Hate­speech und File­sha­ring darstellen:

Zur finalen Eva­lua­tion wurden externe Per­sonen über ver­schie­dene Kanäle (per­sön­li­ches Umfeld des For­schungs­teams, Social Media, Flyer in Würz­burger Fakul­täten und Mensen) auf die 4 von uns ent­wi­ckelten Pro­to­typen auf­merksam gemacht und gebeten, diese zu testen und zu eva­lu­ieren. Um den Ein­stieg zu erleich­tern, standen für die Erb­rechts- und den File­sha­ring-Pro­to­typen jeweils  Fall­bei­spiel-Gene­ra­toren bereit, mit denen sich fik­tive Sze­na­rien zur Nut­zung erzeugen ließen. Im Ergebnis konnten bis Ende des Pro­jekt­zeit­raums ins­ge­samt mind. 993 Test­nut­zungen und 139 Eva­lu­ie­rungen ver­zeichnet werden.

Das Feed­back zu den abge­fragten Kri­te­rien war ins­ge­samt sehr positiv, einzig im Bereich zusätz­li­cher Hil­fe­stel­lungen zeigte sich noch Ver­bes­se­rungs­be­darf, außerdem wurde die Frage, ob der jewei­lige Bot spe­zia­li­sierte Anwält*innen ersetzen kann, unein­heit­lich beant­wortet. Zu allen Pro­to­typen wurde (zum Teil sehr deut­lich) über­wie­gend bejaht, dass der Bot wei­ter­emp­fehlt werden würde.

Hier ein Über­blick über unsere Aus­wer­tung der abge­fragten Kriterien:


Die posi­tive Gesamt­be­wer­tung spie­gelt sich auch im Durch­schnitt der abge­fragten Gesamt­noten wider:

 

Bei der Eva­lua­tion konnte schließ­lich noch indi­vi­du­elles Feed­back in Frei­text­fel­dern gegeben werden (Positives/Negatives), woraus wei­tere Erkennt­nisse gewonnen wurden.

Beim Erb­rechts-Bot wurde die Clickbot-Vari­ante wegen Bedien­bar­keit und Effi­zienz bevor­zugt, wäh­rend die LLM-Vari­ante u.a. für die Mög­lich­keit von Rück­fragen und kom­plexen Ein­gaben gelobt wurde. Etwa dop­pelt so viele Nut­zende bevor­zugten unter dem Strich den Clickbot, einige aber eben auch die LLM-Vari­ante. Eine sehr wert­volle, mehr­fach geäu­ßerte Anre­gung war, beide Ansätze zu kom­bi­nieren. Wir halten das für sehr viel­ver­spre­chend, etwa in einer Aus­ge­stal­tung einer Sach­ver­halts­er­mitt­lung als geführter Dialog mit Ele­menten zum Kli­cken, par­allel dazu aber auch ein Chat, um Rück­fragen zu stellen oder kom­ple­xere Ein­gaben zu machen.

Zum Hate­speech-Bot wurde eben­falls vieles gelobt. Als kon­struk­tive Kritik wurde u.a. ange­merkt, dass lai­en­ver­ständ­li­chere For­mu­lie­rungen, mehr Hil­fe­stel­lungen und indi­vi­du­el­lere Erklä­rungen wün­schens­wert seien. Pro­bleme wurden außerdem bei spe­zi­ellen Kon­texten, etwa Ironie oder Sar­kasmus, erkannt, was die uns bereits bekannten Grenzen der Sach­ver­halts­ana­lyse durch ein LLM bestätigte.

Beim File­sha­ring-Bot wurde – neben vielen posi­tiven und bestä­ti­genden Feed­backs – eben­falls der Wunsch nach mehr Hil­fe­stel­lungen und Infor­ma­tionen sowie mehr Trans­pa­renz geäu­ßert, ins­be­son­dere hin­sicht­lich der Infor­ma­ti­ons­extrak­tion aus der Abmah­nung sowie mit Blick auf die recht­liche Aus­wer­tung und Empfehlung.

Fazit/Ausblick

Unser For­schungs­pro­jekt „Juri­skop“ ist erfolg­reich abge­schlossen. Wir nehmen unzäh­lige wert­volle Erkennt­nisse und Lear­nings mit und werden darauf auf­bauend hof­fent­lich dazu bei­tragen können, die recht­liche Bera­tung hier und da aus den ver­staubten Bespre­chungs- und Anwalts­zim­mern in die moderne Welt der Bots und LLMs (und was da noch so auf uns zukommen mag) zu führen.

Man darf gespannt sein …