Buchbesprechung: „Das Buch über KI-Dokumentenprüfung“
Die These des Buches besagt, dass „Computer in der Lage sind, Dokumente besser zu überprüfen und zu klassifizieren als Menschen. Und das ist ein großes Thema in der eDiscovery.“ Wie der Titel schon andeutet, konzentriert sich das Buch auf die KI-Dokumentenprüfung und vergleicht sie mit technologiegestützter Überprüfung (TAR) und prädiktiver Kodierung.
Technologiegestützte Überprüfung vs. KI
Während die technologiegestützte Überprüfung Menschen einsetzt, um die Maschine zu trainieren, wird KI trainiert und verwendet Eingabeaufforderungen, um ihr zu sagen, wonach sie suchen soll. Sie verwendet keine „Trainingsbeispiele“. Der Autor bietet ein Beispiel für eine Anweisung:
„Alle Dokumente, in denen ein Mitarbeiter von Acme vorschlägt, dass die Preisgestaltung für Widgets geändert werden sollte.“ Diese Anweisungen ähneln einer Produktionsanforderung, was genau dem entspricht.
Effizienz der KI-Überprüfung
Der Autor stellt fest, dass „KI-gestützte Überprüfungen… leicht über 95 % der relevanten Dokumente finden können.“ Die „Wie man“-Kapitel sind besonders interessant, da das Buch eine Relevanzüberprüfung Schritt für Schritt durchläuft, wobei zufällige Stichproben zur Qualitätskontrolle (QC) der Ergebnisse verwendet werden.
Validierungsprozess
Als Validierungsprozess folgt der Autor dem bewährten Verfahren zur Klassifizierung von echten Positiven, echten Negativen, falschen Positiven und falschen Negativen, um Kennzahlen wie Rückruf und Präzision zu erstellen. Diese Techniken wurden lange Zeit beispielsweise bei Stichwortsuchen eingesetzt und werden nun auf KI angewendet. Die einfachen Formeln lauten:
Rückruf = TP / (TP + FN)
Präzision = TP / (TP + FP)
Der Autor beschreibt die Erstellung eines „Antwortschlüssels“ durch einen Fachexperten. Er verwendet den Begriff „Verwirrungsmatrix“ für den Prozess der Berechnung von Kennzahlen mit diesem Schlüssel. Standardtechniken, wie das Sampling des „Wegwerf-Papiers“, werden angewendet, um iterative Abfragen zu verbessern.
Wichtigkeit der Validierung
Der Autor betont: „Das Einzige, was zählt, ist, wie Sie die Ergebnisse validieren und qualitativ hochwertige Ausgaben demonstrieren.“ Obwohl die Validierung nicht die „einzige“ Sache ist, die zählt, kann ihre Bedeutung nicht genug betont werden. Ein defensibler KI-Review sieht ähnlich aus wie jede prädiktive Kodierungsüberprüfung. Der allgemeine Prozess für prädiktive Kodierung ist mittlerweile recht klar:
- Identifizieren Sie das Überprüfungset.
- Trainieren Sie die Maschine.
- Lassen Sie die Dokumente durch den Klassifizierer laufen.
- Bewerten Sie die Ergebnisse.
Es ist mit KI nicht anders.
Praktische Beispiele
Das Buch bietet viele konkrete Beispiele. Zum Beispiel wird vorgeschlagen, ROT (redundant, obsolete oder trivial), Dokumente ohne extrahierten Text, Audio-Dateien, Bilder und große Dateien zu entfernen sowie Duplikate zu beseitigen. Dies ist der klassische Ansatz zur Dokumentenprüfung.
Der Autor schlägt auch eine „Vorvalidierung“ vor. Dies besteht darin, Eingabeaufforderungen gegen eine zufällige Stichprobe zu testen, bevor sie gegen den gesamten Datensatz ausgeführt werden. Ein Fachexperte überprüft die „Treffer“, um Rückruf und Präzision zu bestimmen. Dies bietet eine Benchmark, die dem entspricht, was oft als „Reichtum“ bezeichnet wird. Die Vorvalidierung wird als kostensparende Maßnahme empfohlen.
Verfeinerung von Eingabeaufforderungen
Ein weiteres wichtiges Thema ist, dass Eingabeaufforderungen durch Ein- oder Ausschlusskriterien verfeinert werden können. Ein Beispiel für ein Einschlusskriterium ist, dass „jede Diskussion über Qualifikationen bei der Einstellung als relevant erachtet werden sollte.“ Ausschlusskriterien könnten besagen: „Jede Diskussion über die Einstellung von jemandem, der nicht Trainer oder Management ist, sollte als nicht relevant betrachtet werden.“
Optionen für die KI-Überprüfung
Der Autor diskutiert die vollständige KI-Überprüfung, schlägt jedoch auch Optionen wie „KI-gestützte lineare Überprüfung“ vor, bei der Chargen mithilfe von KI ausgewählt werden, und die KI/CAL-Hybridüberprüfung, bei der Ausgangsdokumente von KI überprüft werden.
Vertraulichkeit und Sicherheit
In Bezug auf Vertraulichkeit und Sicherheit wird betont: „Wenn Sie für ein Produkt nicht bezahlen, sind Sie das Produkt.“ Der Autor bietet Fragen an, die man dem KI-Anbieter stellen sollte, um die Sicherheit zu gewährleisten.
Fazit
Das Buch bietet umfassende Einblicke in die Möglichkeiten der KI-Dokumentenprüfung und wie diese Technologien effektiv implementiert werden können, um die Effizienz und Genauigkeit in der Dokumentenüberprüfung zu verbessern.