Critique de livre : « The Book on AI Doc Review »
La thèse de ce livre est que les ordinateurs sont capables de revoir et de classer des documents mieux que les humains, ce qui est d’une grande importance dans le domaine de l’eDiscovery. Comme son titre l’indique, le livre se concentre sur la révision de documents par IA, en le contrastant avec la révision assistée par la technologie (TAR) et le codage prédictif.
Processus de révision
Alors que la révision assistée par la technologie utilise des humains pour entraîner la machine, l’IA est formée et utilise des instructions pour lui indiquer ce qu’elle doit rechercher, sans utiliser d’exemples d’entraînement. Par exemple, une instruction pourrait être : « Tous les documents où un employé suggère que le prix des widgets devrait être modifié. »
L’auteur affirme que la révision par IA peut facilement trouver plus de 95 % des documents pertinents. Les chapitres consacrés à la méthodologie « comment faire » sont parmi les plus intéressants, car le livre passe en revue une révision de pertinence étape par étape, en utilisant un échantillonnage aléatoire pour le contrôle qualité (QC) des résultats.
Métriques de validation
Pour le processus de validation, des techniques classiques, telles que la classification des vrais positifs, des vrais négatifs, des faux positifs et des faux négatifs, sont appliquées pour créer des métriques telles que le rappel et la précision. L’auteur explique la préparation d’une « clé de réponse » par un expert en la matière, utilisant un terme appelé « matrice de confusion » pour décrire le processus de calcul des métriques.
Un point crucial est la validation des résultats, qui est essentielle pour démontrer la qualité de la sortie. L’auteur discute de ce à quoi ressemble une révision par IA défendable, semblable à toute révision par codage prédictif, en soulignant l’importance de l’échantillonnage pour valider les résultats.
Exemples concrets
Le livre regorge d’exemples concrets. Par exemple, lors de la première étape, il est suggéré de retirer les documents redondants, obsolètes ou triviaux (ROT), ainsi que des fichiers audio, des images et des fichiers volumineux, en plus de procéder à une déduplication. Une méthode de « pré-validation » est également proposée, consistant à exécuter des instructions sur un échantillon aléatoire avant de les appliquer à l’ensemble des données.
Les instructions peuvent être affinées par des critères d’inclusion ou d’exclusion, comme par exemple considérer toute discussion sur les qualifications dans le cadre des embauches comme pertinente.
Conclusion
En plus d’une révision complète par IA, l’auteur propose des options telles qu’une révision linéaire assistée par IA, où des lots sont sélectionnés à l’aide de l’IA, et une révision hybride IA/CAL, dans laquelle des documents « graine » sont examinés par l’IA. La question de la confidentialité et de la sécurité est également abordée, avec des recommandations sur les questions à poser au fournisseur d’IA pour assurer la sécurité des données.