C'est quoi un LLM ?
Un LLM (Large Language Model) est un modèle informatique avancé qui a été entraîné pour comprendre et manipuler le langage humain.En termes simples, c'est comme un programme informatique qui apprend à parler, lire et écrire dans différentes langues.
Il fait cela en analysant d'énormes quantités de textes provenant de diverses sources, comme des livres, des articles et des sites Web.
Grâce à cet apprentissage, il devient capable de répondre à des questions, de rédiger des textes et même de mener des conversations avec les utilisateurs. Un exemple de LLM est ChatGPT, qui est basé sur l'architecture GPT-4 d'OpenAI.
Comment utiliser un LLM avec mes données ?
Comment augmenter au mieux les LLM avec nos propres données privées ?
Un paradigme qui a émergé est l'apprentissage contextuel (l'autre est le finetuning), où nous insérons le contexte dans l'invite d'entrée.
De cette manière, nous profitons des capacités de raisonnement du LLM pour générer une réponse.
Vous trouverez rapidement des exemples sur le web de code Python permettant de faire cela. Malheureusement, ceux-ci sont rapidement obsolètes, après quelques semaines seulement. En effet, les API de OpenAI évoluent très rapidement.
Je vais donc m'efforcer de mettre à jour cet exemple fonctionnel régulièrement afin qu'il continue toujours à être utilisable. Attention, il vous faudra impérativement un compte payant pour pouvoir utiliser le modèle GPT-4.
Quelles librairies Python utiliser ?
- openai: fournit un accès pratique à l’API OpenAI depuis des applications écrites en Python1.
- gpt_index: est une bibliothèque Python pour la création d’index de textes basée sur GPT-2.
- PyPDF2: est une bibliothèque Python pour travailler avec des fichiers PDF.
- gradio: est une bibliothèque Python pour créer des interfaces utilisateur personnalisées pour les modèles de machine learning.
Dans le répertoire docs, j'ai ajouté une dizaine de documents PDF qui serviront à constituer mon corpus de base. Chaque document est composé d'un titre sous forme de question et d'une réponse.
L'interface utilisateur
Le code source chat.py
Le fichier openai.key.txt doit contenir votre clé d'accès obtenue sur le site OpenAI API
Commentaires