Formation incluse dans l'abonnement Elephorm
Organisation des dossiers, pipelines et outils pour un Chatbot de Question-Réponse
Objectifs
Présenter les meilleures pratiques pour organiser un projet RAG Chatbot QA,
Expliquer les principales étapes de la chaîne (ingestion, indexation, retrieval, génération de réponse),
Fournir un guide concret pour la structuration des dossiers et l’intégration des principaux composants (LLM, APIs, interface utilisateur).
Résumé
Dans cette leçon, apprenez à structurer un projet de RAG Chatbot QA en respectant les meilleures pratiques d’architecture de dossiers, d'ingestion documentaire, d'indexation vectorielle et de création d’interface utilisateur.
Description
Cette vidéo explore de façon approfondie la structure type d’un projet RAG Chatbot QA, en détaillant chaque étape incontournable, de l’ingestion des données à la restitution via l’interface utilisateur. L’architecture repose sur quatre piliers : l’ingestion et le pré-traitement des documents, la génération d’embeddings pour l’indexation vectorielle, la chaîne question-réponse associant retrieval et LLM pour produire des réponses fiables, et finalement la mise en place de l’interface utilisateur (API, Webapp ou CLI).
Chaque répertoire du projet a une fonction précise : un dossier data pour les sources brutes (PDF, TXT, HTML…), un dossier samples pour les jeux de tests, ingestion (loaders, nettoyage, chunking), embedding (modèles, gestion des vecteurs), retrieval (vector search, expansion de requêtes, filtres utilisateur), LLM (clients OpenAI, Ojama, ChainBuilder avec LangChain), et enfin tout l’aspect API/UX.
L’accent est mis sur la séparation claire des responsabilités, la possibilité de faire évoluer chaque brique (intégration de nouveaux modèles, gestion avancée des droits d’accès, extension de l’API), et la fiabilité dans la production de réponses. Des outils tels que FastAPI, LangChain, et des alternatives d’indexation (base vectorielle) sont mentionnés. La leçon se termine par une ouverture sur l’implémentation concrète d’un assistant conversationnel avec historique, en vue du prochain module pratique.