Concept
Talk2Me est une petite application Python amusante que j'ai écrite à titre expérimental. Elle transforme l'interaction homme-machine en une expérience conversationnelle naturelle et fluide en français.
Mon programme combine plusieurs technologies open-source pour créer un
assistant vocal interactif capable de comprendre, traiter et répondre
vocalement à l'aide d'un LLM hébergé localement.
Fonctionnement
Capture audio
Le programme utilise la bibliothèque `sounddevice` pour enregistrer l'audio. L'utilisateur démarre et arrête l'enregistrement manuellement, permettant une interaction contrôlée.
Transcription vocale
Grâce à la bibliothèque `speech_recognition`, l'audio capturé est converti en texte. Le service Google Speech Recognition permet une transcription précise en français.
Traitement de la requête
Un modèle de langage local (LLM) via Ollama (dans cet exemple, Llama3 3B) traite la transcription. Le modèle génère une réponse concise et adaptée à la question posée.
Réponse vocale
La bibliothèque `gTTS` (Google Text-to-Speech) convertit la réponse textuelle en audio, qui est ensuite lu via `pygame.mixer`.
Technologies utilisées
- Python
- Ollama (LLM local)
- SpeechRecognition
- Google Text-to-Speech
- Pygame
Conclusion
Talk2Me représente une étape fascinante vers des interactions vocales plus naturelles et accessibles avec l'intelligence artificielle.
Commentaires