ce modèle de 14B va-t-il tenir dans ma VRAM ? Pourquoi cela fonctionne-t-il à 3 tokens/sec ? J'ai construit une CLI pour arrêter de poser ces questions. 𝗟𝗟𝗠 𝗖𝗵𝗲𝗰𝗸𝗲𝗿 scanne votre GPU/CPU et évalue plus de 6 900 modèles @ollama. Vous dit ce qui fonctionne le mieux sur VOTRE machine. npm install -g ollama-checker