1634 shaares
145 liens privés
145 liens privés
Pour améliorer les performance, il faut "quantizer" un modèle.
J'ai encore pas trop de vision de ce que ça fait, mais en gros ça compresse le modèle et ça permet de l'utiliser en consommant moins de RAM et surtout c'est (beaucoup) plus rapide !
Dans llama.cpp on a des commandes pour convertir les modèles une première fois (les script "convert".
Mais il y a aussi une commande quantize (ou quantize.exe sous windows) qui permet de faire la deuxième étape....et ça va beaucoup plus vite.
.\quantize.exe ....\llama\llama-2-7b-chat\ggml-model-f16.bin --allow-requantizing 2
Accessoirement, comme ça consomme moins de RAM, cela permet également de jouer des modèles plus performants.