Quotidien Shaarli
July 27, 2023
CUPS backend for the Canon BJNP network printers. Contribute to bitwiseworks/cups-bjnp-os2 development by creating an account on GitHub.
Pour améliorer les performance, il faut "quantizer" un modèle.
J'ai encore pas trop de vision de ce que ça fait, mais en gros ça compresse le modèle et ça permet de l'utiliser en consommant moins de RAM et surtout c'est (beaucoup) plus rapide !
Dans llama.cpp on a des commandes pour convertir les modèles une première fois (les script "convert".
Mais il y a aussi une commande quantize (ou quantize.exe sous windows) qui permet de faire la deuxième étape....et ça va beaucoup plus vite.
.\quantize.exe ....\llama\llama-2-7b-chat\ggml-model-f16.bin --allow-requantizing 2
Accessoirement, comme ça consomme moins de RAM, cela permet également de jouer des modèles plus performants.