Note: "Quantize" un modèle d'IA

Supprimer Rendre public Rendre privé Add tags Delete tags

1650 shaares
146 liens privés

1650 shaares · 146 liens privés

Filtres

Liens par page

20 50 100

Note: "Quantize" un modèle d'IA

Pour améliorer les performance, il faut "quantizer" un modèle.
J'ai encore pas trop de vision de ce que ça fait, mais en gros ça compresse le modèle et ça permet de l'utiliser en consommant moins de RAM et surtout c'est (beaucoup) plus rapide !
Dans llama.cpp on a des commandes pour convertir les modèles une première fois (les script "convert".
Mais il y a aussi une commande quantize (ou quantize.exe sous windows) qui permet de faire la deuxième étape....et ça va beaucoup plus vite.
.\quantize.exe ....\llama\llama-2-7b-chat\ggml-model-f16.bin --allow-requantizing 2

Accessoirement, comme ça consomme moins de RAM, cela permet également de jouer des modèles plus performants.

July 27, 2023 at 12:25:55 AM GMT+2 * · permalien

/shaare/Bia3Xg

Filtres

Liens par page

20 50 100