quantization-aware-training

Star

Here are 97 public repositories matching this topic...

Language: All

Filter by language

All 97 Python 52 Jupyter Notebook 31 C++ 5 C 2 JavaScript 2

Sort: Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

intel / neural-compressor

Star 2.6k

SOTA low-bit LLM quantization (INT8/FP8/MXFP8/INT4/MXFP4/NVFP4) & sparsity; leading model compression techniques on PyTorch, TensorFlow, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Feb 20, 2026
Python

micronet, a model compression and deploy lib. compression: 1, quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference), Low-Bit(<=2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2, pruning: normal, reg...

pytorch pruning convolutional-networks quantization xnor-net tensorrt model-compression bnn neuromorphic-computing group-convolution onnx network-in-network tensorrt-int8-python dorefa twn network-slimming integer-arithmetic-only quantization-aware-training post-training-quantization batch-normalization-fuse

Updated May 6, 2025
Python

openvinotoolkit / nncf

Star 1.1k

Neural Network Compression Framework for enhanced OpenVINO(tm) inference

nlp sparsity compression deep-learning tensorflow transformers pytorch classification pruning object-detection quantization semantic-segmentation bert onnx openvino mixed-precision-training quantization-aware-training llm genai

Updated Feb 24, 2026
Python

alibaba / TinyNeuralNetwork

Star 865

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated Dec 24, 2025
Python

SpursLipu / YOLOv3v4-ModelCompression-MultidatasetTraining-Multibackbone

Star 445

YOLO ModelCompression MultidatasetTraining

yolo pruning object-detection modelcompression mobilenetv3 quantization-aware-training multidataset

Updated Jun 21, 2022
Python

fastmachinelearning / hls4ml-tutorial

Star 405

Tutorial notebooks for hls4ml

machine-learning tutorial fpga pruning quantization-aware-training hls4ml

Updated Feb 23, 2026
Jupyter Notebook

megvii-research / Sparsebit

Star 333

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

Beomi / BitNet-Transformers

Star 312

01 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

transformers quantization quantization-aware-training llm

Updated Mar 17, 2024
Python

THU-MIG / torch-model-compression

Star 255

Zhen Dui pytorchMo Xing De Zi Dong Hua Mo Xing Jie Gou Fen Xi He Xiu Gai Gong Ju Ji ,Bao Han Zi Dong Fen Xi Mo Xing Jie Gou De Mo Xing Ya Suo Suan Fa Ku