Inference & Model Compression

WIP deep-learning deep-learning inference quantization pruning distillation 1 min read

Latency, throughput, quantization, pruning, and distillation