t_wの輪郭

あれ

ONNX

2021/9/8 3:30:00
ONNX RuntimeONNX Runtime GenAIsherpa-onnx-node『[Rust] ortでonnxモデルを使って推論したりWASMにしたりしてみる | DevelopersIO』あれ

あれ

2023/12/2 15:24:00

500MBあるBERTをONNXに変換した後に量子化したら110MBほどになってLambdaで動かせるようになった。
Githubに乗せるファイルは100MB以下でないとだめなので、ダメ押しでgzipで圧縮したら75MBになった。

python3 -m transformers.onnx --model=sentence-transformers/paraphrase-multilingual-mpnet-base-v2 onnx/ --opset=18

optimum-cli onnxruntime quantize --onnx_model ./onnx --output onnx_quantize/ --arm64