llama.cpp の MTP サポートで早くなるという話を目にしたので、さっそく試してみた。開発者の人たちすごい。
https://github.com/ggml-org/llama.cpp/pull/22673
たしかに 1.8 倍くらい早くなっていた。
すごいものをありがたく使わせていただく日々が続く。