あれ2024/3/31 15:29:00 whisper-webを試してみたけど、エッジデバイスでは精度と速度が厳しさがある。サーバー側でデカいモデルを使うと精度が出るのだろう。 エッジデバイスならWebSpeechAPIの方が有利か。
『WebSpeechAPIを利用してWebブラウザで音声認識を行う』2024/3/31 15:27:00 https://zenn.dev/micronn/articles/b654ceca1bdf13