ポスト
本日OpenAI はリアルタイム音声アシスタントのデモを行う予定です。実現するには何が必要でしょうか? 音声 AI のプロセス 1. 音声認識またはASR: audio -> text1 例えばWhisper 2. 次に何を言うかを計画する LLM: text1 -> text2 3. 音声合成またはTTS: text2 -> audio 例えばElevenLabsやVALL-E
メニューを開くJim Fan@DrJimFan
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience? Almost all voice AI go through 3 stages: 1. Speech recognition or "ASR": audio -> text1, think Whisper; 2. LLM that plans what to say next:…