ポスト

本日OpenAI はリアルタイム音声アシスタントのデモを行う予定です。実現するには何が必要でしょうか? 音声 AI のプロセス 1. 音声認識またはASR: audio -> text1  例えばWhisper 2. 次に何を言うかを計画する LLM: text1 -> text2 3. 音声合成またはTTS: text2 -> audio  例えばElevenLabsやVALL-E

メニューを開く
Jim Fan@DrJimFan

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience? Almost all voice AI go through 3 stages: 1. Speech recognition or "ASR": audio -> text1, think Whisper; 2. LLM that plans what to say next:…

二本松哲也@t_nihonmatsu

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ