ポスト

“With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network.” 中間表現としてのテキストを経由していないので、音声の細かいニュアンスも伝播するというデモだったのね

メニューを開く
Yahoo!リアルタイム検索アプリ