ポスト

今日の論文#36 Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning (18 Feb 2024) 既存のVideo-LLMsは、動画の大まかな意味は理解できるが、特定のビデオセグメントの理解や位置特定は困難でした。そこで、連続的な時間的トークン空間を用いたTemporal Perception… pic.twitter.com/vMlVaoOjB8

メニューを開く

Kento Sasaki@kento_sasaki1

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ