ポスト

東工大のグループが、最大規模の日本語言語データセットを開発。Common Crawlから抽出・クリーニングした日本語テキストで、規模は文字数でCC-100データセットの10倍以上。 Building a Large Japanese Web Corpus for Large Language Models arxiv.org/pdf/2404.17733

メニューを開く

野田 光明@Mitsuaki_Noda

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ