ポスト

LLMにとって「質の良い学習用データ」は「正しい日本語に/倫理的に絞られたデータ」ではないと思うので整理して布教したい(FineWeb曰くアダルトサイトを抜くと性能劣化するらしい)。言語能力、知識、論理能力、応答形式など、用途を満たすのに必要な軸を欠かさず含むことが大事だと思われる。

メニューを開く
Thomas Wolf@Thom_Wolf

This take on the FineWeb release is one of the most interesting feedback and also a reason FineWeb is very different from even larger datasets like RedPajama-V2 (which is double its size!) Surprisingly, the size of the dataset of 15T tokens is not very important, what is much…

いもす@imos

みんなのコメント

メニューを開く

LLMのすごさの源泉は人間が人生何周しても読めない量の情報を学習していることで、自分が人に期待する賢さ(情報整理能力や論理的思考力)はLLMにはない。一方で、途方もない量の抽象概念を獲得しその足し算(例えば英語での知識+日本語で話す能力)はできるので、そこをどう応用するかが肝だと思う。

いもす@imos

メニューを開く

教科書だけだとがつまらんのと一緒ですな。

メニューを開く

現在、私は読者向けに 【FIRE】プランを立てており、予想収益率は300%です。 詳細については、以下のリンクをクリックして追加およびご理解ください。 ライン :line.me/ti/p/c0ibmkoFri

Yahoo!リアルタイム検索アプリ