- すべて
- 画像・動画
並べ替え:新着順
OpenAIのエンジニアが、アーキテクチャやパラメータ、オプティマイザーに関係なく、時間をかけて"学習"すればデータセットの中身そのものが出力されると今更言い始めたよ... おいおい... 最初っから圧縮・復元じゃないかとつっこまれてたろうに...
"These models are truly approximating their datasets to an incredible degree" I've defended gen AI, but this stunning observation from OpenAI engineer James Betker (@neonbjb) would seem to bode poorly for the idea the tech doesn't infringe copyright on its training data.
商用不可とのことですが、 センター試験のXMLという凄いデータセットをたまたま見つけました。 有名な東京ロボプロジェクト。 21robot.org/dataset.html GPTとか出る前に、「第三次AIブームを総括」した感のある本で、一読の価値があります。
>ここ20年近く、「海賊版の音楽はNG」「WinnyのゲームDLで業界が貧乏になる」「動画 共有サイトの違法動画は視聴 NG」「漫画村の漫画を読むと漫画家が生活出来なくなる」と いう風潮で過ごしてきた日本ですが、ここで突然「AIのデータセットが海賊版であっても、… pic.twitter.com/9i7rqL0Dih
>個人の顔写真のAI学習を認めることは肖像権の侵害、暴力的描写、児童ポルノ等への使用 を許可することになり危険かと思います。 そもそも人間の顔データのデータセットって見たことがある? 頭から顔の輪郭がごっそり取られたのっぺらぼうのものと、顔のパーツの配置のみのデータセットしかないから。… pic.twitter.com/ZjmJYS06B3
あたかもデータセットがガラス箱の中の機械のデモンストレーションを記述しているかのようです。 。まず片側が観客に向けられ、次に反対側が観客に向けられ、歯車が回転し、とんでもないことが起こるのが見えるかもしれない。
データセットの内容が隠匿されてるので当該著作物の享受の内容は不明なので生成AIは合法!なんで普通に誰が聞いても屁理屈だと思うしその屁理屈がいつまでも強弁できる程無断学習生成AIって社会に利益をもたらしてますか?って話よな、 無断学習生成AIみたいな害悪犯罪ツールが滅ぼされるのは道理、
前に絡んできた生成AI推進派が何か享受ガーって屁理屈捏ねてたけどやっぱり屁理屈じゃん、学習データセットの内容が隠匿されてるので享受の証明ができないから非享受で合法なんて屁理屈でしかないし、 そうやって有耶無耶のままは誰も得しないから第三者機関の監査による開示義務でFAじゃん?
"Home Credit - Credit Risk Model Stability"のコードコンペに取り組むことにした🫡 しかし、データセットが26.77 GBもあって、Googleドライブの容量がすぐにいっぱいになりそうなので追加ストレージ(200GB)を課金する😅 pic.twitter.com/d9UVfuOknQ
返信先:@_jane_does圧縮・復元だというなら2バイトでイラスト1枚を保存できる技術を見つけてから言ってくださいね。 SDのデータセットが10GB、これに58億枚保存できるわけ無いだろ。
返信先:@thunder_battery例えば、画像生成AIでしたらLAION-5Bのデータセット開示が一般的ですが、データセット開示だけではなく、具体的な画像を保管して開示する義務ができたのでしょうか? EUの法律は根幹が日本とは異なる考え方があり疎くてすみません。
Meta社のLlama 3 8Bおよび70B FMが、バージニア北部とオレゴンのBedrockで利用できるようになりました! Llama 2と比べ7倍のトレーニングデータセット、4倍のコード量、2倍のコンテキストを含み、ユースケースに応じてパラメータ数の異なる2モデルを選択できます。 #しむそく aws.amazon.com/about-aws/what…
スマホは本当にGenAIのゲーム氾濫してる。 ちなみに、今日steamでもイラストレーターの作品のみのデータセットを使用しています!と表示しているゲームがあった... 実写モデルマージだろうなあれは...
依拠性についてはAIの出力でも手描き二次創作でも「見てたらアウト」なんだよなぁ ただどうなるか気になるのは、データセットに含まれているので「データ上は依拠している」と言えそうだけど、利用者が「見たことがない作品」だったときよね 「見たことがない」場合は選別のしようがないだろうし
各モデルについて話題にするとき、あなたはモデルではなく、データセットに言及しているのだ。 モデルのパフォーマンスは、データセットの概算に収束する。 と言うこの発言は、ビッグテックが伝家の宝刀にする『フェアユース理論』=『機能性の模倣であるから正当だ』と真っ向から対立するが、果たして
>RP これをやらせる前にデータセットの開示義務付けの法律は必要だとは思うのですが。自分も本当、ご本人たちの作品と承諾済の作品だけ食べさせてるなら全然やってくださいという気持ち。だって多分色々なものが混ざってるところに、自分たちのデータいれました!これは問題ないものです!くらいの→
LLMを使った開発をしている人から1番聞きたかった話が書かれている。 LLMプロダクト開発における独自評価基準とデータセットの作り方の考察 zenn.dev/seya/articles/…
返信先:@blinkjp_gameGO HubのポケモンGO バイオーム:完全ガイドはもう読まれましたか? 引用「バイオームは地球規模の生態系に関する USGS の公式データセットに基づいている」そうですよ?!世界には色んな地図があるものですね🧐 世界の陸生生態系がうんぬんかんぬん……だめ難しくて無理😇 usgs.gov/centers/geosci…
Trainers, our complete guide to Pokémon GO Biomes is here! See a complete list of Biomes, where the data is coming from, and what to expect form this feature moving forward! pokemongohub.net/post/guide/bio…
仮にクリーンなデータセットで作った場合、いくら実写に近くても国内の児ポの定義には当たらないって逃げ道もあるにはあったんだろうけど。まあ今主流のエンジンやモデルはそうじゃないのでこの話はここでおしまいなんだよって感じ。
絵柄の模倣は0から生み出してる場合のみ著作権には引っかからないけど、生成系AIはデータセット内の画像にラベリングして検索結果の複数の画像を混ぜてるので、二次加工に値するうえ、データセットから画像を引っ張ってくるソースコードになってるから依拠性が本来認められなければならないんだが、
song おちゃめ機能 / LamazeP Alone / HAKASE K aka kimpaksa キャラクター原案/発音収録/管理者 litmus* @litmus_music 音声提供(RVCモデル製作用データセット提供) Myoya @myoya_v イラスト みたう @mztm_usg… pic.twitter.com/b44osZrJ9Y
「100%近似で出力される」のであって「時間をかけて"学習"すればデータセットの中身そのものが出力される」とも「圧縮・復元である」とも書かれてない 馬鹿は理解できるところだけをつまんで都合よく物語を生成するの典型
OpenAIのエンジニアが、アーキテクチャやパラメータ、オプティマイザーに関係なく、時間をかけて"学習"すればデータセットの中身そのものが出力されると今更言い始めたよ... おいおい... 最初っから圧縮・復元じゃないかとつっこまれてたろうに...
CVSportsというコンピュータビジョンの国際会議CVPRのワークショップに3本の論文が採択されました! 1つ目はすでに筆頭のD2 @AtomJamesScott さんがお知らせしたように、サッカー、バスケ、ハンドボールの400万以上のBounding boxのついたデータセットを公開しています! atomscott.github.io/TeamTrack/
【HODACHI/Llama3-70B-ja】 Phi-3が出たのでどうしようか悩んでましたが、Llama-3-70Bの日本語再学習モデル続けてます。 ようやくデータセットのクリーニングが終わって、Eval用の日本語データも準備できたので、Trainかけてます。… pic.twitter.com/USfXPk3Tcj
【HODACHI/Llama3-70B-ja】頑張って作ってます! Phi-3が出たのでどうしようか悩んでましたが、ようやくデータセットのクリーニングが終わって、Eval用の日本語データも準備できたので、Trainかけてます。… pic.twitter.com/FeBZypqJ6q