- すべて
- 画像・動画
並べ替え:新着順
よりにもよってXから逃げる先がログインしなくても検索使えるブルスカなのが… 最低限、認証しないとコンテンツ見れなかったり、noindex付けてたり検索系クローラ拒否してるとかの性質は備えてないと移動する意味ないとしか思えん。 x.com/ataifanip/stat…
エンジニアから言わせるとAI学習の情報収得は主にスクレイピングなので、使われたく無いなら、1番効果的なのはブルスカに避難することじゃなくて、ポイピクとかプライベッターとかでワンクッション挟むことやでと言っておきたい
robot.txtやmetaタグ(noindexやnofollow)を礼儀正しく解釈してくれる相手ならある程度有効だけど、商用でさえ、中国のbとか中国のbとか「はぁ?なにそれ美味しいの?」みたいな筋の悪いクローラは居るし、そもそも無断学習目的で来るやつなんて礼儀もクソもあったもんじゃないだろうし。
<meta name='robots' content='index, follow,〜 というコードがあるのにSearch Consoleで 「noindex タグによって除外されました」 となるのは何故?
生成AIの学習が嫌な人は、noindex、disallow、nofollow あたり入れるとGoogleのクローラーも弾けるよ。違いは調べてね x.com/Crab_Kingdoms/…
個人ホームページ時代に回帰すると予想し2年前からWordPressを2サイト運営してます Retro & Horror Games brambling.net/wp/ レトロゲームやフリゲのレビュー 和風フリーホラー【花鶏】計画 freegame.brambling.net ゲーム制作と料理写真 また相互リンクとかやりたいですね
割とマジに「noindex,nofollowの設定をしたレンタルサーバ」とか「何かしらの有償パトロンサイトの中だけ」とか「Discordの中だけ」とかに閉じこもる勢が増えてきそうな気はする。絵師界隈は特に<『そんなにAIに「盗まれ」たくなければGoogleも弾け』
うちの個人サイトワードプレス製の部分あるんでアプデの度ユーザーパスでの入場制限設定解除するのが面倒で残りの対策打ってるけど絵以上にコピペで盗みやすいからにゃあ文章… noindex諸々で検索エンジン避けのおまじないして少しでも見つからないように運営してるのでただの倉庫…
ただしこれはクローラー設定を拒否して言うことを聞いてくれる所しか効果ないので、根本的な解決にはならないと考えて使った方が良さそう 例えばrobots.txt、noindex、.htaccessやreCAPTCHA Enterprise、Cloudflare CDNなどのIPアドレスごと拒否出来ないクローラーとか、手動で学習される可能性など
返信先:@tomatonoe「METAで合っているハズ……!」と思いながらも念の為に調べたらめちゃくちゃ長いやつ出てきました😂 <meta name="robots" content="noindex,noarchive,nofollow,noimageindex"> ↑このタグ使うと画像検索にも引っかからなくなるらしいので、個人サイト作る時の為に記録として残しておきます😶🌫️
Misskey の場合、noai という meta タグを付与できるらしい。ただ、提案者も言っている通り、「一部の人が提唱しているだけで特に標準化提案もされていない」フラグを認識するクローラーって存在するのかな。素直に noindex をつけた方が……? github.com/misskey-dev/mi… pic.x.com/u461Zq9RF1
Mastodon の場合は、ユーザごとに「検索エンジンによるインデックスを拒否する」という設定があって選択できる。要は meta タグに noindex をつけるやつだろうから、実質的にこれで機械学習目的のクローラーも拒否できる、はず。 pic.x.com/ThPVx3MPNG
misskey.io は、少なくとも robots.txt ではクローラーの巡回を全く拒否していない。metaタグの noindex もなさそう。 misskey.io/robots.txt
個人サイトでクローラ弾けば大丈夫!と思ってるのなら、それは過信だよっていいたくなるな。 robots.txt にしても noindex にしても、意を汲んでくれるのは『善意の』ソフトウェア・ユーザーであって、ぶっこ抜いてやろうっていう『悪意の』ものが準拠するとは思えん。 ※いちプログラマ個人の感想です
.htaccess使うと、特定拡張子のファイル……つまり画像ファイルそのものに対しても、X-Robots-Tagヘッダで noindex を指定出来る。 Header add X-Robots-Tag noindex とかってやればよかった筈。 まあ、設定間違えるとアレだし、そもそも鯖契約してないと弄れないけどな。
多分今のこの時代、クリエイターが生成AIから自衛するための最強の手段は個人サイト 他者に頼るな!!己の身は己で守れ!! noindexを記載してGoogleAIを跳ね除けろ! robots.txtでシールドを張れ!! 大個人サイト時代の幕開けだ!!
<html> <head> <meta name="robots" content="noindex,noarchive,nofollow,noimageindex"> <title>オンラインブックマーク禁止</title> </head> <body> <BR><BR> <center> <font size="3">†ヨウコソ迷エル魂†<BR><BR>キリ番踏逃げ禁止</font> </center> </body> </html> の時代まで戻るの?
個人サイトがさいつよだろうね。私はGoogle検索にインデックス登録してあるし(ただしnoindexページもある、サイト内コンテンツを適宜振り分け)、いろんなBOTの足跡が残ってるよ。AIサービスが自サイトに来た形跡もわかる。パスワード制限なりすればもちろんAI系BOT巡回は防げるよ
返信先:@Chacomi1016これ私もよくなります😅私もサチコに関してまだ知識ないもんだから戸惑いますよね🥲 noindexタグはプライバシーポリシーとかじゃない限り敢えてnoindexタグを付けないので、何かしら問題があるのかもしれませんね🤔
できないと思うけど支部投稿時に投稿者が自分でnoindexにするかどうか決められたらいいのにな 一次創作絵師さんとかは検索に出した方がいいもん あとはBOOTH用のデータベース構築するとか…また無理だけど 奴らオタクのことバカな金蔓だと思ってるから絶対してくれないよ
canonical効いていない問題は中規模DB型越境ECサイトでも散見されます。厄介なのは、言語毎にページがあるので重複コンテンツが言語数分存在していることになります。(アノテーションタグも入れていても…) 中川さんの言う通り、ページを統合するならリダイレクトかnoindex入れた方が良いですね! x.com/ny__marketing/…
canonicalは絶対ではない 重複ページにcanonicalを設定しておけば100%大丈夫という安心はNG。 ページを確実に統合廃止するならリダイレクトorNoindexを入れましょう。 canonical設定で意図した動作、結果にならないケースはあるので、まずは現状をチェックしましょう。
先月の自分のツイート見たら、9月中に完成できるかな?とか言ってて、無理に決まってる。 やることがまだまだある。 10月中も危うい。 とりあえず10月中にnoindex でサーバーに上げて、広告や説明部分を後から追加してindexする感じかな。