自動更新

並べ替え:新着順

メニューを開く

アウトプットすることが1番覚える! #ノンプロ研 #Python講座

メニューを開く

そもそもHTMLの構造をわかってないからピンと来てない気がする… #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

メニューを開く

返信先:@kudou32323来週でしたか! ここややこいですよね! #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

返信先:@alice37308108そうです! なるべく全部HTMLを全部張り付けて、取得したい要素や値を聞くとだいたいこたえてくれます! #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

継続的にデータを取得できるか、サイトの変化に対応できるかどうかが、HTML解析スクレイピングの腕前となりそう。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

CSSセレクタも含めて、HTML解析でのスクレイピングはWebサイトの構造に対する深い理解が求められますね。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

講座でやるかわからないけど、スクレイピングする際にはインラインフレーム(iframe)にも注意 取得しているHTMLが異なることがあるのでiframeを切り替える必要がある。 なので取得したHTMLを確認するのが大事 #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

CSSとは、HTML要素にスタイルを指定するための言語。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

続いて、CSSセレクタでの取得方法。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

HTMLの解読はChatGPTと協力して読み解くのがやはりオススメです。 簡単なサイトだと良いのですが、複雑なものだと、自分だけで読み解くのは大変です。 #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

タグでスープの具材をさがすんですね! findは最初のタグしか見つけられないよ! #ノンプロ研 #Python講座

いわプロ@c11z3wcxZWQ8EJ9

メニューを開く

HTMLは、HTML解析スクレイピングだけでなくマークダウン記法やJavaScriptなど複合的に知識を身に付けていくとよさそうですね。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

「スープを作りますー」 プログラミングの講座で料理を教わってるみたい笑 #ノンプロ研 #Python講座

メニューを開く

soupっていうけど、 なんか初心者からすると闇鍋。 #ノンプロ研 #Python講座

いわプロ@c11z3wcxZWQ8EJ9

メニューを開く

デベロッパーツールを使って、欲しい要素のタグを調べていく。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

Chromeのデベロッパーツールを開く 「ctrl + Shift + I」またはF12 #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

メニューを開く

Python講座は毎回、時間が経つのが本当は早いです。。 #ノンプロ研 #Python講座

メニューを開く

ちなみにXは意図的にHTMLを難読化してスクレイピングを困難にしてます。 ディベロッパーツールを開いてみると要素の名前がグチャグチャになっているかなと思います。 #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

ブラウザとはHTMLドキュメントを解析・変換して Webページとして表示するソフトウェア ⇒こんな感じのHTMLをいい感じに表示してくれます #ノンプロ研 #Python講座 pic.twitter.com/Ju8VAsiAgc

メニューを開く

ChromeであればF12でひらくディベロッパーツールもスクレイピングする上でとてもお世話になります すこしづつなれていきましょう #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

importの際はbs4でインポートする。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

beautifulsoup4モジュール HTMLドキュメントを解析するためのライブラリ これもAnacondaに同梱 #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

メニューを開く

HTMLの解析を自力でやるのは大変でしたがいまは生成AIか強い味方です。 取得したHTMLを渡してあげて、取得したいものを指定すると、教えてくれます。 #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

「ctrl + U」でページのソースを開く #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

メニューを開く

リクエストの結果はJS実行前のHTMLだったりします。 取得したHTMLはログ出力か何かで一度中身を確認するのがオススメです。 #ノンプロ研 #Python講座

そういちろう@black777cat

メニューを開く

HTML解析でのスクレイピングではHTMLのタグを読むのが大変なんですよね… #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

スクレイピングの手順 1. URLにリクエストをする 2. Webサーバーからのレスポンスを受け取る 3. レスポンスから欲しいデータを取り出す 2.まで→requestsモジュール 3. → beautifulsoup4モジュール #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

メニューを開く

続いてHTML解析。 BeautifulSoupを使います。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

そうか、サイト内検索はGETリクエストをしているのか。。意識したことが無かったな。。 #ノンプロ研 #Python講座

メニューを開く

requestsにはpostメソッドもありますね。 paramsでJSONを渡してWebAPIとのやりとりもできます。 #ノンプロ研 #Python講座

hagy4nonpro@hagy4nonpro

メニューを開く

APIは中身が見えなかったけど スプレイピングは文字ばっかり。 #ノンプロ研 #Python講座

いわプロ@c11z3wcxZWQ8EJ9

メニューを開く

どのようなパラメータを渡せるかはサイトによって違うというのがドハマりポイントですね😭 #ノンプロ研 #Python講座

メニューを開く

GETリクエストでパラメータを渡すとき ⇒requests.get(url, params=payload) ⇒payloadは辞書で指定する #ノンプロ研 #Python講座 pic.twitter.com/gibf7V3WLK

メニューを開く

raise_for_status()で「リクエスト成功」以外の場合にエラーを生じさせて処理を中断できる #ノンプロ研 #Python講座

ハナ@DATA Saber@DataAbyssWalker

トレンド21:58更新

  1. 1

    エンタメ

    玉置玲央

    • 光る君へ
    • 藤原道兼
    • 道兼
    • 光る君
    • キャラクター
  2. 2

    アニメ・ゲーム

    全コース

  3. 3

    スポーツ

    宏斗

    • 髙橋宏斗
    • 昂弥
    • ライデル
    • 11奪三振
    • ライマル
    • セーフティ
    • 髙橋
    • ヤクルト
    • 9回
  4. 4

    スポーツ

    TENNN

    • レンタル移籍
    • FENNEL
    • ZETA
    • CC
    • FL
  5. 5

    古舘伊知郎

    • 謝罪しない
    • 報ステ
    • 民主党政権
    • クレームの電話
    • 日刊スポーツ
    • 安倍政権
    • 報道の自由
  6. 6

    スポーツ

    高橋宏斗

    • 髙橋宏斗
    • セーフティバント
    • ライデル
    • 最下位脱出
    • 中日ドラゴンズ
    • ドラゴンズ
    • 10奪三振
    • ヤクルト
    • 3ラン
  7. 7

    アニメ・ゲーム

    不死川兄弟

    • 時透兄弟
    • 不死川家
    • 不死川
  8. 8

    ニュース

    四塩化一黄酸

    • ヨットレース
    • リュックサック
    • そういうチーム
    • JR京都駅
    • ししおかいちおさん
    • 京都駅で不審物
    • 見つかった
    • 黄酸
    • 京都~高槻
    • 化学物質
    • 一黄酸
    • リュック
    • JR
    • 不審物
  9. 9

    紫式部

    • 実資
    • 宣孝
    • まひろ
    • ききょう
    • 源氏物語
  10. 10

    エンタメ

    詮子

    • 詮子さま
    • 内覧宣旨
    • 吉田羊
    • 一条帝
20位まで見る

人気ポスト

よく使う路線を登録すると遅延情報をお知らせ Yahoo!リアルタイム検索アプリ
Yahoo!リアルタイム検索アプリ