掲示板

Pythonでスクレイピング始めてみたい部

IMG_1038.jpeg

Pythonの勉強を始めたLEELEELEEです♪

Python初心者🔰の情報共有が出来れば良いなぁ😆と思い投稿してみました。


私の目的はPythonを使って、ヤフオクでの出品中、落札済や入金済などのステータスをスクレイピングして社内のDBに連動させる事です。

iPadで出先でも書きたいので開発環境は
"Google Colaboratory"
です。

昨日から参考書を片手に書いてある事を丸写しで実行させてます😅

<現在の困りごとは、Google Colaboratoryで書いてスクレイピングした結果を、.txt として保存するソースを走らせた時に、どこにテキストファイルが保存されているのか不明なことです。😵💫>

↑上記の< >内の困り事はコメントを下さった方々のおかげで解決しました✨(2024.06.15 22:51)

本当に初心者中の初心者🔰なので生暖かい目で見守り、時にはアドバイスしていただけると幸いです。


19 件のコメント
1 - 19 / 19
import os とやって、
os.chdir でディレクトリを指定してから保存したら?
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> p928gts さん

ありがとうございます😊
早速やってみます✨

スクリーンショット_2024-06-15_002417.png

Google Colaboratory 初めて使ってみました。
これがAIってやつか~。(^_^;)

スクリーンショット_2024-06-15_003231.png

コメントは日本語で、って注文を加えたら、ちょっと違うソースが出てきました。面白い!

>> アッカリ〜ン@_@….,….,…😅 さん

↑元ネタが共通のCM

> これがAIってやつか~。(^_^;)

これもAI あれもAI たぶんAI きっとAI

最近の私は、あちこちにこのネタを使ったコメントをしていますが、↓が先輩でした。
https://pc.watch.impress.co.jp/docs/column/config/1566001.html
というか、もはや定番ネタ!
Pythonはやっていないので全くの余談ですが、ちょっと小耳に挟んだ話です。

日本在住のアメリカ人に10代の息子と娘がいて「最近何勉強しているの?」と2人に聞いたら、息子は「MathematicsとPythonだと答えたそうです。「どうだい?」と言ったら、「Pythonは大事だが、Mathが分かっていないと意味がない」と彼は言ったそうです。
娘さんに「おまえはどうだ?」と言ったら「私はMathが嫌いだから何もしていない」と答えたそうです。

何人でも、女性は数学嫌いの人が多いのかなと思いました。

>> okitaomote さん

> Mathが分かっていないと意味がない

おそらく、その方にとっては、データ分析をするためのPythonなのでしょう。
汎用のプログラム言語としてなら、大いに意味があるのですが。
いきなり完成形を作るのではなくて、最小単位の機能に分解して開発していくと理解度が上がって良いと思います。

URL渡してレスポンス取れたらprintで中身を標準出力する機能(リクエスト成功とレスポンスが取れているか確認する)

レスポンスを解析して目的のデータのみ抽出する機能(解析がうまくいっているか確認する)

変数の中身をテキストファイルに出力する機能(想定しているところにファイル出力されているか確認する)

という具合です。

パス指定なしのファイル出力はソースのある場所か、python実行したときのカレントディレクトリだったような。
URLや出力先は別ファイルに記述して読み込んだり、繰り返しの処理はfor文にするなど工夫してやってみてください。
https://qiita.com/motoki1990/items/d06fc7559546a8471392
> パス指定なしのファイル出力はソースのある場所か、python実行したときのカレントディレクトリだったような。

確か、そうですよね。
だから、このようにコメントしました。
①自分で明示的に指定する
2024.06.15 00:19コメント
②Google Colaboratory環境の場合
2024.06.15 00:40コメントのリンク先
→「ファイルの保存と起動方法」を参照

>> p928gts さん

コメント有難うございます。私、最近になって気づいたのですが、いつの間にかPythonが基本情報処理試験のプログラミング言語に入っていたんですね。それだけ汎用性が高いということなんでしょうか。

もっとも、最近の基本情報処理試験では、そういう個別のプログラミング言語を試験に出すことをやめたみたいですが。
当該サイトへのスクレイピング行為が、当該サイトの禁止事項に含まれていないことを確認済でしょうか?

アクセス過多にはご注意を。
> 禁止事項に含まれていないことを確認
> アクセス過多にはご注意を。

利用規約の確認は必須です。特に、データ取得の前提にログインが必要なサイトで、うっかり利用規約違反をやらかすと、法的に逃げ道がなくなるリスクがあります。

import randomして、アクセスタイミングを乱数で決めて行うのは、スクレイピングの基本テクニックかと。
これは、一部の失礼クリエイターが勝手に決めた俺マナーではなく、対象先サーバーへの負荷を最小限にする「礼儀」・「お作法」です。
昔はヤフオクもAPIあったんですけどねぇ。
https://developer.yahoo.co.jp/changelog/auctions.html

Yahoo!ファイナンスはスクレイピング禁止と明示してます
https://support.yahoo-net.jp/PccFinance/s/article/H000011276
が、それ以外は書いてないような。

私はもっぱらPython+Seleniumですね。
Chromeを自動操作できるので、Javascriptとかゴリゴリ動いて動的に生成されている今のwebページも問題なし。

銀行の定期預金を1日300口作ったり、ワクチン接種の予約取ったりと、面倒な繰り返し作業は自動化しちゃいますね。
(もちろん過負荷を掛けないよう、反応を待って自動操作しています。スピード的に人間業じゃないですけど。)
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> p928gts さん

コメントにて指導して頂きありがとうございます😊

無事

>現在の困りごとは、Google Colaboratoryで書いてスクレイピングした結果を、.txt として保存するソースを走らせた時に、どこにテキストファイルが保存されているのか不明なことです。

↑が解決しました✨

本文に修正を加えます✏️
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> とみぞ さん

禁止する。との記載は発見できなかったので、大丈夫だと思ってますが、見落としがあるといけないのでもう一度よく探してみます。

アドバイスありがとうございます😊
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> p928gts さん

>一部の失礼クリエイターが勝手に決めた俺マナーではなく、対象先サーバーへの負荷を最小限にする「礼儀」・「お作法」です。

ご指導ありがとうございます♪
最低限の礼儀やお作法は守り、なんなら行儀良くしたいので、この様な発言は大変助かります☺️
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> ゆ~ちゃん84 さん

>昔はヤフオクもAPIあったんですけどねぇ。

その様ですね。今もAPIがあったら良かったのに〜。ってな感じです😅


>Yahoo!ファイナンスはスクレイピング禁止と明示してます
https://support.yahoo-net.jp/PccFinance/s/article/H000011276
が、それ以外は書いてないような。

私も同じ認識です♪
でも、見落としがあると怖いので自分でよくよく確かめてみたいと思います。
もしかして、ここに書き込む為にヤフオクにAPIが無いか?とか、スクレイピング禁止されてないか?って、ご確認していただいたのでしょうか?
だとしたら人が良過ぎますよ😊
LEELEELEE
LEELEELEEさん・投稿者
Gマスター

>> アッカリ〜ン@_@….,….,…😅 さん

>Google Colaboratory 初めて使ってみました。
これがAIってやつか~。(^_^;)


初め、何の事を言っているのか分かりませんでした😅
AIがソースコードを書いてくれる。って事だったのですね⁉️(←気づくのが遅すぎる😆)

的確な指示が出せればソースコードを書く必要がない⁉️
良い事なのか、良くないのか・・・🌀
コメントするには、ログインまたはメンバー登録(無料)が必要です。