Skip to content

shgeng1216/Google-Play-Store-spider-selenium

 
 

Repository files navigation

Google-Play-Store-spider-selenium

抓取 Google Play Store 資料 use Selenium on Python 📝

並使用 SQLite 儲存 DB

這個專案和 Google-Play-Store-spider-bs4-excel 類似,但這專案是使用 Selenium 結合 Beautiful Soup

之前我也介紹過 Selenium 的範例,可參考 youtube-trends-spider

因為 Selenium 有更新加上之前是使用python 2.7,寫法上也有點不同,所以這次使用 python 3.4.3 重新簡單介紹。

特色

安裝套件

確定電腦有安裝 Python 之後

clone 我的簡單範例

git clone https://github.com/twtrubiks/Google-Play-Store-spider-selenium.git

接著請在 cmd (命令提示字元) 輸入以下指令

pip install -r requirements.txt

使用 Selenium

建議看一下 Selenium 官方說明。

首先,必須安裝 Selenium drivers ,請注意 作業系統位元數瀏覽器

範例是使用 Firefox,需要額外將 geckodriver.exe 這個 drivers 放入路徑底下,否則執行會出現錯誤。

profile = webdriver.FirefoxProfile()
profile.accept_untrusted_certs = True
driver = webdriver.Firefox(firefox_profile=profile)
driver.get(targetURL)

如果修改成 Chrome,需要額外將 chromedriver.exe 這個 drivers 放入路徑底下,否則執行會出現錯誤。

options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
driver = webdriver.Chrome(chrome_options=options)
driver.get(targetURL)

IE的部分我一直沒有測試成功,所以這裡我們暫時跳過。

以上方法是參考 how-to-deal-with-certificates-using-selenium

使用方法 以及 執行畫面

python app.py

執行畫面

alt tag

在執行時,背景會跳出一個瀏覽器,請不要去亂點他(或關閉他),抓完資料瀏覽器會自動關閉

alt tag

alt tag

alt tag

執行完畢後,會將資料存在 app.db 裡,可以使用 SQLiteBrowser 觀看

alt tag

執行環境

  • Python 3.4.3
  • Windows 10

Reference

License

MIT license

About

Google-Play-Store-spider use Selenium +Beautiful Soup on Python

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%