抓取 Google Play Store 資料 use Selenium on Python 📝
並使用 SQLite 儲存 DB
這個專案和 Google-Play-Store-spider-bs4-excel 類似,但這專案是使用 Selenium 結合 Beautiful Soup。
之前我也介紹過 Selenium 的範例,可參考 youtube-trends-spider,
因為 Selenium 有更新加上之前是使用python 2.7,寫法上也有點不同,所以這次使用 python 3.4.3 重新簡單介紹。
- 透過 Selenium + Beautiful Soup 抓取 Google Play Store topselling_new_free 資料。
- 使用 SQLITE 儲存資料。
確定電腦有安裝 Python 之後
clone 我的簡單範例
git clone https://github.com/twtrubiks/Google-Play-Store-spider-selenium.git
接著請在 cmd (命令提示字元) 輸入以下指令
pip install -r requirements.txt
建議看一下 Selenium 官方說明。
首先,必須安裝 Selenium drivers ,請注意 作業系統 、 位元數 、 瀏覽器。
範例是使用 Firefox,需要額外將 geckodriver.exe 這個 drivers 放入路徑底下,否則執行會出現錯誤。
profile = webdriver.FirefoxProfile()
profile.accept_untrusted_certs = True
driver = webdriver.Firefox(firefox_profile=profile)
driver.get(targetURL)
如果修改成 Chrome,需要額外將 chromedriver.exe 這個 drivers 放入路徑底下,否則執行會出現錯誤。
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
driver = webdriver.Chrome(chrome_options=options)
driver.get(targetURL)
IE的部分我一直沒有測試成功,所以這裡我們暫時跳過。
以上方法是參考 how-to-deal-with-certificates-using-selenium
python app.py
執行畫面
在執行時,背景會跳出一個瀏覽器,請不要去亂點他(或關閉他),抓完資料瀏覽器會自動關閉
執行完畢後,會將資料存在 app.db 裡,可以使用 SQLiteBrowser 觀看
- Python 3.4.3
- Windows 10
MIT license