TogetterをPuppeteerでスクレイピングする
TogetetrのまとめからTweet部分だけをrawtextにして出力します。
個人利用の範囲でお楽しみください。
ニンジャスレイヤー Wiki*
で紹介されているエピソードのTogetterを縦書きリーダーで読むためにテキスト化したいです。
過去には手動のコピペを手助けするUserScriptを書いていましたが、より簡便に取得するためにpuppeteerを使った自動化を目指しました。
取得するまとめは
https://togetter.com/li/\d+
の\d+
部分を指定します。
GitHubから取得してください。
npm install khsk/togetter-to-text
yarn add khsk/togetter-to-text
(Puppeteerもインストールされるため、サイズが大きいです)
まとめタイトル
Tweetアカウント名 @アカウントID 投稿日時
Tweet内容
Tweetアカウント名 @アカウントID 投稿日時
Tweet内容
node ./node_modules/togetter-to-text/cmd.js 123 456 [...args]
引数で渡されたIDを順番に取得し、各まとめタイトル.txt
として出力します。
CLIは煩わしいという場合のために、Nuxtで構成されたWebアプリケーションを用意しました。
express.js
を実行すると、localhost:3000
にサーバーが建ちます。
input
にIDを入力すると、<pre>
として結果が出力されます。
その状態から、クリップボードへのコピーとtxtファイルとしてダウンロードが選択できます。
使いたいPCにnode環境がない場合を想定し、nowにデプロイしWebアプリケーション版を公開する方法を用意しました。
now.json
のalias
を設定したいURLに変更し、now --pubic
相当のデプロイを行ってください。
- Puppeteer
- Nuxt.js
- Bulma
- Axios
- Express