Skip to content

miraecit/crawl-wsj-ts

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Crawl

구글에서 개발한 puppeteer 를 사용하여 뉴스 매체인 Wall street journal 의 내용을 크롤링 할 수 있는 학습용 예제 소스입니다.

Setup

실행환경

  • NodeJS v18 이상
  • MariaDB

MariaDB SQL

CREATE  TABLE  IF  NOT  EXISTS  `news` (
    `id`  bigint(20) NOT NULL AUTO_INCREMENT,
    `origin`  varchar(100) DEFAULT  NULL,
    `title`  varchar(800) DEFAULT  NULL,
    `content` longtext DEFAULT  NULL,
    `category`  varchar(100) DEFAULT  NULL,
    `url`  varchar(500) DEFAULT  NULL,
    `created`  varchar(100) DEFAULT  NULL,
    PRIMARY KEY (`id`)
)

Source 수정 필요

const  pool  =  mysql.createPool({
    "host":  "localhost",
    "user":  "데이터베이스 아이디",
    "password":  "데이터베이스 비밀번호",
    "database":  "데이터베이스",
    "connectionLimit":  5 // 커넥션 개수
});

Execute

# npm i 
# npm run dev
  1. 필요한 의존성 모듈을 설치합니다.
  2. 해당되는 매체의 데이터를 크롤링합니다.

About

wall street journal scraper

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published