모든 비속어/욕설 판별기의 대한 성능을 비교합니다. Compare the performance of all profanity/cursive discriminator.
- korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋 (10,000문장)
- Curse-detection-data: 각종 커뮤니티 사이트의 댓글의 욕설 여부를 분류한 한글 데이터셋 (5,825문장)
- kmhas_korean_hate_speech: 온라인 뉴스의 댓글를 8가지로 세분화하여 분류한 데이터셋 (78,978문장)
- Korean Extremist Website Womad Hate Speech Data: 한국 극단주의 웹사이트의 데이터를 분류한 데이터셋 (2,081문장)
- LGBT-targeted HateSpeech Comments Dataset (Korean): 네이버 뉴스 성소수자 관련 댓글을 분류한 데이터셋 (8,837문장)
- korean-hate-chat-data: korcen으로 분류한 korcen-ml의 학습 파일 중 일부(3,000,000문장, 랜덤 10,000문장만 사용)
- korean-hate-speech: 한국 연예 뉴스 수집 플랫폼의 댓글(9,381문장)
- korean_unsmile_dataset: Smilegate AI에서 공개하는 한국어 혐오표현 "
☹️ UnSmile" 데이터셋입니다. (18,742문장)
PYHTON
- korcen: 키워드 기반 비속어 판단 모듈
- korcen-ml: korcen으로 분류한 데이터를 학습한 딥러닝 기반 비속어 판별 모델
- badword_check: 입력한 글(한글)이 욕설인지 아닌지를 딥러닝을 통해 판별하는 모델
- CurseDetector: 한글 유사도와 한글 발음 유사도를 이용한 욕설/비속어/금지어 필터링
C
JAVA
JAVASCRIPT
- Cenkor: 손쉬운 비속어 검열(korcen 데이터셋 이용)
TYPESCRIPT
- korcen.ts: 기존 korcen을 typescript로 작성한 NPM모듈
DART
- korean_profanity_filter: 정규식을 기반
etc....
데이터와 결과가 일치한 개수 / 전체 데이터 개수
korean-malicious-comments-dataset | Curse-detection-data | kmhas_korean_hate_speech | Korean Extremist Website Womad Hate Speech Data | LGBT-targeted HateSpeech Comments Dataset (Korean) | korean-hate-chat-data | korean-hate-speech | korean_unsmile_dataset | 평균 처리 속도 | |
---|---|---|---|---|---|---|---|---|---|
korcen | 0.7121 | 0.8415 | 0.6773 | 0.6305 | 0.4479 | 0.9857 | 0.5534 | 9ms | |
korcen-ml | 0.8395 | 0.8432 | 0.8851 | 0.7155 | 0.7020 | 0.9941 | 0.7824 | 40ms | |
badword_check | 0.5829 | 0.6761 | 0.6410 | 0.4738 | 0.7980 | 0.4913 | 43ms | ||
CurseDetector | 0.5679 | 0.5785 | 0.6657 | 267ms | |||||
BadWordFiltering | |||||||||
Cenkor | 0.8317 | 0.6275 | 0.2ms | ||||||
korcen.ts | |||||||||
korean_profanity_filter |
i7-11800H @ 2.30GHz 32GB 3200MHZ RTX 3060 Laptop