Sastrawi Sentence Detector adalah library PHP untuk melakukan deteksi kalimat.
Development | Master | Releases | Statistics |
---|---|---|---|
Indonesia menempati posisi ke-4 negara berpenduduk terbanyak di dunia. Berdasarkan sumber, pada 2013 tercatat Lebih dari 64 juta pengguna facebook berasal dari Indonesia.
Dalam aktivitas sehari-hari, pengguna internet di Indonesia menggunakan Bahasa Indonesia sebagai bahasa utama. Oleh sebab itu, para developer mulai membutuhkan bantuan software untuk melakukan analisa text dalam Bahasa Indonesia. Salah satu tahap analisa tersebut adalah sentence detection atau sentence segmentation, yaitu memecah text menjadi kalimat-kalimat, contohnya:
Saya sedang belajar NLP Bahasa Indonesia. Saya sedang melakukan segmentasi kalimat.
Text di atas terdiri dari 2 kalimat, yaitu:
- Saya sedang belajar NLP Bahasa Indonesia.
- Saya sedang melakukan segmentasi kalimat.
Masih terlihat sederhana, sampai muncul kalimat-kalimat berikut:
Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11. Kapan saya harus ke sana?
Text di atas terdiri dari 2 kalimat, yaitu:
- Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11.
- Kapan saya harus ke sana?
- Library PHP untuk melakukan sentence segmentation pada Bahasa Indonesia.
- Mudah diintegrasikan dengan framework / package lainnya.
- Mempunyai API yang sederhana dan mudah digunakan.
- Terinspirasi oleh Apache OpenNLP.
http://sastrawi.github.io/sentence-detector.html
Sastrawi Sentence Detector dapat diinstall dengan Composer.
- Buka terminal (command line) dan arahkan ke directory project Anda.
- Download Composer sehingga file
composer.phar
berada di directory tersebut. - Tambahkan Sastrawi Sentence Detector ke file
composer.json
Anda :
php composer.phar require sastrawi/sentence-detector:~1
Jika Anda masih belum memahami bagaimana cara menggunakan Composer, silahkan baca Getting Started with Composer.
Copy kode berikut di directory project anda. Lalu jalankan file tersebut.
<?php
// demo.php
// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';
// create sentence detector
$sentenceDetectorFactory = new \Sastrawi\SentenceDetector\SentenceDetectorFactory();
$sentenceDetector = $sentenceDetectorFactory->createSentenceDetector();
// detect sentence
$text = 'Saya belajar NLP Bahasa Indonesia. Saya sedang belajar melakukan segmentasi kalimat.';
$sentences = $sentenceDetector->detect($text);
foreach ($sentences as $i => $sentence) {
echo "$i : $sentence<br />\n";
}
Sastrawi Sentence Detector dirilis di bawah lisensi MIT License (MIT). Library ini memuat daftar singkatan Bahasa Indonesia dengan lisensi Creative Common BY SA yang bersumber dari http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia.