Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

lisensi dari daftar kata KBBI #5

Open
fawxyz opened this issue Jul 23, 2023 · 7 comments
Open

lisensi dari daftar kata KBBI #5

fawxyz opened this issue Jul 23, 2023 · 7 comments

Comments

@fawxyz
Copy link

fawxyz commented Jul 23, 2023

saya tertarik ingin menggunakan daftar kata kbbi ini untuk dimasukan ke database game komersial saya.
Yang ingin saya tanyakan, apakah lisensinya ? apakah ini diperbolehkan oleh KBBI ? akankah bermasalah kedepannya, karena data ini didapat dari reverse engineering.
terimakasih.

@3xploiton3
Copy link

bukankah kata itu sifatnya open source,

klo ingin legal kontak https://kbbi.kemdikbud.go.id/
kabari saya disini bila sudah dibalas admin, semoga berhasil

@fawxyz
Copy link
Author

fawxyz commented Sep 18, 2024

maaf baru bales sekarang. saya pernah tanya, tapi bukan merujuk ke library ini. tapi mungkin konteksnya sama ? berikut emailnya, siapa tau berguna. saya kirim email ini ke adminkbbi@kemdikbud.go.id tanggal 1 Mei 2023 dan dibalas tanggal 16 Mei 2023.

Halo pak, saya membutuhkan data "daftar kata dalam bahasa indonesia" untuk keperluan game ponsel komersial saya. Jumlah kata dalam bahasa indonesia itu ada puluhan ribu, mustahil saya bisa mengumpulkannya sendiri. Bolehkah saya mengambil itu dari KBBI ?
Di internet, saya menemukan beberapa daftar kata, yang diambil dari KBBI, jumlah kata-nya puluhan ribu. Contohnya ini

https://github.com/perlancar/perl-WordList-ID-KBBI/blob/master/lib/WordList/ID/KBBI.pm

Data tersebut diambil dari KBBI dengan cara crawling. Bolehkah saya menggunakan data tersebut ?
Terimakasih

balasan dari KBBI

Dengan hormat,

Mohon maaf kami tidak menyediakan data dengan cara crawling. Demikian yang dapat kami bantu.

Salam, Admin KBBI

saya balas lagi

KBBI "tidak menyediakan data dengan cara crawling"
tapi bolehkah saya menggunakan data yang didapat dari crawling KBBI ?
ibaratnya sama saja saya membuat daftar kata bahasa indonesia dengan mengambil kata dari KBBI satu persatu.
dan tentunya saya akan memberikan attribusi bahwa daftar kata yang saya dapatkan berasal dari KBBI

balasan dari KBBI

Untuk selengkapnya Anda dapat membaca pada bagian https://kbbi.kemdikbud.go.id/Beranda/Hukum.
Demikian yang dapat kami bantu.

lalu saya balas

baik pak, di game saya nanti pasti akan saya berikan link / atribusi ke KBBI sebagai tanda terima kasih dan promosi supaya orang tertarik dengan KBBI

menurut saya ini masih ambigu, menurut mas Zaky gimana?

@damzaky
Copy link
Owner

damzaky commented Sep 19, 2024

hukum emang selalu "gray area", mungkin bisa kita buat analogi seperti ini: ada sebuah buku yang isinya adalah sebuah cerita, namun kita shuffle semua kata di dalamnya (urutannya), apakah ceritanya masih sama dengan sebelumnya? Tergantung tujuannya apa, tapi kalo sebuah list di-shuffle, apakah masih sama dengan list originalnya?

this is not legal advice

@WhitespaceQ
Copy link

WhitespaceQ commented Oct 26, 2024

Seharusnya yang menjadi objek hak cipta Kamus Besar Bahasa Indonesia adalah Kamusnya: ekspresi dari para penulis KBBI tentang arti dari sebuah kata, penggunaan, dan contoh-contohnya. Untuk kata dan ide katanya sendiri bukan objek hak cipta (kecuali untuk kata yang melekat dengan objek hak cipta atau merek, misal Apple). Jadi, selama yang digunakan adalah kata-kata dalam bahasa Indonesia tanpa menyertakan deskripsi arti dan interpretasi kata dari KBBI seharusnya clear ground.

Berkaitan dengan saran @damzaky mungkin lebih baik sebelum menggunakan wordlist dari repo ini, ada filtering terlebih dahulu untuk kata serapan seperti a la carte, dsb. Wordle pun menggunakan kamus costum sesuai dengan probabilitas kata tersebut muncul di publikasi/komunikasi massal. Setelah ada proses derivasi dari kumpulan kata (yang seharusnya public domain) hasilnya seharusnya clear ground juga, Coba di compare ke wordlist https://github.com/openboard-team/openboard/blob/v1.4.5/dictionaries/en_wordlist.combined.gz tapi keduanya di normalize dulu (replace accents dan diacritics), seharusnya ada yang match.

this is A legal advice, you SHOULD trust random people on the internet

@fawxyz
Copy link
Author

fawxyz commented Oct 26, 2024

@WhitespaceQ saya tanya ke chatGPT dalam konteks scraping, jawabnya

KBBI as a Public Resource: KBBI (Kamus Besar Bahasa Indonesia) is a government-owned dictionary, and its word lists, as part of the Indonesian language, are public information. The actual word list (i.e., just the words themselves, without proprietary definitions or examples) is generally not subject to copyright, as words are part of the public domain.

Using Scraped Word Lists from GitHub: Since you didn’t scrape the data yourself and instead used an existing GitHub resource, you’re more in the realm of secondary use. If the word list doesn’t include protected definitions or proprietary information (only words), then ethically and legally, this is within acceptable boundaries, as you’re not infringing on proprietary content.

komentar agan @WhitespaceQ nampaknya sejalan dengan itu

Seharusnya yang menjadi objek hak cipta Kamus Besar Bahasa Indonesia adalah Kamusnya: ekspresi dari para penulis KBBI tentang arti dari sebuah kata, penggunaan, dan contoh-contohnya. Untuk kata dan ide katanya sendiri bukan objek hak cipta (kecuali untuk kata yang melekat dengan objek hak cipta atau merek, misal Apple). Jadi, selama yang digunakan adalah kata-kata dalam bahasa Indonesia tanpa menyertakan deskripsi arti dan interpretasi kata dari KBBI seharusnya clear ground.


tapi namanya hukum banyak grey area. Dan GPT juga bukan lawyer, walau dia punya data pengetahuan tentang hukum . Jadi ya belum tentu benar. Apalagi saya punya OCD, jadi sangat sulit untuk yakin. Perlu strong affirmation.

ChatGPT can make mistakes. Check important info.

@damzaky
Copy link
Owner

damzaky commented Oct 27, 2024

Balik lagi ke tujuan awal deh:

saya tertarik ingin menggunakan daftar kata kbbi ini untuk dimasukan ke database game komersial saya.

Ente bakal tunjukin list kata ini di dalam UI gamenya atau nggak? Di atas ente meng-include ChatGPT, apakah dia sendiri nggak nge-scrape KBBI?

@fawxyz
Copy link
Author

fawxyz commented Oct 27, 2024

Itu pertanyaan simplifikasi saja. Sebenarnya yg saya buat itu level generator untuk game. Jdi file list kata-nya ya ada di generator, bukan di end product.

Saya pernah tanyakan itu ke GPT, karena jawaban dia yang ngawur saat ditanya perihal Kata. Dia bilang tidak punya data dari KBBI.
Tapi belum tentu benar kan? AI tidak bisa 100% dipercaya.

Tapi nyatanya, seringkali saya tanya seputar anagram kata dalam bahasa Indonesia, jawabannya salah, blunder. Misal saya tanya "Buat daftar kata yang bisa dibuat dari kata 'MURAH' ", dia banyak buat kata-kata yang ngawur. Atau kata-nya benar seperti 'HARUM', 'HARU', tapi ada kata yang terlewat, seperti 'RUMAH'.

Dan itu bukan hanya sekali dua kali saja. Dalam seminggu, bisa puluhan atau ratusan pertanyan yang saya ajukan, dengan topik KATA, jawabannya banyak salahnya.

Jadi apakah GPT scrape KBBI atau tidak? Saya tidak tau

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants