Research
Menuju Pengelompokan Kategori Kata Bahasa Indonesia yang Terstandarisasi dan Lebih Akurat
2 Jan 2021
Abstrak
Pekerjaan sebelumnya dalam penandaan bagian dari pidato (POS) bahasa Indonesia sulit untuk dibandingkan karena tidak dievaluasi pada dataset yang sama. Selain itu, meskipun peluang keberhasilan model jaringan saraf untuk penandaan POS bahasa Inggris, itu jarang dieksplorasi untuk bahasa Indonesia. Dalam makalah ini, kami mengeksplorasi berbagai teknik untuk penandaan POS bahasa Indonesia, termasuk model berbasis aturan, CRF, dan berbasis jaringan saraf. Kami mengevaluasi model kami pada Korpus Berlabel IDN. Sebuah pencapaian baru yang mutakhir dengan skor F1 97,47 dicapai dengan jaringan saraf berulang. Untuk memberikan standar untuk pekerjaan di masa depan, kami merilis pembagian dataset yang kami gunakan secara publik.

