Tokenization adalah proses memecah kalimat menjadi token-token, contoh:
Ini kalimat pertama. Ini kalimat kedua.
akan dipecah menjadi: