É o processo de dividir um texto em partes menores, chamadas tokens, de acordo com algum critério específico. Esses tokens podem ser palavras, frases, caracteres, ou qualquer outra unidade de significado.
Exemplos
Tokenização de Palavras
Um texto é dividido em tokens individuais com base nos espaços em branco.
"O gato está dormindo"
["O", "gato", "está", "dormindo"].
Tokenização de Sentenças
Um texto é dividido em sentenças individuais com base nos pontos finais, pontos de interrogação ou pontos de exclamação
"Eu gosto de programação. Você também?"
["Eu gosto de programação.", "Você também?"]