É o processo de dividir um texto em partes menores, chamadas tokens, de acordo com algum critério específico. Esses tokens podem ser palavras, frases, caracteres, ou qualquer outra unidade de significado.

Exemplos

Tokenização de Palavras

Um texto é dividido em tokens individuais com base nos espaços em branco.

"O gato está dormindo" 
["O", "gato", "está", "dormindo"].

Tokenização de Sentenças

Um texto é dividido em sentenças individuais com base nos pontos finais, pontos de interrogação ou pontos de exclamação

"Eu gosto de programação. Você também?"
["Eu gosto de programação.", "Você também?"]