De forma resumida, são técnicas que vão transformar textos/palavras em números

Visão geral de PLN

Etapas necessárias para obter uma representação eficiente do texto:

  • tokenize
    • Dividir um texto (não necessariamente somente palavras)
    • Uma pontuação (vírgulas e pontos) podem ser considerados tokens
  • ssplit
    • Dividir texto em sentenças
  • pos (part of speech)
    • Classe gramatical das palavras
  • lemma
    • uma forma de converter as palavras ao seu formato original
  • ner (Reconhecimento de Entidade Nomeada)
    • identifica e categoriza entidades nomeadas em dados como cidades, pessoas, marcas, etc
  • depparse
    • identifica estrutura sintática do texto

Conceitos Básicos de PLN

Desafios em PLN

Ambiguidade de palavras

  • Apple
  • Design

Ambiguidade sintática

  • Os alunos insatisfeitos reclamaram da nota no trabalho
    • Os alunos que eram insatisfeitos reclamaram da nota?
    • Por causa da nota os alunos reclamaram?
  • A mãe pegou o filho correndo na rua
    • Quem tava correndo na rua? A mãe? O filho?

Anáfora

  • João insistiu para José comprar um computador para ele
    • quem exatamente é ele?

Pressuposição

  • Ele acabou de fumar
    • Para sempre?
    • Acabou de fumar um 🚬?

Representação de Textos

Info

A representação de textos em Processamento de Língua Natural (PLN) refere-se à transformação de linguagem humana em formas mais estruturadas e manipuláveis por computadores. Isso envolve tanto a geração de linguagem compreensível para humanos a partir de dados armazenados em bancos de dados quanto a compreensão e interpretação de linguagem humana por computadores. Os desafios incluem extrair significado da linguagem natural, fazer com que os computadores compreendam a linguagem humana e sejam capazes de gerar texto naturalmente.