NLX - Tonkenizer

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


Índice

LX-Tokenizer

O LX-Tokenizer separa o texto em itens lexicalmente relevantes, usando o espaço em branco como delimitador. Note-se que nos exemplos abaixo, o símbolo | (barra vertical) é usado para marcar os pontos de delimitação mais claramente:
um exemplo → |um|exemplo|

Esta ferramenta expande contrações, sendo o primeiro elemento da contração marcado com _ (sublinha):
do → |de_|o|

Assinala os espaços entre pontuação ou símbolos. Os caracteres \* e */ são usados para indicar um espaço à direita ou à esquerda, respectivamente:
um, dois e três → |um|,*/|dois|e|três|
5.3 → |5|.|3|
1. 2 → |1|.*/|2|
8 . 6 → |8|\*.*/|6|

Separa pronomes clíticos dos verbos. O pronome separado é marcado com - (hífen). Quando ocorre mesóclise, a marcação -CL- é usada para marcar a posição original do clítico. Além disso, alterações na forma verbal são marcadas com # (cardinal):
dá-se-lho → |dá|-se|-lhe|-o|
afirmar-se-ia → |afirmar-CL-ia|-se|
vê-las → |vê#|-las|

Esta ferramenta também trata sequências ambíguas. São expressões que, dependendo do contexto, podem ser segmentadas de diferentes formas. Por exemplo:
deste → |deste| quando ocorre como verbo
deste → |de|este| quando ocorre como contração (Preposição + Demonstrativo)

Serviço online

Para demonstração online da ferramenta clique aqui.

Autoria

Esta ferramenta foi desenvolvida e é mantida na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

Agradecimentos

O LX-Tokenizer foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia.

Citação

Para mencionar o LX-Tokenizer, usar a seguinte referência:

Licença

Para utilizar o LX-Tokenizer tem de aceitar os termos desta licença.

Descarregamento

Pode descarregar o LX-Tokenizer aqui.

Contactos

Pode contactar-nos para o seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.

Porquê o LX-Tokenizer?

LX porque LX é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.