Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.
um exemplo → |um|exemplo|
_
(sublinha):do → |de_|o|
\*
e */
são usados para indicar
um espaço à direita ou à esquerda, respectivamente:
um, dois e três → |um|,*/|dois|e|três|
5.3 → |5|.|3|
1. 2 → |1|.*/|2|
8 . 6 → |8|\*.*/|6|
-
(hífen).
Quando ocorre mesóclise, a marcação -CL-
é usada para marcar a posição original do clítico.
Além disso, alterações na forma verbal são marcadas com #
(cardinal):
dá-se-lho → |dá|-se|-lhe|-o|
afirmar-se-ia → |afirmar-CL-ia|-se|
vê-las → |vê#|-las|
deste → |deste|
quando ocorre como verbo
deste → |de|este|
quando ocorre como contração (Preposição + Demonstrativo)
Para demonstração online da ferramenta clique aqui.
Esta ferramenta foi desenvolvida e é mantida na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.
O LX-Tokenizer foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia.
Para mencionar o LX-Tokenizer, usar a seguinte referência:
Para utilizar o LX-Tokenizer tem de aceitar os termos desta licença.
Pode descarregar o LX-Tokenizer aqui.
Pode contactar-nos para o seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.
LX porque LX é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.