LX - Parser - Características

NLX - Parser

Desenvolvido na Universidade de Lisboa, Departamento de Informática, pelo NLX-Grupo de Fala e Linguagem Natural.


características    |    english version

 

 

Características


Índice

LX - Parser

O LX - Parser (versão beta) é um serviço online gratuito para análise sintáctica de constituência de frases do Português. Este serviço foi desenvolvido e é mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

O LX-Parser permite a análise sintáctica automática de frases em português em termos das suas estruturas de constituintes.

Parser

O LX-Parser foi desenvolvido com base no Stanford Parser. O Parser desenvolvido pela Universidade de Stanford é um parser estatístico onde o treino é realizado com um corpus previamente anotado.

Para o treino foram utilizadas 22118 frases do CINTIL-Treebank. Este treebank está a ser desenvolvido e mantido na Universidade de Lisboa pelo NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática.

Utiliza tecnologia de processamento da linguagem natural baseada em gramáticas de probabilidade. Oferece um f-score de 89% na métrica Parseval, obtida com validação cruzada 10 vezes.

Conjunto de etiquetas

Etiqueta
Descrição
A
Adjectivo
AP
Sintagma Adjectival
ADV
Advérbio
ADVP
Sintagma Adverbial
C
Complementador
CL
Clíticos
CP
Sintagma Complementador
CARD
Cardinal
CONJ
Conjução
CONJP
Sintagma Conjuncional
D
Determinante
DEM
Demonstrativo
N
Nome
NP
Sintagma Nominal
O
Ordinais
P
Preposição
PP
Sintagma Preposicional
PPA
Particípios passados/Adjectivo
POSS
Possessivo
PRS
Pronomes Pessoais
QNT
Quantificador
REL
Relativos
S
Frase
SNS
Frase com Sujeito Nulo
V
Verbo
VP
Sintagma Verbal

Linhas guia de anotação

As análises sintácticas produzidas pelo LX-Parser são semelhantes àquelas presentes no treebank com que o LX-Parser foi treinado. Este treebank foi anotado de acordo com os princípios descritos no seguinte manual:

Branco António, João Silva, Francisco Costa, Sérgio Castro, 2011, CINTIL TreeBank Handbook: Design options for the representation of syntactic constituency. Department of Informatics, University of Lisbon, Technical Reports series, nb. di-fcul-tp-11-02.

Autoria

O LX - Parser está a ser desenvolvido por Patrícia Gonçalves e João Silva sob a coordenação de António Branco, no NLX-Grupo de Fala e Linguagem Natural, tendo sido parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia.

Contactos

Pode contactar-nos para o seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.

Agradecimentos

O LX - Parser foi parcialmente financiado pela FCT-Fundação para a Ciência e a Tecnologia, no âmbito do contrato FCT/PTDC/PLP/81157/2006 para o projecto SemanticShare.
O LX - Parser utiliza o visualizador PHPSyntaxTree e o parser estatístico da Universidade de Stanford.

Porquê o LX-Parser?

LX porque Lx é o diminutivo que os lisboetas gostam de usar para se referir à sua cidade.