Índice
LX-Parser
O LX-Parser é um analisador sintáctico de constituência para o Português baseado numa abordagem estatística.
Serviço online
Uma demonstração online desta ferramenta pode ser vista aqui.
Autoria
O LX-Parser é desenvovido por Patricia Gonçalves e João Silva, sob a orientação de António Branco,
pelo NLX-Grupo de Fala e Linguagem Natural.
Agradecimentos
Este trabalho for parcialmente suportado pela FCT-Fundação para a Ciência e Tecnologia no âmbito do projecto
SemanticShare (FCT/PTDC/PLP/81157/2006).
Citation
Para mencionar o LX-Parser, usar a seguinte referência:
- Silva, João, António Branco, Sérgio Castro e Ruben Reis.
Out-of-the-Box Robust Parsing of Portuguese.
In Proceedings of the 9th International Conference on the Computational Processing of Portuguese (PROPOR'10), pp. 75–85.
Licença
Para usar o LX-Parser tem que aceitar a seguinte licença.
Disponibilização
O LX-Parser está disponível como uma ferramenta independente que pode descarregar para o seu computador e executar localmente.
Descarregamentos
- O ficheiro com o modelo, cintil.ser.gz
- Stanford Parser (requer Java 5). Atenção: O modelo foi criado com a versão 1.6.5 do Stanford Parser, sendo que versões mais recentes desta ferramenta parecem ser incapazes de carregar o modelo.
- LX-Tokenizer para segmentar lexemas antes da análise sintáctica.
Instruções
Exemplo da linha e comando:
java -Xmx500m -cp /path/to/stanford-parser.jar edu.stanford.nlp.parser.lexparser.LexicalizedParser -tokenized -sentences newline -outputFormat oneline -uwModel edu.stanford.nlp.parser.lexparser.BaseUnknownWordModel cintil.ser.gz input.txt
Uma explicação rápida das opções:
- Para algumas das frases mais complexas, o heap size por omissão do Java pode não ser suficiente. Aumentamos o valor máximo do heap size para 500 megabytes com a opção -Xmx500m.
- O path para o ficheiro JAR do Stanford Parser é dado através da opção -cp.
- O nome da class Java que vamos executar (LexicalizedParser).
- Os lexemas do texto dado ao analisador têm de estar segmentados (vd. LX-Tokenizer para detalhes acerca das decisões de segmentação). Isto é indicado através da opção -tokenized.
- As frase encontram-se separadas por newline. Isto é indicado através da opção -sentences newline.
- O resultado mostra uma análise por linha. NB: O analisador adiciona sempre um nó ROOT. Este pode ser removido num passo de pós-processamento.
- A classe (BaseUnknownWordModel, parte do Stanford Parser) implementa um modelo básico para lidar com palavras desconhecidas. É seleccionado através da opção -uwModel.
- Os dois últimos argumentos são o ficheiro do modelo e o ficheiro a analisar.
Web service
Disponível brevemente
Contacto
Pode contactar-nos através do seguinte endereço de correio electrónico: 'nlx' seguido de '@' seguido de 'di.fc.ul.pt'.
Porquê o LX-Parser?
LX porque LX é o diminutivo que os lisboetas gostam de usar para se referirem à sua cidade.