Recursos Linguísticos

No decorrer das nossas atividades de investigação e como instrumentos para a execu¸ão dos nossos projetos, desenvolvemos ou encontramo-nos a desenvolver o seguinte conjunto de recursos linguísticos:


LX-DSemVectors

Modelo de semântica distribucional para o Português (também conhecidos em inglês por "word embeddings").

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.

Outras versões disponíveis através do github


LX-4WAnalogies

Conjunto de dados de teste obtido a partir de analogias baseadas em quatro palavras, para testar modelos de semântica distribucional para o Português (também conhecidos em inglês por "word embeddings").

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


TimeBankPT

Corpus em português anotado com expressões temporais, de acordo com a convenção TimeML. Inclui não só anotações de expressões temporais mas também anotações de eventos e de relações temporais. Este corpus é o resultado da tradução e adaptação para o Português do corpus em inglês usado no primeiro desafio TempEval.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


DeepBankPT

Banco de dados com representações gramaticais profundas de frases alinhadas com o Penn treebank em Inglês: corpus de frases em português anotadas com as suas representações gramaticais exaustivas, segundo uma gramática HPSG. O corpus anotado resulta da tradução para o Português do corpus WSJ em inglês.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


LogicalFormBankPT

Banco de dados com representações em forma lógica de frases alinhadas com o Penn treebank do Inglês: corpus de frases em português anotadas com uma representação lógica do seu significado. O corpus anotado resulta da tradução para o Português do corpus WSJ em inglês.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


DependencyBankPT

Banco de dados com as dependências gramaticais de frases em português, que estão alinhadas com o Penn treebank do Inglês: trata-se de um corpus de frases em português anotadas com representações de dependências gramaticais, em que os arcos de dependência se encontram decorados com informação relativa às funções gramaticais e ao papel semântico. O corpus anotado resulta da tradução para o Português do corpus WSJ em inglês.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


PropBankPT

PropBank de frase do Português que estão alinhadas com frase do Penn treebank do Inglês: no corpus de frases em português, as frases encontram-se associadas às suas árvores sintáticas, as quais contêm informação relativa às funções gramaticais e ao papel semântico. O corpus anotado resulta da tradução para o Português do corpus WSJ em inglês.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


TreebankPT

Treebank de frase do Português alinhado com fraes do Penn treebank do Inglês: é um corpus onde as frases em português se enocntram anotadas com a representação da sua cosntituência sintática em árvore. O corpus anotado resulta da tradução para o Português do corpus WSJ em inglês.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-QATreeBank

Corpus de frases interrogativas e imperativas em Português. Este Treebank inclui frases declarativas provenientes do CINTIL-Treebank cuja estrutura sintática foi alterada manualmente para se obter frases não declarativas, obtendo-se frases interrogativas e imperativas.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-Definitions

Corpus de definições em Português. Trata-se de um conjunto de corpora anotados morfossintaticamente, do qual se partiu e que contem uma camada de informação adicional onde se encontram anotadas as definições.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-DeepBank

Banco de dados com representações de dependências gramaticais: corpus de frases em português anotadas com representações gramaticais exaustivas, numa gramática HPSG.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-LogicalFormBank

Banco de dados com representações em forma lógica: corpus de frases em português anotadas com uma representação lógica do seu significado.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-DependencyBank

Banco de dependências gramaticais do Português: trata-se de um corpus de frases em português anotadas com representações de dependências gramaticais, em que os arcos de dependência contêm informação relativa às funções gramaticais e ao papel semântico.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-DependencyBank PREMIUM

Banco de dependências gramaticais do Português: trata-se de um corpus de frases em português anotadas com representações de dependências gramaticais, em que os arcos de dependência contêm informação relativa às funções gramaticais e ao papel semântico.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-PropBank

PropBank do Português: neste corpus de frases em português, as frases encontram-se associadas às suas árvores sintéticas que contêm informação relativa às funções gramaticais e ao papel semântico.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-Treebank

Treebank do Português: corpus onde as frases em português se encontram anotadas com a representação da sua constituência sintática em árvore.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-WordSenses

O corpus CINTIL alargado através da anotação de palavras com o identificador de conceitos (synsets) que essas palavras expressam. Os identificaores de conceitos pertencem à MWNPT-International Wordnet of Portuguese.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-NamedEntities

O corpus CINTIL alargado através da desambiguação manual de expressões de nomeação de entidades com a ligação das mesmas à página apropriada da DBpedia Portuguesa.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL-Corpus Internacional do Português

Corpus português de alta qualidade, interpretado linguisticamente e anotado manualmente com precisão, com um milhão de tokens associados a informação relativa a categorias morfossintáticas, flexão e expressões de nomeação de entidades. Foi desenvolvido e é mantido em colaboração com o CLUL-Centro de Linguística da Universidade de Lisboa.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


CINTIL Concordancer

Serviço online gratuito de extração de concordâncias para a pesquisa linguística do Corpus CINTIL. Foi desenvolvido e é mantido em colaboração com o CLUL-Centro de Linguística da Universidade de Lisboa.


CINTIL TagSet

Conjunto exaustivo de etiquetas para categorias morfossintáticas para o Português, incluindo cobertura para as produções orais. Este é o conjunto de etiquetas utilizado para a anotação do corpus CINTIL.

Pode encontrá-lo aqui.


CINTIL Annotation Manual

Manual com instruções para a anotação do corpus CINTIL.

Pode encontrá-lo aqui.


LX-VerbalInflections

Conjunto de formas verbais flexionadas dos verbos do Português associadas à respetiva informação sobre flexão.


LX-Abbreviations

Conjunto de abreviaturas do Português de diferentes tipos. Cada tipo de abreviatura está manualmente dividida e anotada com categorias gramaticais, género, número, e a respetiva expressão completa.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


LX-StopWords

Lista de palavras do Português composta por 2631 palavras de 51 tipos. As palavras estão organizadas em três grande grupos, de acordo com a sua categoria morfossintática e a sua flexão. Esses três grupos são os seguintes: palavras de classe fechada, palavras de classe aberta, expressões multipalavra.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


MWNPT-International WordNet of Portuguese

WordNet do Português, desenvolvida em colaboração com o projeto MultiWordnet da FBK-Fundação Bruno Kessler, de Trento, em Itália.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


QTLeap WSD/NED Multilingual Parallel Corpora

Os QTLeap Multilingual Parallel Corpora foram alargados através da desambiguação automática de expressões de nomeação de entidades (named entities) e anotados com as ligações dessas entidades para a página da DBpedia apropriada; e através da anotação automática de palavras com o identificador de conceitos (synsets) que essas palavras expressam. Os identificaores de conceitos pertencem às wordnets das várias línguas.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


QTLeap Multilingual Parallel Corpora

Conjunto de questões e respetivas respostas que foram registadas num serviço de chat utilizado para apoiar a solução de problemas do domínio das Tecnologias de Informação e Comunicação. Este conjunto de dados encontra-se traduzido nas seguintes línguas: Português, Inglês, Alemão, Espanhol, Basco, Holandês, Búlgaro e Checo.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.


Nexing Corpus

Corpus com transcrições de protocolos de raciocínio silogístico.

Este recurso encontra-se disponível a partir da infraestrutura PORTULAN CLARIN. Pode encontrá-lo aqui.