Concordanciador CINTIL online

Desenvolvido na Universidade de Lisboa pelo NLX/FCUL e pelo CLUL


concordanciador    |    intro    |    conteúdo    |    como usar    |    obter    |    english version

Conteúdo


Índice

Constituição do corpus

O CINTIL-Corpus Internacional do Português é um corpus do português anotado com informação linguística. O corpus contém actualmente 1 milhão de tokens anotados, tendo a anotação sido manualmente verificada por especialistas. A anotação inclui informação sobre a classe morfo-sintáctica, sobre o lema e a flexão das classes abertas, sobre expressões multi-palavra pertencentes à classe dos advérbios e às classes fechadas, e sobre nomes próprios multi-palavra (para o reconhecimento de entidades nomeadas).

Mais de um terço do corpus é constituído por transcrições de gravações orais, sendo que metade destas consistem em transcrições de conversas informais.

Os restante corpus é composto por materiais escritos. A maioria (58,73%) deste corpus escrito inclui artigos de jornais e revistas, tais como o Jornal Público, o Diário de Notícias, a Revista Visão, etc. O resto do corpus escrito é essencialmente constituído por textos literários.

O quadro seguinte apresenta uma descrição mais detalhada da constituição do corpus:

Constituição do Corpus CINTIL
Written
689.124
tokens
Jornal 33,96% 404.690
Literatura 16,80% 200.194
Outros 7,07% 84.240
Spoken
502.622
tokens
Formal/Natural 8,18% 97.499
Formal/Media 7,45% 88.727
Formal/Telefone 4,05% 48.284
Informal/Privado 18,26% 217.604
Informal/Público 4,05% 48.221
Informal/Telefone 0,19% 2.287
Total 1,007,719

Ferramentas associadas e serviços online

Pode ter também interesse nas ferramentas associadas ao CINTIL. Estas ferramentas geram resultados que obedecem às convenções de anotação adoptadas para o Corpus CINTIL.

Essas ferramentas, que cobrem procedimentos de análise e de geração, estão listadas a seguir:

Estas ferramentas foram reunidas em quatro conjuntos funcionalmente autónomos e disponibilizados nos seguintes serviços online:

Manual de anotação

A informação linguística anotada no CINTIL segue as regras de anotação descritas aqui. No entanto, por razões de ordem prática, o concordanciador apresenta a anotação — quando a caixa "Mostrar traços" é seleccionada — num formato ligeiramente diferente. Para mais detalhes, veja o resultado da pesquisa.

Conjunto de etiquetas

Etiquetas morfo-sintácticas

EtiquetaCategoriaExemplos
ADJAdjectivosbom, brilhante, eficaz, …
ADVAdvérbioshoje, já, sim, felizmente, …
CARDCardinaiszero, dez, cem, mil, …
CJConjunçõese, ou, tal como, …
CLClíticoso, lhe, se, …
CNNomes comunscomputador, cidade, ideia, …
DAArtigos Definidoso, os, …
DEMDemonstrativoseste, esses, aquele, …
DFRDenominadores de Fracçõesmeio, terço, décimo, %, …
DGTRNumerais RomanosVI, LX, MMIII, MCMXCIX, …
DGTNumerais Árabes0, 1, 42, 12345, 67890, …
DMMarcadores Discursivosolá, …
EADREndereços Electrónicoshttp://www.di.fc.ul.pt, …
EOEFim de Enumeraçãoetc
EXCExclamaçãoah, ei, …
GERGerúndiossendo, afirmando, vivendo, …
GERAUXGerúndio "ter"/"haver" em tempos compostostendo, havendo
IAArtigos Indefinidosuns, umas, …
INDIndefinidostudo, alguém, ninguém, …
INFInfinitivoser, afirmar, viver, …
INFAUXInfinitivo "ter"/"haver" em tempos compostoster, haver, …
INTInterrogativosquem, como, quando, …
ITJInterjecçõesbolas, caramba, …
LTRLetrasa, b, c, …
MGTUnidade de Medidaunidade, dezena, dúzia, resma, …
MTHMesesJaneiro, Dezembro, …
NPSintagmas Nominaisidem, …
ORDOrdinaisprimeiro, centésimo, penúltimo, …
PADRParte de EndereçoRua, av., rot., …
PNMParte de NomeLisboa, António, João, …
PNTPontuação., ?, (, …
POSSPossessivosmeu, teu, seu, …
PPAParticípios passados que não formam tempos compostossido, afirmados, vivida, …
PPSintagmas Preposicionaisalgures, …
PPTParticípios passados em tempos compostossido, afirmado, vivido, …
PREPPreposiçõesde, para, em redor de, …
PRSPronomes Pessoaiseu, tu, ele, …
QNTQuantificadorestodos, muitos, nenhum, …
RELRelativosque, cujo, tal que, …
STTTítulos SociaisPresidente, drª., prof., …
SYBSímbolos@, #, &, …
TERMNTerminações Opcionais(s), (as), …
UM"um" ou "uma"um, uma
UNITUnidade de Medida Abreviadakg., km., …
VAUXFormas Finitas de "ter" ou "haver" em tempos compostostemos, haveriam, …
VVerbos (sem ser PPA, PPT, INF ou GER)falou, falaria, …
WDDias da Semanasegunda, terça-feira, sábado, …
Etiquetas para locuções
LADV1…LADVnLocuções Adverbiaisde facto, em suma, um pouco, …
LCJ1…LCJnLocuções Conjuncionaisassim como, já que, …
LDEM1…LDEMnLocuções Demonstrativaso mesmo, …
LDFR1…LDFRnLocuções Denominadoras de Fracçõespor cento
LDM1…LDMnLocuções Marcadoras Discursivaspois não, até logo, …
LITJ1…LITJnLocuções Interjectivasmeu Deus
LPRS1…LPRSnLocuções Pronominais Pessoaisa gente, si mesmo, V. Exa., …
LPREP1…LPREPnLocuções Prepositivasatravés de, a partir de, …
LQD1…LQDnLocuções Quantificadorasuns quantos, …
LREL1…LRELnLocuções Pronominais Relativastal como, …
Etiquetas específicas do corpus oral
EMPEnfático
ELExtra-linguístico
PLPara-linguístico
FRGFragmento

Etiquetas de Flexão

EtiquetaDescrição
Etiquetas para categorias nominais
mMasculino
fFeminino
gGénero subespecificado
sSingular
pPlural
nNúmero subespecificado
dimDiminutivo
supSuperlativo
compComparativo
Etiquetas para verbos
1Primeira Pessoa
2Segunda Pessoa
3Terceira Pessoa
piPresente do Indicativo
ppiPretérito Perfeito do Indicativo
iiPretérito Imperfeito do Indicativo
mpiPretérito Mais que Perfeito do Indicativo
fiFuturo do Indicativo
cCondicional
pcPresente do Conjuntivo
icPretérito Imperfeito do Conjuntivo
fcFuturo do Conjuntivo
impImperativo
Etiquetas para verbos no infinitivo
iflCom Flexão
niflSem Flexão

Etiquetas de Entidades Nomeadas

PosiçãodescriçãoTipo semânticodescriçãoexemplo
B-início
(beginning)
PER
ORG
LOC
WRK
MSC
pessoa
organização
localização
obra
outros casos
...o[O] João[B-PER] Silva[I-PER] disse[O]...
...a[O] Universidade[B-ORG] de[I-ORG] Lisboa[I-ORG] comprou[O]...
...de[O] Londres[B-LOC] a[O] Paris[B-LOC]...
...a[O] Mona[B-WRK] Lisa[I-WRK] está[O]...
...o[O] RMS[B-MSC] Titanic[I-MSC] afundou[O]...
 
I-dentro
(inside)
Ofora (outside)



© Todos os direitos reservados