Desenvolvido na Universidade de Lisboa pelo NLX/FCUL e pelo CLUL
concordanciador | intro | conteúdo | como usar | obter | english version
O CINTIL-Corpus Internacional do Português é um corpus do português anotado com informação linguística. O corpus contém actualmente 1 milhão de tokens anotados, tendo a anotação sido manualmente verificada por especialistas. A anotação inclui informação sobre a classe morfo-sintáctica, sobre o lema e a flexão das classes abertas, sobre expressões multi-palavra pertencentes à classe dos advérbios e às classes fechadas, e sobre nomes próprios multi-palavra (para o reconhecimento de entidades nomeadas).
Mais de um terço do corpus é constituído por transcrições de gravações orais, sendo que metade destas consistem em transcrições de conversas informais.
Os restante corpus é composto por materiais escritos. A maioria (58,73%) deste corpus escrito inclui artigos de jornais e revistas, tais como o Jornal Público, o Diário de Notícias, a Revista Visão, etc. O resto do corpus escrito é essencialmente constituído por textos literários.
O quadro seguinte apresenta uma descrição mais detalhada da constituição do corpus:
Written 689.124 tokens |
Jornal | 33,96% | 404.690 |
Literatura | 16,80% | 200.194 | |
Outros | 7,07% | 84.240 | |
Spoken 502.622 tokens |
Formal/Natural | 8,18% | 97.499 |
Formal/Media | 7,45% | 88.727 | |
Formal/Telefone | 4,05% | 48.284 | |
Informal/Privado | 18,26% | 217.604 | |
Informal/Público | 4,05% | 48.221 | |
Informal/Telefone | 0,19% | 2.287 | |
Total | 1,007,719 |
Essas ferramentas, que cobrem procedimentos de análise e de geração, estão listadas a seguir:
Etiqueta | Categoria | Exemplos |
---|---|---|
ADJ | Adjectivos | bom, brilhante, eficaz, … |
ADV | Advérbios | hoje, já, sim, felizmente, … |
CARD | Cardinais | zero, dez, cem, mil, … |
CJ | Conjunções | e, ou, tal como, … |
CL | Clíticos | o, lhe, se, … |
CN | Nomes comuns | computador, cidade, ideia, … |
DA | Artigos Definidos | o, os, … |
DEM | Demonstrativos | este, esses, aquele, … |
DFR | Denominadores de Fracções | meio, terço, décimo, %, … |
DGTR | Numerais Romanos | VI, LX, MMIII, MCMXCIX, … |
DGT | Numerais Árabes | 0, 1, 42, 12345, 67890, … |
DM | Marcadores Discursivos | olá, … |
EADR | Endereços Electrónicos | http://www.di.fc.ul.pt, … |
EOE | Fim de Enumeração | etc |
EXC | Exclamação | ah, ei, … |
GER | Gerúndios | sendo, afirmando, vivendo, … |
GERAUX | Gerúndio "ter"/"haver" em tempos compostos | tendo, havendo |
IA | Artigos Indefinidos | uns, umas, … |
IND | Indefinidos | tudo, alguém, ninguém, … |
INF | Infinitivo | ser, afirmar, viver, … |
INFAUX | Infinitivo "ter"/"haver" em tempos compostos | ter, haver, … |
INT | Interrogativos | quem, como, quando, … |
ITJ | Interjecções | bolas, caramba, … |
LTR | Letras | a, b, c, … |
MGT | Unidade de Medida | unidade, dezena, dúzia, resma, … |
MTH | Meses | Janeiro, Dezembro, … |
NP | Sintagmas Nominais | idem, … |
ORD | Ordinais | primeiro, centésimo, penúltimo, … |
PADR | Parte de Endereço | Rua, av., rot., … |
PNM | Parte de Nome | Lisboa, António, João, … |
PNT | Pontuação | ., ?, (, … |
POSS | Possessivos | meu, teu, seu, … |
PPA | Particípios passados que não formam tempos compostos | sido, afirmados, vivida, … |
PP | Sintagmas Preposicionais | algures, … |
PPT | Particípios passados em tempos compostos | sido, afirmado, vivido, … |
PREP | Preposições | de, para, em redor de, … |
PRS | Pronomes Pessoais | eu, tu, ele, … |
QNT | Quantificadores | todos, muitos, nenhum, … |
REL | Relativos | que, cujo, tal que, … |
STT | Títulos Sociais | Presidente, drª., prof., … |
SYB | Símbolos | @, #, &, … |
TERMN | Terminações Opcionais | (s), (as), … |
UM | "um" ou "uma" | um, uma |
UNIT | Unidade de Medida Abreviada | kg., km., … |
VAUX | Formas Finitas de "ter" ou "haver" em tempos compostos | temos, haveriam, … |
V | Verbos (sem ser PPA, PPT, INF ou GER) | falou, falaria, … |
WD | Dias da Semana | segunda, terça-feira, sábado, … |
Etiquetas para locuções | ||
LADV1…LADVn | Locuções Adverbiais | de facto, em suma, um pouco, … |
LCJ1…LCJn | Locuções Conjuncionais | assim como, já que, … |
LDEM1…LDEMn | Locuções Demonstrativas | o mesmo, … |
LDFR1…LDFRn | Locuções Denominadoras de Fracções | por cento |
LDM1…LDMn | Locuções Marcadoras Discursivas | pois não, até logo, … |
LITJ1…LITJn | Locuções Interjectivas | meu Deus |
LPRS1…LPRSn | Locuções Pronominais Pessoais | a gente, si mesmo, V. Exa., … |
LPREP1…LPREPn | Locuções Prepositivas | através de, a partir de, … |
LQD1…LQDn | Locuções Quantificadoras | uns quantos, … |
LREL1…LRELn | Locuções Pronominais Relativas | tal como, … |
Etiquetas específicas do corpus oral | ||
EMP | Enfático | |
EL | Extra-linguístico | |
PL | Para-linguístico | |
FRG | Fragmento |
Etiqueta | Descrição |
---|---|
Etiquetas para categorias nominais | |
m | Masculino |
f | Feminino |
g | Género subespecificado |
s | Singular |
p | Plural |
n | Número subespecificado |
dim | Diminutivo |
sup | Superlativo |
comp | Comparativo |
Etiquetas para verbos | |
1 | Primeira Pessoa |
2 | Segunda Pessoa |
3 | Terceira Pessoa |
pi | Presente do Indicativo |
ppi | Pretérito Perfeito do Indicativo |
ii | Pretérito Imperfeito do Indicativo |
mpi | Pretérito Mais que Perfeito do Indicativo |
fi | Futuro do Indicativo |
c | Condicional |
pc | Presente do Conjuntivo |
ic | Pretérito Imperfeito do Conjuntivo |
fc | Futuro do Conjuntivo |
imp | Imperativo |
Etiquetas para verbos no infinitivo | |
ifl | Com Flexão |
nifl | Sem Flexão |
Posição | descrição | Tipo semântico | descrição | exemplo | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
B- | início (beginning) |
|
|
|
||||||||||||||||
I- | dentro (inside) | |||||||||||||||||||
O | fora (outside) |