Desenvolvido na
Universidade de Lisboa
pelo
NLX/FCUL
e pelo
CLUL
concordanciador
|
intro
|
conteúdo
|
como usar
|
obter
|
english version
Como usar
Índice
Referência rápida
Resumo da sintaxe de pesquisa
Pesquisa simples |
uma palavra devolve as suas ocorrências |
|
Modificadores de pesquisa |
/i | pesquisa insensível às minúsculas/maiúsculas |
/x | pesquisa de sub-sequências |
|
Expressões para caracteres |
. | qualquer carácter único |
[ ] | um dos caracteres de um conjunto |
[^ ] | nenhum dos caracteres de um conjunto |
|
|
Operadores de repetição |
? | opcional |
* | zero ou mais vezes |
+ | uma ou mais vezes |
{n} | exactamente n vezes |
{n,} | n ou mais vezes |
{,n} | até n vezes |
{m,n} | de m a n vezes |
|
|
Expressões combinadas |
e1e2 | e1 seguido de e2 |
| | alternância |
( ) | junção |
|
Pesquisa pela anotação |
[keyword=expressão] |
[keyword!=expressão] |
[key1=exp1 & key2=exp2] |
[key1=exp1 | key2=exp2] |
|
|
As expressões regulares devem estar entre aspas. |
As contracções são codificadas como duas formas, sendo a primeira concatenada com um traço inferior (underscore). |
|
Resumo das etiquetas
Campo |
Keyword |
Valores |
Forma ortográfica |
orth |
qualquer |
Etiqueta morfo-sintáctica |
pos |
quadro completo |
Traços de flexão |
gender |
f, m, g |
number |
s, p, n |
degree |
dim, sup, comp |
person |
1, 2, 3 |
time |
quadro completo |
inflection |
ifl, nifl
|
Lema |
base |
qualquer |
Entidade nomeada |
iob |
quadro completo |
Metadados |
source |
writtennews
writtenfiction
writtenother
spoken |
Resultado da pesquisa
O concordanciador CINTIL online permite extrair do corpus contextos
em que ocorrem as expressões pesquisadas.
A expressão pesquisada é inserida
numa caixa de texto e os contextos são apresentados abaixo dessa caixa.
Quando a caixa "Mostrar traços" é seleccionada, o concordanciador mostra também a anotação linguística.
Para cada instância, esta anotação é mostrada entre parêntesis rectos, com ':' a separar cada campo de informação.
Por exemplo, a anotação para o nome comum gatas será mostrada assim:
ocorrência anotada | → |
gatas |
[ | gato | : | cn | : | f | : | p | : | O | ] |
keywords | → |
orth |
| base | | pos | | gender | | number | | IOB | |
Cabe notar que esta anotação é mostrada num formato ligeiramente diferente do formato usado
no corpus que é distribuído. Para uma descrição deste último, ver aqui.
Por razões técnicas, para cada ocorrência, o contexto devolvido tem um máximo de 10 formas.
Igualmente por razões técnicas, não são apresentados
todos os contextos em que ocorre a expressão pesquisada no corpus. A ordem de
apresentação dos contextos não corresponde à ordem de ocorrência
consecutiva no corpus.
Os resultados do concordanciador CINTIL online podem continuar a ser usados como
referência em trabalhos de investigação, uma vez que pesquisas idênticas terão
sempre resultados idênticos.
Nos casos em que seja necessário ter acesso à totalidade dos contextos, o
utilizador poderá adquirir uma cópia do corpus
e correr localmente, sobre essa cópia, um concordanciador da sua preferência.
Interface
O interface do concordanciador online é de uso simples e transparente.
Os botões "Alinhar" permitem ordenar alfabeticamente os contextos visíveis.
O botão da direita ordena os contextos de acordo com as palavras à direita da
expressão pesquisada.
O botão da esquerda ordena os contextos de acordo com as palavras à esquerda da
expressão pesquisada, da direita para a esquerda.
O exemplo seguinte ilustra a aplicação da opção de ordenação sobre os resultados
da pesquisa da palavra carro (com um contexto de duas palavras à esquerda
e uma palavra à direita):
sem ordenação |
...guiar um | carro | novo... |
...ir de | carro | para... |
...levar o | carro | até... |
|
ordenação à direita |
...levar o | carro | até... |
...guiar um | carro | novo... |
...ir de | carro | para... |
|
ordenação à esquerda |
...ir de | carro | para... |
...levar o | carro | até... |
...guiar um | carro | novo... |
|
Pesquisa de formas ortográficas
- Maiúsculas e minúsculas
- A pesquisa é sensível às maiúsculas e minúsculas. Para uma pesquisa que
ignora este aspecto, acrescentar /i no final da forma ortográfica:
- ao pesquisar gato, obtêm-se ocorrências de gato
- ao pesquisar gato/i, obtêm-se ocorrências de gato, Gato,
GATO, etc.
- Inclusão de formas maiores nos resultados
- A pesquisa apenas dá como resultado formas exactamente iguais à pesquisada.
Por exemplo, a pesquisa de gato
não dará resultados em que gato é parte de uma palavra, pelo que não são apresentados
contextos de regato ou
obrigatoriamente.
Para permitir que a pesquisa inclua casos em que a expressão é uma parte de palavra,
é necessário acrescentar /x após a forma ortográfica pesquisada (que
pode ser combinada com a opção /i mencionada acima).
Por exemplo:
- gato apenas dá contextos da palavra gato
- gato/x dá contextos de qualquer expressão que contenha a sequência
gato, como obrigatoriamente
- gato/xi dá os mesmos resultados do que a pesquisa anterior,
mas não distinguindo maiúsculas e minúsculas
- Contracções
- No Corpus CINTIL, as contracções (por exemplo, daquela, aos, nas)
são desdobradas e codificadas como duas unidades, em que a primeira é
imediatamente seguida de um símbolo de traço inferior "_" (underscore) (por exemplo,
de_ aquela, a_ os, em_ as).
Pesquisa de padrões regulares
É possível fazer pesquisas no corpus através da utilização de expressões
regulares, desde que colocadas entre aspas. O concordanciador CINTIL segue
os símbolos usuais estabelecidos para este tipo de pesquisa:
- Alternância
- Pesquisas alternativas são marcadas com uma barra vertical: |
- "gato|peixe" dá como resultado todas as ocorrências de gato
e todas as ocorrências de peixe
- Conjuntos de caracteres
- Um conjunto de caracteres entre parênteses rectos dá como resultado ocorrências de
qualquer um desses caracteres:
- "gat[ao]" dá como resultado ocorrências de gata e de
gato
- "[pg]at[ao]" dá como resultado ocorrências de gata,
gato, pata e pato
Um conjunto pode ser negado inserindo o símbolo ^ (acento circunflexo) imediatamente
a seguir ao primeiro parêntese.
- "[^abcd][efg]" dá como resultado ocorrências de dois caracteres,
em que o primeiro não é a, b, c ou d e em que o segundo
é e, f ou g
- Ponto
- O "." (ponto final) equivale a qualquer ocorrência de um só carácter
(letra,dígito ou símbolo):
- "gat.s" irá dar como resultado ocorrências de
gatas, gatbs, gatcs, gat1s, etc.
- Opcionalidade
- O "?" (ponto de interrogação) permite assinalar a opcionalidade de
qualquer carácter ou expressão que o precede:
- "gatos?" dá como resultado gato e gatos.
- Iteração
- Há três formas diferentes de expressar a iteração. O operador *
(asterisco) faz com que o carácter ou expressão que o precede seja realizado
zero ou mais vezes:
- "gat.*" dá como resultado qualquer palavra que começa por gat,
incluindo a própria forma gat
- ".*gato.*" dá como resultado qualquer palavra que contém a sequência
gato (esta pesquisa é equivalente a gato/x)
O operador + (mais) é semelhante, mas requer que haja pelo menos uma
ocorrência do carácter ou expressão que o precede:
- "gat.+" dá como resultado qualquer palavra que começa por gat mas
excluindo gat
Finalmente, {l,u} permite que o número de iterações esteja limitado por
um valor mínimo (l) e um valor máximo
(u). No entanto, qualquer um dos valores, mínimo ou máximo, pode ser
omitido. Nestes casos, {l,} equivale a "pelo menos l vezes", {,u}
equivale a "máximo de u vezes" e {n} equivale a "exactamente
n vezes":
- "gat.{2,4}" dá como resultado palavras que começam por gat e
que têm entre 2 e 4 caracteres adicionais
- "[^aer]{5,}" dá como resultado palavras sem a, e ou
r, que têm 5 ou mais caracteres.
- Agrupamento
- Os parêntesis são usados para agrupar expressões. Os operadores descritos
acima podem assim aplicar-se ao conjunto da expressão entre parêntesis como
se fosse um único carácter:
- "gat(inh)?o" dá como resultado gato e gatinho
(i.e. a sequência inh a seguir ao t é opcional)
- "ga(to)*" equivale a ga, gato, gatoto,
gatototo, etc. (i.e. to pode ocorrer zero ou mais vezes)
Qualquer uma destas expressões pode também ser modificada por
/i e /x, descritos acima.
Por exemplo:
- "ga.*"/i equivale a palavras que começam por ga,
Ga, gA or GA
- "(ra){2}"/x equivale a palavras que contêm duas ocorrências
consecutivas de ra (como rara, mostraram, etc.)
Pesquisar informação linguística
Cada forma está associada a informação linguística, expressos
através de etiquetas de anotação.
Cada etiqueta consiste num campo (field) e seu valor (value) ([field=value]).
Por exemplo, [gender=m], [time=pi], etc.
Cada campo (field) é instanciado por uma palavra-chave (keyword).
Os valores podem ser pesquisados com qualquer um dos
métodos acima indicados:
- [field=pattern] é o formato para esse tipo de pesquisas.
Os pares Field-pattern podem ser combinados entre si através do uso de operadores
lógicos:
& ("e" comercial) para conjunção e | (barra vertical)
para disjunção:
- [field=pattern & field=pattern]
- [field=pattern | field=pattern]
Além disso, o símbolo de negação ! (ponto de exclamação) permite
pesquisar formas cujo valor do campo não está de acordo com o padrão estipulado:
- [!field=pattern] é um dos formatos possíveis para
expressar essa negação
- [field!=pattern] é equivalente à pesquisa imediatamente
anterior.
Forma ortográfica (novamente)
A própria forma ortográfica pode ser pesquisada através da keyword orth:
- [orth=gato] procura formas com a forma ortográfica gato.
Os resultados são idênticos aos da pesquisa simples por gato. A opção por
este tipo de pesquisa pode ser útil quando se combina orth com outros
campos (ver alguns exemplos mais abaixo)
- [orth="gat.*" & orth!=gato] devolve formas que começam por gat
mas que não são gato
Categorias morfo-sintácticas
A pesquisa de uma palavra com determinada categoria morfo-sintáctica
é feita através da keyword pos (part-of-speech):
- [pos=cn] encontra formas com a etiqueta POS cn: nome comum
(common noun)
- [pos=cn & orth="ga.*"] devolve formas que são nomes comuns e que
começam por ga
- [pos="d.*"] acha formas que têm qualquer etiqueta POS
desde que começada por d
- [pos!=pnt] encontra formas que não são pontuação (etiqueta pnt)
Lista de etiquetas morfo-sintácticas (POS).
Flexão nominal
As keywords género e número têm, respectivamente, os valores
f (feminino) ou m (masculino), e os valores s (singular)
ou p (plural).
Estes valores permitem pesquisar ocorrências com valores de flexão específicos:
- [gender=f] pesquisa todos as formas com flexão do género feminino
- [number=s & orth=".*s"] pesquisa todos as formas com flexão de número
singular e que acabam com a letra s
- [gender!=m] pesquisa todos as formas que não têm flexão de género
masculino. O resultado desta pesquisa abrange palavras que não têm sequer flexão
de género, como as preposições, a pontuação, os símbolos, etc.
Alguns tokens possuem anotação de grau, acessível através da keyword degree:
- [degree=dim] pesquisa todas as formas com o grau diminutivo
Flexão verbal
Para pesquisar formas de acordo com os seus traços de flexão verbal, devem usar-se
as keywords person (pessoa), time (tempo) e number
(número):
- [person="1"] pesquisa formas na primeira pessoa
- [time="ppi"] pesquisa formas no Pretérito Perfeito do Indicativo
- [person="3" & number="s" & time="fc"] pesquisa todas as formas de
terceira pessoa singular do Futuro do Conjuntivo
- [person!="1"] pesquisa formas que não têm flexão de primeira pessoa.
Os resultados também incluem formas em relação aos quais não se aplica a flexão
de pessoa, como no caso das preposições, da pontuação, dos símbolos, etc.
Lista das etiquetas
de flexão verbal.
Infinitivos podem ocorrer flexionados ou não flexionados. Para pesquisar esta informação deve usar-se a keyword inflection.
Lema
Para pesquisar palavras pelo seu lema, deve usar-se a keyword base:
- [base=rato] pesquisa formas que têm rato como lema, tais
como rato, ratos ou ratinho, etc.
- [pos=cn & base=".*s"] pesquisa nomes comuns cujo lema acaba em s
- [orth=foi & pos=v & base!=ir] pesquisa ocorrências da forma verbal
foi que não pertencem ao lema ir
Entidade nomeada
Para pesquisar formas que sejam parte de uma expressão que nomeia uma entidade, deve usar-se a keyword iob:
- [iob=B-LOC] pesquisa tokens que estejam no início (B-) de uma expressão que nomeia uma entidade com o tipo semântico "localização" (LOC).
- [iob=I-PER] pesquisa tokens que estejam dentro (I-) de uma expressão que nomeia uma entidade do tipo "pessoa" (PER).
Lista das etiquetas para entidade nomeadas.
Metadados
É possível usar metadados para restringir a pesquisa a um tipo específico de
texto através do comando meta:
- gato meta source=writtennews pesquisa a forma gato apenas nos documentos noticiosos (writtennews) do corpus
- gato meta source="written.*" pesquisa a forma gato apenas na porção escrita do corpus (writtennews, writtenfiction e writtenother)
Pode consultar aqui a lista dos campos e valores de
metadados.
Pesquisa avançada
Através da combinação das diferentes opções de pesquisa descritas acima, é
possível construir pesquisas avançadas como as que são de seguida exemplificadas:
- situação[pos=adj] pesquisa ocorrências da forma
situação seguida de adjectivo
- [pos=da][pos=cn] pesquisa ocorrências de formas com a categoria
morfo-sintáctica artigo definido
seguidas de um nome comum
- [pos=da][pos=adj]?[pos=cn] é semelhante à pesquisa anterior, mas
permite a ocorrência opcional de um adjectivo (indicado pela etiqueta adj
e pelo operador de opcionalidade "?") entre o artigo definido e o nome comum
- [pos="cn|adj"]{3,} dá como resultado sequências que tenham pelo
menos 3 adjectivos e nomes comuns consecutivos (em qualquer uma das ordens possíveis)
- [pos=da][pos!=cn]{2,3}[pos=adj] dá como resultado sequências com
um artigo definido seguido por 2 ou 3 formas que não sejam nomes comuns,
seguidas por um adjectivo
- ... etc.
Alinhar os resultados
É possível dividir o resultado de uma pesquisa em duas colunas para tornar
os dados mais legíveis, usando o símbolo ^ (acento circunflexo):
- [pos=da][pos!=cn]{2}^[pos=adj] pesquisa sequências com artigo definido
seguido de duas formas que não sejam nomes comuns, seguidas de adjectivo. O artigo
definido e as duas formas seguintes serão apresentados numa coluna, enquanto o adjectivo
final será mostrado noutra coluna.
© Todos os direitos reservados