Sao Carlos STIL 2009
September 8-11, 2009
São Carlos/SP, Brazil

Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo

TIL


The 7th Brazilian Symposium in Information and Human Language Technology
 

Olimpíada Brasileira de Linguística Computacional (OLinCom)

Brazilian Olympiad on Computational Linguistics

 

9 de Setembro de 2009

 

Prefácio | Comitês | Artigos

 

Prefácio

 

A I Olimpíada Brasileira de Linguística Computacional (I OLinCom) é uma competição científica vinculada ao Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2009).

 

A I OLinCom destinou-se, em especial, aos graduandos dos cursos de Letras, Linguística, Ciências da Computação, Engenharia da Computação, Informática e Ciência da Informação. Alunos de pós-graduação também participaram, mas não concorreram à premiação.

 

Fazem parte dos objetivos da I OLinCom: despertar e estimular o interesse pela Linguística Computacional (LC) e pela Ciência em geral, promover a difusão de conhecimentos básicos sobre LC de forma lúdica e identificar os grandes talentos e vocações em Linguística Computacional de forma a instruir e estimular esses talentos a seguir carreiras nessa área.

 

A I OLinCom englobou dois tipos de competição, denominadas trilhas. A realização de tais competições antecedeu ao STIL 2009 e os interessados puderam participar de ambas.

 

De cunho computacional, a Trilha 1 caracterizou-se por ser uma atividade não presencial, ou seja, realizada à distância, e em equipes (de 1 até 3 membros).

 

Em linhas gerais, para a realização dessa trilha, o Comitê Organizador da olimpíada disponibilizou, em data que precedeu ao STIL 2009, um conjunto de perguntas e um conjunto de documentos. Diante desse material, a tarefa dos participantes foi o desenvolvimento de um sistema que respondesse automaticamente às perguntas dadas. As respostas e o sistema (código-fonte e executável) de cada equipe foram enviados à Comissão Organizadora, que avaliou todo o material com base em um conjunto de critérios bem delimitado. Ao final da avaliação, os sistemas submetidos à Trilha 1 foram classificados em função da exatidão das respostas.

 

Especificamente, a Trilha 1 englobou 8 etapas:

 

a) Registro na Trilha 1: inscrição dos participantes na I OLinCom (Trilha 1) por meio do preenchimento do formulário disponível na página do evento (www.nilc.icmc.usp.br/~arianidf/olincom/registro.html) e envio do mesmo à Comissão Organizadora;

 

b) Disponibilização de dados (de saída e entrada) ilustrativos: disponibilização, por parte do Comitê de Organização, de uma pequena coleção de dados de entrada (ou seja, coleção de documentos e de perguntas) e de saída (ou seja, coleção de respostas) para treinamento e design dos sistemas; os dados foram disponibilizados na página do evento (http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha1.html);

 

c) Disponibilização dos dados para avaliação/ teste dos sistemas: disponibilização, por parte do Comitê de Organização, da coleção de documentos e do conjunto de perguntas; os dados disponibilizados nesta fase foram distintos dos dados ilustrativos e foram utilizados para avaliar os sistemas submetidos ao evento; assim como os dados ilustrativos, os dados para teste foram disponibilizados na página da OLinCom (os dados foram disponibilizados na página do evento (http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha1.html));

 

d) Submissão eletrônica dos resultados (sistema e respostas): envio eletrônico, ao Comitê de Organização, do sistema de perguntas e respostas (arquivo executável e código fonte) e do conjunto de respostas;

 

e) Avaliação das respostas e dos sistemas: análise, por parte da Comissão de Organização, das respostas e dos sistemas submetidos ao evento; todo sistema foi executado e verificado cuidadosamente; além disso, com base em um conjunto de critérios (cf. 1.1.6), as respostas obtidas pelos sistemas foram pontuadas;

 

f) Envio eletrônico das avaliações: envio eletrônico da avaliação completa das respostas aos participantes; os participantes receberam apenas a avaliação de suas próprias respostas;

 

g) Divulgação dos resultados: divulgação da classificação final dos sistemas na página da I OLinCom;

 

h) Submissão eletrônica do artigo: envio, pelos participantes que obtiveram as maiores pontuações na trilha, de um artigo de até 5 páginas para a Comissão de Organização; tais artigos estão relacionados no final deste documento.

 

Para a inscrição na I OLinCom, foram disponibilizados na página do evento dois formulários de registro, um para cada trilha.

 

Para a o preenchimento do formulário da Trilha 1 (Quadro 1), os participantes seguiram as seguintes instruções:

 

a) Um time ou equipe pode ser formado por apenas um participante (participação individual) ou por vários (participação em grupo; no máximo, três participantes);

 

b) O nome do time deve ser preenchido no caso de participação individual ou em grupo;

 

c) No caso de participação em grupo, os dados para contato devem ser os do “líder” da equipe;

 

d) No caso de participação em grupo, o perfil do participante deve ser o do “líder” da equipe;

 

e) Se houver membros de um grupo com perfis diferentes de o do “líder”, tais perfis têm de ser especificados no campo “Observações – Quanto aos participantes” seguindo a classificação feita no campo “Perfil do participante”; por exemplo: Participante 2: Graduação sem iniciação científica (IC) em LC; etc.

 

 

Identificação

Nome do time:

 

Nome dos membros da equipe:

 

 

Dados para contato (líder/ participante 1)

Nome:

 

Endereço:

 

Telefone:

 

E-mail:

 

Instituição de origem:

 

 

Perfil do participante (líder/ participante 1)

Experiência em Linguística Computacional (LC)

(   ) Graduação com iniciação científica (IC) em LC

(   ) Graduação sem IC em LC

(   ) Outros. Especifique. ---------------------------------------------------------------

 

Observações

Quanto aos participantes

 

Quadro 1. Formulário de inscrição na Trilha 1

 

O conjunto de textos ou documentos processado foi disponibilizado na página principal do evento. Tal conjunto engloba 20 textos que se caracterizam por serem do tipo “notícia”, do gênero “informativo” (subgênero jornalístico) e tratar do domínio “esporte”. Essa coleção de textos foi extraída da Web. Para cada texto da coleção, há um arquivo específico no formato txt. Esses arquivos recebem a seguinte nomeação: texto1.txt, texto2.txt, [...], texto20.txt. A nomeação do arquivo (sem a extensão, p.ex.: texto1) deve ser o ID do texto/documento para o sistema.

 

O conjunto de perguntas foi disponibilizado na página principal do evento. Tal conjunto engloba 30 questões. Para cada pergunta do conjunto, há um arquivo no formato txt correspondente. Tais arquivos são nomeados de forma similar aos arquivos da coleção de documentos: pergunta1, pergunta2, [...], pergunta30. As questões da coleção são do tipo “rígido” ou “fechado”, ou seja, perguntas do tipo qu (quem, que, qual(is), quando) (em inglês, wh-questions). Por exemplo, para a pergunta, “Qual é o nome do estádio que sedia o amistoso entre Brasil e Itália em fevereiro de 2008”?, a resposta seria “Emirates Stadium”.

 

Quanto às linguagens de programação, ressalta-se que o sistema de perguntas e respostas deve ser escrito em uma linguagem de programação que não seja proprietária.

 

Para cada pergunta, o sistema deve retornar um par ordenado [resposta-string;docid]. Por exemplo, para a pergunta ilustrativa, que estaria contida no arquivo pergunta1.txt e cuja resposta estaria no documento armazenado no arquivo texto22.txt, tem-se o par [emirates_stadium;texto22].

 

Cada par [resposta-string,docid] deve consistir em um arquivo de saída no formato txt com a seguinte nomeação: resposta_pergunta1.txt, resposta_pergunta2.txt, [...], resposta_pergunta30.txt. No caso da resposta à pergunta ilustrativa, tem-se o arquivo resposta_pergunta1.txt, cujo conteúdo seria o par [emirates_stadium;texto22].

 

Caso a resposta seja uma lista, os elementos da mesma devem ser separados por vírgula, p.ex.: [emirates_stadium,maracanã;texto33], e colocados na mesma ordem em que ocorrem no texto (no caso, Emirates Stadium ocorre primeiro que Maracanã).

 

A sensitividade à caixa não será considerada. Assim, os padrões [emirates_stadium,maracanã;texto33] e [Emirates_Stadium,Maracanã;texto33] são válidos. Além disso, nos casos em que houver duas respostas válidas para uma mesma pergunta, o padrão da resposta deve ser [resposta-string;docid][resposta-string;docid], sendo que a ordem das respostas-string deve seguir a ordem crescente de numeração dos textos. Por exemplo, suponha que, para a pergunta ilustrativa "Quantos pontos fez o jogador de basquete Oscar?", haja duas respostas possíveis na coleção de textos, uma delas localizada no texto do arquivo texto1.txt (p.ex.: 25 pontos) e a outra no texto do arquivo texto.29 (p.ex.: 35 pontos). Nesse caso, o padrão para a resposta seria [25;texto1][35;texto29].

 

A exatidão das respostas obtidas pelos sistemas submetidos ao evento foi avaliada por um juiz humano, membro do Comitê de Organização, que atribuiu uma nota a cada resposta-string. A nota variou de 1 a 4, como especificado no Quadro 2.

 

Nota

Descrição

1

A resposta-string não contém a resposta correta, ou seja, a palavra ou o conjunto de palavras correto.

2

A resposta-string contém a resposta correta, mas o documento retornado não sustenta tal resposta.

3

A resposta-string contém a resposta correta e o documento retornado suporta tal resposta; no entanto, a resposta-string possui mais elementos do que a palavra ou o conjunto de palavras correto.

A resposta-string apresenta parte da resposta correta.

A resposta-string apresenta os elementos da resposta correta em outra ordem.

4

A resposta-string possui exatamente a resposta correta, que é suportada pelo documento retornado.

Quadro 2. Critérios para a avaliação das respostas dos sistemas

 

As equipes foram classificadas em função da pontuação obtida na soma das notas dadas a cada uma das 30 respostas. Nesse caso, a equipe que obteve a maior pontuação nessa soma foi declarada ganhadora da Trilha 1 da I OLinCom.

 

Cada equipe recebeu por meio de correio eletrônico apenas a informação sobre sua classificação final na trilha 1 da I OLinCom e o quadro de avaliação de suas respostas. Os nomes dos participantes e seus dados não foram divulgados publicamente. Na página do evento, foram divulgados apenas o nome das equipes e sua respectiva classificação.

 

No Quadro 3 consta uma pequena amostra do quadro de avaliação enviado aos participantes. Tal quadro é composto por 5 colunas. Na primeira coluna, está indicado o número da pergunta; na segunda, consta a pergunta propriamente dita; na terceira, está descrita a resposta correta, no formato [resposta-string,docid]; na quarta coluna, consta a resposta obtida pelo sistema submetido à trilha; na quinta, está especificada a pontuação da resposta do sistema.

 

No.

Pergunta

[Resposta-string,docid]

[Resposta-string,docid] do sistema

Pts

1

Quantas vezes o Lakers venceu no campeonato?

[42,texto2]

[42,texto2]

4

2

Quem ficou no banco durante o primeiro tempo do jogo contra o Palmeiras?

[Roni,texto7]

[Roni,texto7]

4

Quadro 3. Exemplo do quadro de avaliação das respostas

 

De cunho linguístico-computacional, a Trilha 2 foi uma competição científica que se caracterizou por ser presencial e individual.  A realização dessa trilha também antecedeu ao STIL 2009.

 

Os participantes fizeram uma “prova” com duração de 4 horas que englobou problemas interessantes e criativos em linguística e linguística computacional, baseada em prova semelhante da The Third Annual North American Computational Linguistics Olympiad  (http://www.naclo.cs.cmu.edu/).

 

Não foi necessário nenhum conhecimento prévio de linguística, linguagens ou computação, pois a resolução dos problemas exigiu apenas raciocínio analítico. Tais problemas serviram como uma introdução divertida ao campo da linguística computacional, que muitos nunca tinham tido a oportunidade de conhecer.

 

Especificamente, a Trilha 2 englobou 4 etapas:

 

a) Registro na Trilha 2: inscrição dos participantes na I OLinCom (Trilha 2) por meio do preenchimento do formulário disponível na página do evento (www.nilc.icmc.usp.br/~arianidf/olincom/registro.html) e do envio do mesmo à Comissão Organizadora;

 

b) Realização da prova nas instituições-sede: aplicação das provas nas instituições estabelecidas como “sede”; para a aplicação das provas, cada responsável pela aplicação recebeu antecipadamente, via e-mail e correio, um conjunto de documentos formado por: (i) o formulário de inscrição dos participantes (da instituição em questão), (ii) um conjunto de cópias da prova (adequado ao número de participantes na instituição), (iv) um documento contendo instruções aos participantes e aos responsáveis e (v) uma cópia extra da prova para o próprio responsável;

 

c) Correção das provas: correção da prova pelos membros do Comitê de Organização e por um membro do Comitê Científico;

 

d) Divulgação do desempenho dos participantes: envio, por e-mail, do desempenho de cada participante na Trilha 2; cada participante foi informado exclusivamente de seu próprio desempenho;

 

e) Divulgação da classificação final e do gabarito: divulgação na página do evento dos 3 primeiros colocadas na Trilha 2 e do gabarito da prova.

 

Para a participação na Trilha 2, os interessados preencheram um formulário de registro disponível na página do evento, como o apresentado no Quadro 4, e o enviaram à Comissão de Organização.

  

 

Identificação

Nome:

 

Endereço:

 

Telefone:

 

E-mail:

 

Instituição de origem:

 

 

Perfil do participante

Experiência com Lingüística Computacional (LC)

(   ) Graduação com iniciação científica (IC) em LC

(   ) Graduação sem IC em LC

(   ) Outros. Especifique. ------------------------------------------------------------------

Quadro 4. Formulário de inscrição na Trilha 2

 

A prova da Trilha 2 englobou 6 questões. Cada questão teve um valor específico, totalizando um total de 100 pontos. Aproximadamente, metade dos pontos correspondeu a questões “práticas,” isto é, às respostas corretas. O resto dos pontos foi dado para questões “teóricas”, isto é, pela qualidade da descrição correta de como o problema foi resolvido.

 

A correção da prova foi realizada pelos membros da Comissão de Organização e por um membro do Comitê Científico. O aluno que obteve a maior pontuação foi declarado vencedor da Trilha 2.

 

A Trilha 2 foi realizada nas dependências de algumas instituições “sede”. Entende-se por instituição-sede a instituição de origem do aluno inscrito ou uma instituição próxima a ele. Em cada instituição, a aplicação da prova foi supervisionada por, ao menos, um responsável.

 

No Quadro 5, são listadas as instituições-sede e seus respectivos responsáveis e número de participantes.

 

Instituições

Responsáveis

Participantes

Instituto de Ciências Matemáticas e de Computação (ICMC/USP-São Carlos)

Profa. Dra. Ariani Di Felippo
Prof. Dr. João Luis Garcia Rosa

 

7

Empresa Brasileira de Pesquisa Agropecuária (Embrapa-Campinas)

MSc. Leandro H. M. de Oliveira

 

1

Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)

Profa. Dra. Violeta Quental

 

1

Universidade Federal de Minas Gerais (UFMG)

Profa. Dra. Thaïs Cristófaro Silva

 

1

Universidade Federal do Paraná (UFPR)

Prof. Dr. Alexandre Ibrahim Direne

 

1

Universidade Federal do Rio Grande do Sul (UFRGS)

MSc. Mario L. M. Machado

 

1

Quadro 5. Instituições-sede e seus respectivos responsáveis e participantes

 

Cada participante recebeu unicamente, por correio eletrônico, a notificação de seu desempenho na Trilha 2. A classificação final foi divulgada na página do evento: http://www.nilc.icmc.usp.br/~arianidf/olincom/trilha2.html.

 

No Quadro 6, apresentamos alguns números sobre a Trilha 1 da I OLinCom.

 

Informações

Quantidade

Número de equipes inscritas

13

Número total de inscritos

26

Número de equipes participantes (que submeteram o sistema)

4 (30% de 13)

Número de participantes

8

Quadro 6. Números de inscritos e de participantes efetivos da Trilha 1

 

Além dos dados do Quadro 6, seguem outras estatísticas da Trilha 1, quanto aos inscritos e participantes efetivos (já que alguns inscritos não compareceram para participar).

 

Gráfico 1. Inscritos na Trilha 1: formação

  

Gráfico 2. Inscritos na Trilha 1: nível de escolaridade

 

Gráfico 3. Inscritos na Trilha 1: familiaridade com a LC

 

Gráfico 4. Inscritos na Trilha 1: região de origem

  

Gráfico 5. Inscritos na Trilha 1: instituição de origem

 


Gráfico 6. Participantes da Trilha 1: formação

 

Gráfico 7. Participantes da Trilha 1: nível de escolaridade

 

Gráfico 8. Participantes da Trilha 1: familiaridade com a LC

 

Gráfico 9. Participantes da Trilha 1: região de origem

 

Gráfico 10. Participantes da Trilha 1: instituição de origem

 

No Quadro 7, apresentamos algumas estatísticas sobre a Trilha 1 da I OLinCom.

 

Informações

Quantidade

Número de inscritos

20

Número de participantes

12

Quadro 7. Números de inscritos e de participantes efetivos da Trilha 2

 

Além dos dados do Quadro 7, seguem outras estatísticas da Trilha 2, quanto aos inscritos e participantes efetivos (já que alguns inscritos não compareceram para participar).

 

Gráfico 11. Inscritos na Trilha 2: formação

 

Gráfico 12. Inscritos na Trilha 2: nível de escolaridade

 

Gráfico 13. Inscritos na Trilha 2: familiaridade com a LC

 

Gráfico 14. Inscritos na Trilha 2: região de origem

 

Gráfico 15. Inscritos na Trilha 2: instituição de origem

 

Gráfico 16. Participantes da Trilha 2: formação

 

Gráfico 17. Participantes da Trilha 2: nível de escolaridade

 

Gráfico 18. Participantes da Trilha 2:familiaridade com a LC

 

Gráfico 19. Participantes da Trilha 2:região de origem

 

Gráfico 20. Participantes da Trilha 2:instituição de origem

 

No Quadro 8, consta a classificação geral das equipes participantes do evento.

 

O primeiro colocado, por ser aluno de pós-graduação, não concorreu à premiação, mas foi reconhecido como o “vencedor” da Trilha da I OLinCom por meio da entrega de um certificado em cerimônia realizada durante o STIL 2009.

 

Dessa forma, as equipes que se classificam, no geral, em 2º, 3º e 4º lugares foram premiadas, respectivamente, como 1º, 2º e 3º colocados na Trilha 1, já que seus membros (ou a maioria) eram graduandos. Em outras palavras, podemos dizer que a classificação final das equipes formadas em sua maioria por alunos de graduação foi a apresentada no Quadro 9.

 

Classificação geral

Nome das equipes

Membros

Instituição de origem

1º lugar

Guamá

William Augusto Rodrigues de Souza (doutorando)

UFRJ

2º lugar

SODQ

Daniel Feitosa (graduando)

Vinícius Rodrigues Uzêda (graduando)

ICMC/USP

3º lugar

InformationLoss

Danilo Machado Junior (graduando)

Juliano Henrique Foleiss (graduando)

Vinícius Mourão Alves de Souza (mestrando)

UEM

4º lugar

Nilconlin

Erick Galani Maziero (graduando)

Felipe Gomes (graduando)

ICMC/USP

Quadro 8. Classificação final da Trilha 1 da I OLinCom

 

Classificação dos participantes graduandos

Nome das equipes

1º lugar

SODQ

2º lugar

InformationLoss

3º lugar

Nilconlin

Quadro 9. Classificação dos participantes graduandos da Trilha 1 da I OLinCom

 

A seguir, no Quadro 10, apresentamos a classificação final dos participantes da Trilha 2.

 

Colocação

Participantes

Instituição

Formação

Pontos

Kauê Silveira

UFRGS

Ciência da Computação

87.2

2

Diego Zanchi

ICMC-USP

Ciência da Computação

82.9

3

Erick G. Maziero

ICMC-USP

Ciência da Computação

73.8

Janaina O. Rodrigues

UNESP/ Ar.

Letras

60.5

Gustavo A. de M. Almeida

UFMG

Letras

59.8

Marcus Túlio

USP-SC

Ciência da Computação

55.9

Adriano Velasco Nunes

PUC-PR

Ciência da Computação

50.3

Israel Aono Nunes

UFSCar

Ciência da Computação

45.6

Murilo Giacometti Rocha

ICMC-USP

Ciência da Computação

41.2

10 

Lívia Cucatto

UFSCar

Letras

36.0

11 

William A. R. de Souza

UFRJ

Ciência da Computação

30.2

12 

Sandra M. do Nascimento

UFSCar

Letras

14.8

Quadro 10. Classificação final da Trilha 2 da I OLinCom

 

Os autores os todos os sistemas submetidos à Trilha 1 foram convidados a elaborar um artigo de, no máximo, 5 páginas. Tais artigos foram elaborados com base no modelo da SBC, o qual foi seguido pelo evento principal, o STIL.

 

A I OLinCom contou com o patrocínio da North American Chapter of the Association for Computational Linguistics (NAACL) (http://naacl.org) e da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) (http://www.fapesp.br/).

 

Comitê de Organização

 

João Luís Garcia Rosa (ICMC-USP)

Ariani Di Felippo (UFSCar)

 

Comitê de Programa

 

MSc. Ana Elisa Barbosa de Oliveira (UNESP/Ar.)

Dra. Andréia Gentil Bonfante (UFMT)

Dra. Caroline Gasperin (ICMC-USP)

MSc. Eloise Rossi Seno (ICMC-USP)

Dra. Lucia Helena Machado Rino (DC-UFSCar)

Dr. Hélio Roberto de Moraes (FATEC-Mococa)

Dra. Mirna Fernanda de Oliveira (UNIOSESTE)

MSc. Silvia Maria Wanderley Moraes (PUC-RS)

Dra. Valéria Delisandra Feltrim (DIN-UEM)

 

Comitê de Apoio

 

Profa. Dra. Violeta De Sant T. D. B. Quental (PUC-Rio)

Profa. Dra. Thaïs Cristófaro Silva (UFMG)

Prof. Dr. Alexandre Ibrahim Direne (UFPR)

MSc. Mario Lúcio Mesquita Machado (UFRGS)

MSc. Leandro H. M. de Oliveira (Empresa Brasileira de Pesquisa Agropecuária/ Embrapa-Campinas).

 

Gostaríamos, aliás, de agradecer imensamente aos membros do Comitê de Apoio, que foram peças fundamentais para a realização da Trilha 2 da I OLinCom.

 

Artigos

 

Apresentamos abaixo a lista dos artigos referentes aos sistemas submetidos à Trilha 1.

 

Equipe Guamá

Uma proposta de sistema de respostas automáticas a perguntas do tipo fechadas

William Augusto Rodrigues de Souza

 

Equipe SODQ           

SODQ - Um sistema de perguntas e respostas para a I OlinCom

Daniel Feitosa e Vinícius Rodrigues de Uzêda

 

Equipe Information Loss

SQAS: Um Sistema Automático de Question-Answering para Textos Jornalísticos

Danilo Machado Junior, Juliano Henrique Foleiss e Vinícius Mourão Alves de Souza

 

Equipe Nilconlin

Sistema de perguntas e respostas com uso de informação morfossintática

Erick Galani Maziero e Felipe Gomes

 

Prefácio | Comitês | Artigos