Leg2Kids

Sobre o projeto

Para compilar um córpus que represente o léxico em português mais ouvido por crianças, entramos em contato com a equipe do Open Subtitles, o maior repositório de legendas com um acervo de aproximadamente 5 milhões de legendas para o Português brasileiro. A Open Subtitles nos disponibilizou um córpus de 36,413 legendas de filmes e séries dos gêneros Família e Animação, pois acreditam que esses melhor descrevem o material que as crianças têm acesso, dado que não há um metadado específico para públicos-alvo.

Realizamos um pré-processamento nas legendas do córpus, removendo as marcações de tempo existente em cada trecho da legenda (essas marcações definem o intervalo de tempo em que um trecho aparecerá na tela). Removemos, também, marcações dos editores da legenda, como endereços de páginas web, agradecimentos, patrocínio, entre outros. O córpus foi, então, sentenciado e tokenizado pela ferramenta NLTK.

Leg2Kids contém um total de 153,791,083 tokens e 452,312 types, atingindo um type-token ratio (TTR) de 0,294%, o que implica em uma maior riqueza lexical do que outros córpus do gênero, como oSUBTLEX-PT-BR (0,22%) mas inferior ao Escolex com TTR de 1,5%. Ainda assim, o TTR do Leg2Kids é baixo, dado que 30% dos palavras do córpus ocorrem uma única vez e, ao analisarmos as 90% palavras mais frequentes, elas não ocorrem mais que 58 vezes - um contraste ao compararmos com a palavra de conteúdo mais frequente do córpus (estar), que ocorre pouco mais de 1 milhões de vezes.

O artigo completo do Leg2Kids, publicado na sexta edição da Jornada de Descrição do Português (JDP), pode ser acessado aqui.

Arquivos para download

Link Descrição
Legendas originais (raw data) Legendas originais, fornecidas diretamente pela equipe do OpenSubtitles. Cada arquivo contém uma legenda, em seu formato original, com marcações do instante de tempo em que cada texto deve ser transmitido para sincronizar com o áudio da mídia (filme, desenho, série, etc...). Cada legenda vem comprimida individualmente. Conteúdo em formato zip.
Legendas pré-processadas Legendas pré-processadas. Todas as legendas foram extraídas de seu formato original e processadas com o intuito de remover as marcações de tempo, remover os travessões que indicam fala e remover marketing, comumente encontrando em legendas produzidas por terceiros. Cada legenda está salva em um arquivo único. Cada trecho de fala da legenda está em uma linha do arquivo. Todos os arquivos possuem codificação utf-8. Conteúdo limpo e "crú", indicado para propósitos gerais. Conteúdo em formato zip.
Legendas sentenciadas e tokenizadas As legendas pré-processadas passaram por um processo de tokenização e sentenciação. Cada legenda está contida em um único arquivo. Conteúdo em formato zip.
Legendas sentenciadas e tokenizadas com POS tags As legendas pré-processadas passaram por um processo de tokenização e sentenciação, além da aplicação de um POS Tagger (nlpnet). Cada legenda está contida em um único arquivo. Conteúdo em formato zip.
Versão final, pronta para uso As legendas pré-processadas passaram por um processo de tokenização e sentenciação, além da aplicação de um POS Tagger (nlpnet). Todas as legendas foram unificadas em um único arquivo para facilitar o trabalho com dados do gênero em questão. Disponibilização de um arquivo contendo somente o texto e outro arquivo contendo também as etiquetas morfossintáticas (POS tags). Conteúdo em formato zip.