Repositório de Word Embeddings do NILC

NILC - Núcleo Interinstitucional de Linguística Computacional

Introdução

NILC-Embeddings é um repositório destinado ao armazenamento e compartilhamento de vetores de palavras (do inglês, word embeddings) gerados para a Língua Portuguesa. O objetivo é fomentar e tornar acessível recursos vetoriais prontos para serem utilizados nas tarefas de Processamento da Linguagem Natural e Aprendizado de Máquina. O repositório traz vetores gerados a partir de um grande córpus do português do Brasil e português europeu, de fontes e gêneros variados. Foram utilizados dezessete córpus diferentes, totalizando 1,395,926,282 tokens. O treinamento dos vetores ocorreu em algoritmos como Word2vec [1], FastText [2], Wang2vec [3] e Glove [4]. Mais detalhes sobre o projeto podem ser encontrados em: Portuguese Word Embeddings: Evaluating on Word Analogies and Natural Language Tasks.


Artigo produzido

Esse trabalho produziu um artigo aceito para publicação no STIL 2017 -- Symposium in Information and Human Language Technology. Os anais do evento ainda não foram publicados mas o artigo pode ser visto aqui.


Download Scripts Pré-processamento e Scripts de Avaliação

Os scripts utilizados para pré-processamento dos dados, bem como os scripts para as avaliações realizadas, estão disponíveis para download


Download Word Embeddings Pré-treinadas

Para cada modelo, foram disponibilizados vetores de palavras gerados em várias dimensões. Alguns modelos como Word2vec, FastText e Wang2vec possuem as variações CBOW e Skip-Gram, que diferenciam-se pela forma como preveem as palavras. Em "Ver Detalhes" pode-se ter acesso à rotinas de pré-processamento, limpeza e avaliação. No córpus, foram feitas tratativas de tokenização, remoção de stopwords, stemmização e outras.


Word2Vec

Modelo Corpora NILC
CBOW 50 dimensões download
CBOW 100 dimensões download
CBOW 300 dimensões download
CBOW 600 dimensões download
CBOW 1000 dimensões download
SKIP-GRAM 50 dimensões download
SKIP-GRAM 100 dimensões download
SKIP-GRAM 300 dimensões download
SKIP-GRAM 600 dimensões download
SKIP-GRAM 1000 dimensões download

Ver Detalhes »

FastText

Modelo Corpora NILC
CBOW 50 dimensões download
CBOW 100 dimensões download
CBOW 300 dimensões download
CBOW 600 dimensões download
CBOW 1000 dimensões download
SKIP-GRAM 50 dimensões download
SKIP-GRAM 100 dimensões download
SKIP-GRAM 300 dimensões download
SKIP-GRAM 600 dimensões download
SKIP-GRAM 1000 dimensões download

Ver Detalhes »

Wang2Vec

Modelo Corpora NILC
CBOW 50 dimensões download
CBOW 100 dimensões download
CBOW 300 dimensões download
CBOW 600 dimensões download
CBOW 1000 dimensões download
SKIP-GRAM 50 dimensões download
SKIP-GRAM 100 dimensões download
SKIP-GRAM 300 dimensões download
SKIP-GRAM 600 dimensões download
SKIP-GRAM 1000 dimensões download

Ver Detalhes »

Glove

Modelo Corpora NILC
GLOVE 50 dimensões download
GLOVE 100 dimensões download
GLOVE 300 dimensões download
GLOVE 600 dimensões download
GLOVE 1000 dimensões download

Ver Detalhes »


Como Utilizar

Para executar os modelos e utilizar os vetores pré-treinados, siga os passos abaixo.

Word2Vec
  Instalar
pip install gensim==2.0.0
Rodar
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(‘model.txt’, unicode_errors="ignore")

FastText
  Instalar
pip install fasttext==0.8.3
Rodar
import fasttext
model = fasttext.load_model(‘model.bin’)

Wang2Vec
  Instalar
pip install gensim==2.0.0
Rodar
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(‘model.txt’, unicode_errors="ignore")

Glove
  Instalar
pip install gensim==2.0.0
Rodar
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(‘model.txt', unicode_errors="ignore")

Referências

[1] Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space. In Proceedings of International Conference on Learning Representations Workshop (ICLR-2013).

[2] Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2016). Enriching Word Vectors with Subword Information. arXiv preprint arXiv:1607.04606.

[3] Ling, W., Dyer, C., Black, A., and Trancoso, I. (2015). Two/too simple adaptations of word2vec for syntax problems. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics.

[4] Pennington, J., Socher, R., and Manning, C. D. (2014). Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empiricial Methods in Natural Language Processing (EMNLP-2014), 12:1532–1543.


© 2017 NILC - Núcleo Interinstitucional de Linguística Computacional

Creative Commons LicenseThis work is licensed under a Creative Commons Attribution 4.0 International License