Repositório de Word Embeddings do NILC

NILC - Núcleo Interinstitucional de Linguística Computacional

Introdução

NILC-Embeddings é um repositório destinado ao armazenamento e compartilhamento de word embeddings pré-treinados na Língua Portuguesa. O objetivo é fomentar e tornar acessível recursos vetoriais prontos para serem utilizados nas tarefas de Processamento da Linguagem Natural e Aprendizado de Máquina.

Download Word Embeddings Pré-treinados

Para cada Embedding, foram disponibilizadas as rotinas de pré-processamento, limpeza e avaliação utilizadas. Foram feitas tratativas de tokenização, remoção de stopwords, stemmização e outras. Licença: Creative Commons

CBOW

CBOW_300: cbow_s300.zip
CBOW_600: cbow_s600.zip
Corpus: Corpora NILC
Ferramentas: Word2Vec
Rotinas de Pré-processamento: GitHub

Ver Detalhes »

Skip-Gram

SKIPGRAM_300: skipgram_s300.zip
SKIPGRAM_600: skipgram_s600.zip
Corpus: Corpora NILC
Ferramentas: Word2Vec
Rotinas de Pré-processamento: GitHub

Ver Detalhes »

Glove

GLOVE_300: glove_s300.zip
GLOVE_400: glove_s400.zip
Corpus: Corpora NILC
Ferramentas: Glove
Rotinas de Pré-processamento: GitHub

Ver Detalhes »

FastText

FASTTEXT_300: fasttext_s300.zip
FASTTEXT_600: fasttext_s600.zip
Corpus: Corpora NILC
Ferramentas: FastText
Rotinas de Pré-processamento: GitHub

Ver Detalhes »

Embedding 5

Embedding5: embedding5.zip
Corpus: Corpora NILC
Ferramentas: FastText
Rotinas de Pré-processamento: GitHub

Ver Detalhes »

Embedding 6

Embedding6: embedding6.zip
Corpus: Corpora NILC
Ferramentas: Word2Vec
Rotinas de Pré-processamento: GitHub

Ver Detalhes »