top of page
Buscar
  • Foto do escritorNicholas Kluge

Aira-Instruct ūü§ó

Atualizado: 3 de jul.



Acabamos de tornar dispon√≠vel uma vers√£o aprimorada do nosso modelo de linguagem, Aira. Aira possui diversas itera√ß√Ķes, de chatbots de dom√≠nio fechado √† chatbots de dom√≠nio aberto afinados via instruction-tuning e RLHF (Reinforcement Learning from Human Feedback).


Esta nova vers√£o, Aira-Instruct, trata-se de uma s√©rie de modelos de linguagem generativos, de 124M √† 1.7B de par√Ęmetros, dispon√≠veis em portugu√™s e ingl√™s.


Tamb√©m disponibilizamos dois modelos de recompensa (utilizados em RLHF): um criado para avaliar a qualidade das gera√ß√Ķes de nossos modelos (RewardModelPT), e outro modelo para auxiliar a controlar a toxicidade presente nas gera√ß√Ķes do modelo (ToxicityModelPT). Ambos os modelos s√£o disponibilizados em portugu√™s e ingl√™s.


Os datasets utilizados para o treinamento de todos os modelos mencionados, mais a implementa√ß√£o do treinamento dos modelos, tamb√©m se encontram dispon√≠veis no Hugging Face. ūü§ó


A s√©rie Aira-Instruct foi desenvolvida para auxiliar pesquisadores a explorar os desafios relacionados ao problema de Alinhamento. Por se tratar de modelos de pequeno porte (at√© 1.7 bilh√Ķes de par√Ęmetros), os modelos podem ser reproduzidos por pesquisadores individuais com um custo de investimento relativamente baixo (~R$250,00).


Teste nossa demo no AIRES Playground ou no Hugging Face!


Os modelos e datasets desenvolvidos fazem parte do desenvolvimento da tese de doutorado de Nicholas Kluge, "Dynamic Normativity: Necessary and Sufficient Conditions for Outer Alignment." Esta pesquisa é financiada pelo CNPq (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul), DAAD (Deutscher Akademischer Austauschdienst), PUCRS (Pontifícia Universidade Católica do Rio Grande do Sul) e Universidade de Bonn.



8 visualiza√ß√Ķes0 coment√°rio
bottom of page