A medição é a chave para ajudar a manter a IA no caminho certo
Quando Hanna Wallach começou a testar modelos de machine learning, as tarefas eram bem definidas e fáceis de avaliar. O modelo foi capaz de identificar corretamente os gatos na imagem? Conseguiu prever com precisão as classificações que diferentes espectadores atribuíram a um filme? Transcreveu as palavras exatas que alguém acabou de proferir?Contudo, este trabalho de avaliação do desempenho de um modelo foi transformado pela criação de IA generativa, como grandes modelos de linguagem (LLMs) que interagem com as pessoas. Portanto, o foco de Wallach, enquanto investigadora na Microsoft,