Buscar
  • Nicholas Kluge

Normatividade Dinâmica: uma abordagem dinâmica para o problema de Alinhamento

Atualizado: 11 de nov. de 2021



Ética e Segurança da Inteligência Artificial é um campo de pesquisa emergente. Por muitos anos, preocupações relacionadas a sistemas de inteligência artificial foram classificadas como apenas especulações. Contudo, podemos dizer que desde 2016, com uma publicação seminal intitulada "Concrete Problems in AI safety", os objetivos e obstáculos do campo foram melhor "formalizados e aceitos".


Em 2019, com o estudo intitulado "Risks from Learned Optimization in Advanced Machine Learning Systems", o Problema de Alinhamento foi melhor formalizado como um problema de Aprendizagem de Máquina. Também podemos citar a obra de Stuart Russell, "Human Compatible: Artificial Intelligence and the Problem of Control", que define o problema de alinhamento como um dos mais importantes problemas em aberto do campo de pesquisa em IA. Afinal, se nossa meta é desenvolver “IA benéfica”, e não apenas "IA arbitrária", precisamos procurar por formas de resolver o problema de alinhamento.


O problema de alinhamento pode ser definido da seguinte forma:

  • Como diminuir a lacuna entre as intenções, objetivos e preferências de um controlador humano e a função objetiva, e modelo otimizado, por um sistema criado por aprendizagem de máquina.

Especificação de metas e objetivos é um grande problema em aprendizagem de máquina. Aquilo que permitiu a aprendizagem de máquina se tornar o paradigma atual em pesquisa e desenvolvimento de sistemas inteligentes, é que por essa metodologia podemos treinar modelos para resolver tarefas que são complexas demais para serem completamente "especificadas a mão" (e.g., computer vision).


Contudo, essa metodologia sofre de um grande obstáculo. Além de não possuirmos garantias formais de como um modelo irá se comportar após seu treinamento, alinhar as intenções do controlador (e.g., classificar rostos) com aquilo que um modelo está otimizando (e.g., discernir cores de pele) não é um feito simples. Existem diversos problemas de segurança em aprendizagem de máquina que necessitam ser resolvidos, especialmente se queremos implementar sistemas treinados por aprendizagem de máquina para interagir com ambientes complexos (i.e., o mundo real).


Ao investigarmos está problemática, percebemos que ela intersecta com diversas perguntas (ainda em aberto) de diversas áreas do conhecimento:

  • Como as preferências humanas podem ser robustamente modeladas em uma linguagem computacional?

  • Como evitar comportamentos indesejados em domínios fora da distribuição de treinamento?

  • Poderiam preferências humanas serem inferidas apenas por observações?

  • Como esquematizar uma forma de raciocínio moral?

  • Quais pressuposições metafísicas e metaéticas devemos fazer para lidar com tal problema em uma linguagem nativa a IA?

Respostas para tais perguntas podem auxiliar a esclarecer profundas questões sobre a natureza da normatividade e moralidade humana. Pois conforme ensinamos nossas criações o que "deve ser feito", aprendemos melhor como nós mesmos deveríamos agir.


Talvez, a principal aplicação dessa pesquisa (a médio e curto prazo) seria a de definir como se desenvolver modelos melhores. Modelos que se relacionam com humanos de forma mais ergonômica. Modelos que representem melhor as nossas preferências e intenções. Seja "entendendo" o que foi solicitado, ou agindo de forma a melhor nos atender.


Nesta pesquisa, buscamos formalizar uma metodologia para como uma IA pode vir a: (1) aprender as preferências de seu controlador; (2) agregar tais preferências a um estado coerente de agregação (i.e., equilíbrio reflexivo); e (3) agir de forma a minimizar os impactos causados no ambiente e seus demais agentes.


Todos os passos dessa metodologia são baseados em técnicas de aprendizagem de máquina relativamente novas e experimentais:

Todas essas estratégias são justificadas por uma abordagem interdisciplinar, baseada em áreas como Filosofia Moral, Aprendizagem de Máquina, Teoria da Decisão, Ciências Cognitivas e Economia. O resultado final é um quadro teórico que chamamos de "Normatividade Dinâmica".


Normatividade Dinâmica pode ser caracterizada como um quadro teórico para a investigação de questões que envolvam o desenvolvimento de IA moral, i.e., IA alinhada. Como uma teoria moral para agentes artificiais, Normatividade Dinâmica nos indica como um “motor normativo” deveria ser. Também podemos dizer que Normatividade Dinâmica é uma teoria sobre as relações entre humanos e IA.



Esta pesquisa está relacionada com a tese de doutorado (em andamento) de Nicholas Kluge. Para mais informações, entre em contato.


Para mais informações sobre Segurança da IA, esses são bons lugares para se informar e se envolver:


53 visualizações0 comentário