Aprendizagem offline - Offline learning

No aprendizado de máquina , os sistemas que empregam o aprendizado offline não mudam sua aproximação da função alvo quando a fase de treinamento inicial é concluída. Esses sistemas também são exemplos típicos de aprendizado ansioso .

Enquanto na aprendizagem online, apenas o conjunto de elementos possíveis é conhecido, na aprendizagem offline, a identidade dos elementos, bem como a ordem em que são apresentados é conhecida pelo aprendiz.

Aplicações para controle de robótica

A habilidade dos robôs em aprender é igual a criar uma tabela (informação) que é preenchida com valores. Uma opção para fazer isso é programar por demonstração . Aqui, a mesa é preenchida com valores por um professor humano. A demonstração é fornecida como política de controle numérico direto , que é igual a uma trajetória, ou como uma função objetivo indireta , que é dada antecipadamente.

O aprendizado offline está funcionando em lote . Na etapa 1 a tarefa é demonstrada e armazenada na tabela, e na etapa 2 a tarefa é reproduzida pelo robô. O pipeline é lento e ineficiente porque existe um atraso entre a demonstração do comportamento e a repetição da habilidade.

Um pequeno exemplo ajudará a entender a ideia. Suponha que o robô aprenda uma parede após a tarefa e a mesa interna do robô esteja vazia. Antes que o robô seja ativado no modo de repetição, o demonstrador humano deve ensinar o comportamento. Ele está controlando o robô com teleoperação e durante a etapa de aprendizado a tabela de habilidades é gerada. O processo é denominado offline, porque o software de controle do robô não faz nada, mas o dispositivo é utilizado pelo operador humano como um dispositivo apontador para dirigir ao longo da parede.

Veja também

Referências

  1. ^ Ben-David, Shai; Kushilevitz, Eyal; Mansour, Yishay (01/10/1997). "Aprendizagem online versus aprendizagem offline" . Aprendizado de máquina . 29 (1): 45–63. doi : 10.1023 / A: 1007465907571 . ISSN   0885-6125 .
  2. ^ Bajcsy, Andrea e Losey, Dylan P e O'Malley, Marcia K e Dragan, Anca D (2017). "Aprender os objetivos do robô a partir da interação humana física". Proceedings of Machine Learning Research . PMLR. 78 : 217–226. CS1 maint: vários nomes: lista de autores ( link )
  3. ^ Meyer-Delius, Daniel e Beinhofer, Maximilian e Burgard, Wolfram (2012). Modelos de grade de ocupação para mapeamento de robôs em ambientes em mudança . Vigésima sexta Conferência AAAI sobre Inteligência Artificial. CS1 maint: vários nomes: lista de autores ( link )
  4. ^ Luka Peternel e Erhan Oztop e Jan Babic (2016). Um método de controle compartilhado para a aprendizagem on-line de robôs humanos no circuito com base na Regressão Ponderada Localmente . 2016 IEEE / RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE. doi : 10.1109 / iros.2016.7759574 .
  5. ^ a b junho, Li e Duckett, Tom (2003). Aprendizagem do comportamento do robô com uma rede RBF adaptável dinamicamente: Experimentos de aprendizagem offline e online . Proc. 2 Intern. Conf. em Comput. Inteligência, Robótica e Sistema Autônomo, CIRAS. Citeseer. CS1 maint: vários nomes: lista de autores ( link )