Gripper uczy się… poprzez próbę i błąd

Dec 26, 2019

Zainspirowany ludzką ręką, LearningGripper ma cztery palce. Z pomocą oprogramowania do uczenia maszynowego ten chwytak może opanować złożoną akcję, taką jak pobieranie i orientowanie artykułu. Podstawowe pozycje palców i funkcję sprzężenia zwrotnego ze środowiska należy wcześniej określić; chwytak uczy się wszystkich innych sekwencji ruchu metodą prób i błędów.

Zadaniem LearningGripper, jak pokazano, było obracanie piłki, aż logo znajdzie się na górze. Na początku chwytak poruszył piłkę losowo. Czujnik pozycji w piłce informował o odległości logo od „dłoni chwytaka”. LearningGripper otrzymał nagrodę opartą na systemie punktowym; punkty są przetwarzane w oprogramowaniu do uczenia maszynowego. Z czasem oprogramowanie opracowało strategię ruchu, a chwytak nauczył się, jakie działania podjąć w danym momencie. Zmienia swoje wnioski, aby uzyskać jak najwięcej pozytywnych opinii, a na końcu znajduje niezawodne rozwiązanie swojego zadania. Jeśli strategia jednego chwytaka zostanie przeniesiona do drugiego, drugi chwytak wykorzysta to jako bazę wiedzy, aby efektywniej nauczyć się własnej strategii.

LearningGripper pokazuje, jak systemy w przyszłości będą w stanie samodzielnie rozwiązywać skomplikowane zadania bez skomplikowanego programowania. Systemy samouczące się, takie jak LearningGripper, można zainstalować na linii produkcyjnej, a następnie pozwolić na niezależną optymalizację ich zachowania