DeepMind представи днес нова мултимодална AI система, способна да изпълнява повече от 600 различни задачи.
Наречен Gato, това е може би най-впечатляващият комплект за машинно обучение всичко в едно, който светът е виждал досега.
Според DeepMind блог пост:
Агентът, който наричаме Gato, работи като мултимодална, многозадачна, многообразна обща политика. Една и съща мрежа със същите тегла може да възпроизвежда Atari, изображения на надписи, чат, стека блокове с истинска ръка робот и много повече, като решава въз основа на контекста си дали да изведе текст, въртящи моменти на ставите, натискане на бутони или други символи.
И докато остава да се види колко добре ще се справи, след като изследователи и потребители извън лабораториите на DeepMind се докоснат до него, Gato изглежда е всичко, което GPT-3 желае да бъде и повече.
Ето защо това ме натъжава: GPT-3 е широкоезичен модел (LLM), произведен от OpenAI, най-добре финансираната компания за изкуствен общ интелект (AGI).
Преди да можем да сравним GPT-3 и Gato обаче, трябва да разберем откъде идват OpenAI и DeepMind като бизнес.
OpenAI е рожба на Илон Мъск, той има милиарди подкрепа от Microsoft и правителството на САЩ може да се интересува по-малко от това, което прави, когато става въпрос за регулиране и надзор.
Имайки предвид, че OpenAI единствена цел е да се разработи и контролира AGI (това е AI, способен да прави и учи всичко, което човек може, при същия достъп), е малко страшно, че всичко, което компанията успя да произведе, е наистина изискан LLM.
Не ме разбирайте погрешно, GPT-3 е впечатляващ. Всъщност, може би е също толкова впечатляващо, колкото и Gato на DeepMind, но тази оценка изисква някои нюанси.
OpenAI премина по пътя на LLM по пътя си към AGI по проста причина: никой не знае как да накара AGI да работи.
Точно както мина известно време между откриването на огъня и изобретяването на двигателя с вътрешно горене, измислянето как да се премине от дълбоко обучение към AGI няма да се случи за една нощ.
GPT-3 е пример за AI, който може поне да направи нещо, което изглежда като човешко: генерира текст.
Това, което DeepMind направи с Gato, е почти същото нещо. Взето е нещо, което работи много като LLM и го превърна в илюзионист, способен на повече от 600 форми на престиж.
Както Майк Кук, от изследователския колектив на Knives and Paintbrushes, наскоро казано Кайл Уигърс от TechCrunch:
Звучи вълнуващо, че AI е в състояние да изпълнява всички тези задачи, които звучат много различно, защото за нас звучи като писането на текст е много различно от управлението на робот.
Но в действителност това не е твърде различно от разбирането на GPT-3 за разликата между обикновения английски текст и кода на Python.
Това не означава, че това е лесно, но за външния наблюдател този силен звук, сякаш AI също може да направи чаша чай или лесно да научи още десет или петдесет други задачи, но не може да направи това.
По принцип Gato и GPT-3 са стабилни AI системи, но нито една от тях не е способна на обща интелигентност.
Ето моя проблем: Освен ако вашият хазарт в AGI не се появи в резултат на някакъв случаен акт на късмет – филмът Късо съединение идва на ум – вероятно е време всеки да преоцени своите времеви линии в AGI.
Не бих казал „никога“, защото това е една от единствените проклети думи на науката. Но това прави да изглежда, че AGI няма да се случи през живота ни.
DeepMind работи върху AGI повече от десетилетие, а OpenAI от 2015 г. И нито един от тях не успя да се справи с първия проблем по пътя към решаването на AGI: изграждане на AI, който може да научава нови неща без обучение.
Вярвам, че Gato може да бъде най-модерната мултимодална AI система в света. Но също така мисля, че DeepMind приема същото концепция задънена улица за AGI че OpenAI е и просто го направи по-продаваем.
Последни мисли: Това, което DeepMind направи, е забележително и вероятно ще доведе до печалба на компанията много пари.
Ако съм главен изпълнителен директор на Alphabet (компанията майка на DeepMind), аз или представям Gato като чист продукт, или насочвам DeepMind към повече развитие, отколкото изследвания.
Gato може да има потенциал да се представи по-изгодно на потребителския пазар от Alexa, Siri или Google Assistant (с правилния маркетинг и приложими случаи на употреба).
Но Gato и GPT-3 не са по-жизнеспособни входни точки за AGI от гореспоменатите виртуални асистенти.
Способността на Gato да изпълнява множество задачи е по-скоро като конзола за видеоигри, която може да съхранява 600 различни игри, отколкото като игра, в която можете да играете по 600 различни начина. Това не е общ AI, това е куп предварително обучени, тесни модели, събрани спретнато.
Това не е лошо, ако това е, което търсите. Но в придружението на Гато просто няма нищо изследователска работа за да се посочи, че това е дори поглед в правилната посока за AGI, още по-малко стъпка.
В един момент добрата воля и капиталът, които компании като DeepMind и OpenAI генерираха чрез настояването си със стоманени очи, че AGI е точно зад ъгъла, ще трябва да покажат дори най-малките дивиденти.