Новият AI на DeepMind може да изпълнява над 600 задачи, от игра на игри до управление на роботи – TechCrunch

Крайното постижение за някои в индустрията на AI е създаването на система с изкуствен общ интелект (AGI) или способността да се разбира и научава всяка задача, която човек може. Отдавна отнесено към областта на научната фантастика, се предполага, че AGI ще създаде системи със способността да разсъждават, планират, учат, представят знания и общуват на естествен език.

Не всеки експерт е убеден, че AGI е реалистична цел – или дори възможна. Но може да се твърди, че DeepMind, подкрепяната от Alphabet изследователска лаборатория, направи крачка към това тази седмица с пускането на AI система, наречена котка.

Gato е това, което DeepMind описва като система с „общо предназначение“, система, която може да бъде обучена да изпълнява много различни видове задачи. Изследователите от DeepMind обучиха Gato да завърши 604, по-точно, включително да надписва изображения, да участва в диалог, да подрежда блокове с истинска ръка робот и да играе игри на Atari.

Джак Хесел, научен учен от Allen Institute for AI, посочва, че единна AI система, която може да реши много задачи, не е нова. Например, Google наскоро започна да използва система в Google Търсене, наречена многозадачен унифициран модел, или МАМА, който може да обработва текст, изображения и видеоклипове за изпълнение на задачи, от намиране на междуезични вариации в изписването на дума до свързване на заявка за търсене с изображение. Но какво е потенциално по-ново, тук, казва Хесел, е разнообразието от задачите, които се решават, и метода на обучение.

Гато архитектурата на DeepMind. Кредити за изображения: DeepMind

„Видяхме доказателства по-рано, че единичните модели могат да се справят с изненадващо разнообразни набори от входове“, каза Хесел пред TechCrunch по имейл. „Според мен основният въпрос, когато става въпрос за многозадачно обучение… е дали задачите се допълват взаимно или не. Бихте могли да си представите по-скучен случай, ако моделът имплицитно разделя задачите преди решаването им, напр. „Ако открия задача A като вход, ще използвам подмрежа A. Ако вместо това открия задача B, ще използвам различна подмрежа B. ‘ За тази нулева хипотеза подобна производителност може да бъде постигната чрез обучение А и Б поотделно, което е невероятно. Обратно, ако обучението А и Б съвместно води до подобрения за едното (или и за двете!), тогава нещата са по-вълнуващи.”

Както всички системи за изкуствен интелект, Gato се научи чрез пример, поглъщайки милиарди думи, изображения от реални и симулирани среди, натискания на бутони, въртящи моменти на ставите и други под формата на жетони. Тези токени служеха за представяне на данни по начин, който Гато можеше да разбере, позволявайки на системата да – например – дразни механиката на Breakout или коя комбинация от думи в изречение може да има граматически смисъл.

Гато не върши непременно тези задачи добре. Например, когато чатите с човек, системата често отговаря с повърхностен или фактически неправилен отговор (напр. „Марсилия“ в отговор на „Коя е столицата на Франция?“). В надписите на снимките, Гато греши с хората. И системата правилно подрежда блоковете с помощта на реален робот само в 60% от времето.

Но за 450 от 604-те по-горе споменати задачи, DeepMind твърди, че Gato се справя по-добре от експерт повече от половината време.

„Ако смятате, че имаме нужда от генерал [systems]което е много хора в областта на AI и машинното обучение, тогава [Gato is] голяма работа “, каза Матю Гуздиал, асистент по компютърни науки в Университета на Алберта, пред TechCrunch по имейл. „Мисля, че хората, които казват, че това е голяма стъпка към AGI, го преувеличават донякъде, тъй като все още не сме на ниво човешки интелект и вероятно няма да стигнем до там скоро (според мен). Аз лично съм повече в лагера на много малки модели [and systems] са по-полезни, но определено има ползи от тези общи модели по отношение на тяхното представяне на задачи извън техните данни за обучение. “

Любопитното е, че от архитектурна гледна точка, Gato не се различава драстично от много от системите за изкуствен интелект в производството днес. Той споделя общи характеристики с GPT-3 на OpenAI в смисъл, че е “Трансформатор”. Датиращ от 2017 г., Transformer се превърна в предпочитана архитектура за сложни задачи за разсъждение, демонстрирайки способност за обобщаване на документи, генериране на музика, класифициране на обекти в изображения и анализиране на протеинови последователности.

DeepMind Gato

Различните задачи, които Гато се научи да изпълнява. Кредити за изображения: DeepMind

Може би дори по-забележително е, че Gato е с порядък по-малък от системите с една задача, включително GPT-3, по отношение на броя на параметрите. Параметрите са частите от системата, научени от данни за обучение и по същество определят уменията на системата по даден проблем, като генериране на текст. Gato има само 1,2 милиарда, докато GPT-3 има повече от 170 милиарда.

Изследователите на DeepMind поддържат Gato целенасочено малък, за да може системата да контролира ръка на робот в реално време. Но те предполагат, че – ако се разшири – Гато би могъл да се справи с всяка „задача, поведение и въплъщение на интерес“.

Ако приемем, че това се окаже така, ще трябва да бъдат преодолени няколко други препятствия, за да направи Gato превъзходен в специфични задачи над авангардни системи с една задача, като неспособността на Gato да учи непрекъснато. Подобно на повечето системи, базирани на Transformer, познанията на Gato за света се основават на тренировъчни данни и остават статични. Ако зададете на Гато въпрос, чувствителен към дата, като настоящия президент на САЩ, има вероятност на него да се отговори неправилно.

Transformer – и Gato, като разширение – имат друго ограничение в своя контекстен прозорец или количеството информация, която системата може да „запомни“ в контекста на дадена задача. Дори и най-добрите езикови модели, базирани на Transformer, не могат да напишат дълго есе, още по-малко книга, без да пропуснат да запомнят ключови детайли и по този начин да изгубят представата за сюжета. Забравянето се случва при всяка задача, независимо дали пише или управлява робот, поради което някои експерти го правят Наречен това е “ахилесовата пета” на машинното обучение.

Поради тези и други причини Майк Кук, член на изследователския колектив Knives & Paintbrushes, предупреждава да не се приема, че Gato е път към истински AI с общо предназначение.

„Мисля, че резултатът е отворен за погрешно тълкуване донякъде. Звучи вълнуващо, че AI е в състояние да изпълнява всички тези задачи, които звучат много различно, защото за нас звучи като писането на текст е много различно от управлението на робот. Но в действителност това не е твърде различно от разбирането на GPT-3 за разликата между обикновения английски текст и кода на Python “, каза Кук пред TechCrunch по имейл. „Gato получава специфични обучителни данни за тези задачи, точно както всеки друг AI от своя тип, и научава как моделите в данните се свързват с друг, включително обучението да свързва определени видове входове с определени видове изходи. Това не означава, че това е лесно, но за външния наблюдател този силен звук, сякаш AI също може да направи чаша чай или лесно да научи още десет или петдесет други задачи, но не може да направи това. Знаем, че настоящите подходи към широкомащабно моделиране могат да му позволят да научи множество задачи наведнъж. Мисля, че това е хубава работа, но не ми се струва важна стъпка по пътя към каквото и да било.”

Leave a Comment