Наступний значний прогрес у сфері штучного інтелекту пов'язаний із зображеннями, а не з текстом, згідно з дослідженнями.


Sora та подібні відеомоделі, як-от Veo 3 від Google здатні розв'язувати широкий спектр візуальних і просторових завдань без будь-якого спеціального навчання.

Цю інформацію наводить дослідження Google DeepMind, повідомляє видання The Economist.

Відеомоделі починають свою роботу з випадкових візуальних шумів, які з часом "очищуються", тобто хаотичність перетворюється на порядок. На кожному етапі модель ставить собі запитання: "Як я можу перетворити це зображення так, щоб воно більше відповідало отриманому запиту?" Якщо запит містить інформацію про контент, який можна представити, модель створює саме його. У випадках, коли запит стосується візуальних завдань — наприклад, редагування зображень або вирішення реальних просторових проблем — сучасні відеомоделі також демонструють вражаючі результати.

Якщо надати моделі зображення папуги, що сидить на дереві, і сформулювати запит: "створи відео, в якому поступово зникають усі кольори та деталі, залишаючи тільки контури", вона з легкістю виконає це завдання, ефективно виявляючи контури — процес, який раніше вимагав спеціальних систем. Якщо ж показати незакінчену судоку та попросити створити відео, в якому ця головоломка вирішується, вона також впорається з цим. А зображення роботизованих рук, що тримають банку, може бути перетворене на повноцінне відео, яке демонструє всі рухи, необхідні для її відкриття.

Широкий діапазон завдань, які можуть виконувати ці моделі, дозволяє дослідникам охарактеризувати їх як "нульові міркувальники" — системи, здатні до аналізу без попереднього навчання. Термін "нульові" вказує на те, що ці моделі вирішують проблеми, з якими раніше не стикалися і для яких не проходили спеціальну підготовку. Слово "міркувальники" вживається, оскільки вони іноді демонструють здібності до так званого "візуального міркування через послідовність кадрів", поступово вирішуючи задачі на кшталт "знайди вихід з лабіринту".

Обнадійливо, що нові системи, як зазначається у дослідженні, значно перевершують моделі попереднього покоління у розв'язанні узагальнених задач. Автори припускають, що відеомоделі незабаром стануть "універсальними базовими моделями для візуальних завдань", здатними вирішувати будь-які візуальні виклики без спеціального навчання.

Це відважне твердження має історичний контекст: у 2022 році група вчених з Google та Токійського університету випустила статтю, в якій вказувалося, що "великі мовні моделі є zero-shot reasoners". Вони також зазначили, що в галузі LLM на той час залишалося чимало невивчених та недооцінених основних можливостей.

Півроку потому на світ з'явився ChatGPT, що призвело до справжнього буму штучного інтелекту. Є оптимізм, що відеомоделі також зможуть досягти аналогічного рівня популярності, і що "шумова" стадія Sora стане лише захоплюючим моментом у їхньому еволюційному процесі, а не визначальним аспектом, -- зазначає The Economist.

Related posts