Українська LLM розпочне бета-тестування навесні 2026 року, повідомив Федоров | УНН

Технологія

Українська національна велика мовна модель (LLM) планує стартувати бета-тестування навесні 2026 року. Про це у середу повідомив Михайло Федоров, перший віцепрем'єр та міністр цифрової трансформації, у своєму Telegram-каналі, поділившись інформацією про поточний етап розробки, зазначає УНН.

Навесні національна LLM розпочне бета-тестування. Україна має на меті потрапити до трійки провідних країн у сфері розвитку штучного інтелекту на глобальному рівні. Одним з найзначніших кроків у цьому напрямку стане запуск власної великої мовної моделі, створеної на основі унікальних українських даних.

"Розробка LLM потребує ресурсів, а в часи війни всі кошти повинні бути спрямовані на оборону. Тому технічним партнером проєкту став Київстар. Компанія фінансує розробку національної великої мовної моделі, а потім передасть її державі", - вказав віцепрем'єр.

За його словами, навчання української LLM проходитиме на основі моделей Gemma від Google, нашого стратегічного партнера. "Ці інноваційні технології ми налаштовуємо для української мови та специфіки", - зазначив він.

"Якість розробки національної LLM оцінюватиме команда незалежних фахівців з різних сфер, які проводитимуть перевірку моделі за такими критеріями: технічні характеристики, етичні аспекти та безпека для користувачів, володіння українською мовою та врахування національного контексту," - зазначив Федоров.

"На даний момент проходить ключовий етап роботи - акумуляція даних для навчання LLM. З метою забезпечення високої якості інформації з інтернету недостатньо, тому ми співпрацюємо з державними установами, медіа, університетами та іншими організаціями - це терабайти неповторних даних", - зазначив Федоров.

Паралельно, з його слів, створюється "юридичний фреймворк, щоб відповідально працювати з даними, які нам надають для тренування моделі".

Також, повідомив він, "група експертів уже працює над створенням бенчмарків - тестів для мовної моделі, які допоможуть оцінювати й покращувати її якість". Це, пояснив віцепрем'єр, "дасть змогу тримати у фокусі ефективність та безпеку мовної моделі".

У січні 2026 року ми вже зможемо представити: першу базу текстів, призначену для навчання мовних моделей; удосконалений токенізатор — інструмент, який розділяє слова на складові частини, що дозволить LLM швидше та ефективніше обробляти мову; власні стандарти для оцінки якості роботи моделі. У весняний період 2026 року планується запуск бета-тестування. А назву для української LLM оберуть самі громадяни — голосування розпочнеться в "Дії" у січні. Наша мета — перетворити Україну на державу, орієнтовану на штучний інтелект.

Торік у березні при оголошенні про початок розробки Федоров заявляв, що запуск національної LLМ дасть старт масовому виробництву українських ШІ-інструментів. З його слів, тисячі ШІ-продуктів створені на базі LLM - віртуальні асистенти, як ChatGPT, генератори тексту, як Notion AI, інструменти для програмування, як GitHub Copilot.