Как создавались российские нейросети

МС
Максим Смоляров

В зарубежных странах искусственный интеллект захватывает все новые и новые сферы: он успешно генерирует тексты, сдает экзамены на врача и адвоката, консультирует по разного рода вопросам.

Крупные российские IT-компании не отстают от своих иностранных конкурентов.

Яндекс

В 2021 году фирма создала первую нейросеть — «Балабоба». Она, как подчеркивали в компании, была сделана для демонстрации возможностей языковой модели YaLM (Yet another Language Model). «Балабоба» могла продолжать на русском (а после августа 2022 — еще и на английском) тексты после первой заданной фразы на любую тему, сохраняя относительную связность и стиль.

В конце 2023 года было объявлено, что «Балабоба» ушла на заслуженный отдых. Теперь «Яндекс» использует новую модель YaGPT (YaLM 2.0), включая ее в свои проекты — «Шедеврум», «Браузер» и «Алиса».

«Шедеврум» — генеративная нейросеть, которая может создавать изображения по описанию. Программа работает для iOS и Android опять же на русском и английском языках. При запуске сообщалось, что ИИ может подражать известным художникам, работая в разных стилях. Кроме того, она также учитывать пожелания, высказанные пользователем (например, если он указывает в тексте слова «фотореализм», «высокая детализация»).

«Тинькофф-Журнал», анализируя форматы работы с этой нейросетью, пишет, что она неплохо справлялась с художественным стилем, однако реализм у нее не получился. При этом дополнительные фразы по типу «повышенная детализация» не помогли.

Стоит помнить, что по содержанию изображений в «Шедевруме» есть некоторые ограничения:

  • Не стоит генерировать изображения конкретных людей;
  • Нельзя включать в генерацию политические или религиозные элементы;
  • Запрещены изображения непристойного характера (эротика, насилие, жестокость).

В августе 2023 года «Шедеврум» обновился: теперь «Яндекс» разрешает создавать видео. РБК отмечает, что контент формируется с помощью метода каскадной диффузии: сначала нейросеть рисует картинки, а потом поднимает их разрешение и насыщает разными деталями.

Кроме того, внутри программы можно генерировать тексты любого формата (стихи, рассказы и так далее). 

Еще пара слов про YaGPT. Эта генеративная нейросеть, которая, как мы указывали ранее, включена и внутрь, например, «Алисы». Что это значит для пользователя? Виртуальная «Алиса» научилась писать тексты практически как человек.  Однако тестировщики продукта отмечают и некоторые недостатки созданного ПО. Во-первых, нейросеть не может вести диалог в форматах ChatGPT (для каждого вопроса необходимо предоставлять полный контекст заново). Во-вторых, к сожалению, ИИ не умеет делать поисковые запросы, иногда ошибается в фактах, не справляется со сложными задачами.

Картинки из «Шедеврума»:

Осень. Сказочный чертог
Мороз и солнце 

Стихи и тексты из «Шедеврума»:

Гуси, гуси, га-га-га,  

Есть хотите? Да-да-да.  

Ну летите, как хотите,  

Только крылья берегите!

Осень — это время, когда природа начинает увядать и терять свою красоту. Листья на деревьях становятся желтыми и красными, а воздух наполняется запахом дыма и опавших листьев. Осень — это также время для сбора урожая и подготовки к зиме. Это время, когда мы можем наслаждаться красотой природы и проводить время с семьей и друзьями.

Сбер

Один из основных конкурентов Яндекса. Он предлагает две основные нейросети — Kandinsky и GigaChat.

Kandinsky. Первые версии программы были представлены общественности в 2022 году. V. 1.0 была построена на авторегрессионной модели. Это предполагает, что картинка создается по фрагментам: изображение, рассказывал один из ведущих программистов Сбера, «как бы нарезается на клеточки (как на шахматной доске), и каждый новый шаг алгоритма дорисовывает новый квадратик. Таким образом, авторегрессия заключается в том, что мы для восстановления следующего кусочка используем информацию обо всех предыдущих».

Защита программы в Роспатенте

Подготовка от 2-3 дней

Экспертиза 1-2 мес.

Срок действия бессрочно

V. 2.0 существенно отличалась от первого поколения: она работала быстрее, картинка получалась более сочной, реалистичной и глубокой. Кроме того, на специальном сайте предусматривалась возможность генерации изображений сразу в 20 стилях (ренессанс, мультипликация, Новый год, классицизм и так далее).

Весной 2023 года корпорация представила версию 2.1. На первых порах ИИ создавал неплохие арты (в то время, как зарубежные Midjourney и Stable Diffusion занимались уже фотореализмом). Разработчики уловили тренды и обновили ПО: в версии 2.2 фотореализм становится главной «фишкой» (другие новшества включали изменение разрешения генерации — до 1024 пикселей по каждой стороне, модификацию соотношения сторон, а также возможность создания стикеров).

При этом, подчеркивали программисты, принцип работы нейросети никак не отличался от конкурентов. Пользователь может на 100 языках составить текстовый запрос и получить какой-то результат.

У нейросети, отмечает «Тинькофф-Журнал», есть несколько вариантов работы:

  • Генерация по тексту;
  • Смешивание изображений (загружается две картинки, человек получает микс);
  • Вариация (на готовое фото устанавливается определенный стиль);
  • Дорисовка (фото дополняется оставшимися за кадром деталями);
  • Перенос стиля (поза персонажа или исходник переводится на новую сгенерированную картинку).

GigaChat — второй крупный нейросетевой продукт «Сбера». Он может, указывают создатели, отвечать на вопросы, вести прямой диалог, писать коды для программирования, придумывать форматы презентаций, сочинять стихи. При этом нейросеть работает как на русском, так и на английском языках. 

Позитивные результаты уже есть. РБК, например, выпустил номер, в создании которого участвовал и GigaChat. Нейросеть написала саммари к каждому тексту журналистов. К некоторым материалам добавила информационные справки.

В августе 2023 «Сбер» включил GigaChat на колонках SberBoom. Пользователь, отмечали сотрудники компании, может сгенерировать текст по заданным параметрам, запросив ассистента. Функций много: сочини сказку, предложи вариант презента, обсудим идею, придумаем поздравление на праздник, сформируем рецепт, составим инструкцию и так далее.

Стихи и тексты, созданные GigaChat: 

Гусь лапчатый, гусь пернатый, 

Гусь сизокрылый и хвостатый, 

Гусиный царь и господин, 

Владыка вод и луговых равнин. 

Его мы видим на пруду, 

Он плавает, как будто на ходу, 

И громко гогочет, и шипит, 

И крыльями усердно шевелит. 

Но вот он голову поднял 

И в небе высоком повис, 

А под ним простор голубой, 

И облака, и ветер живой.

Очей очарованье осыпалось к ногам, 

Тепло попряталось в карманы и квартиры, 

И хлещутся дожди, и птиц не слышен гам — 

Им нечего теперь искать за облаками.

А до Kandinsky и GigaChat были ли какие-то еще нейросети в Сбере? В 2021 году компания рассказывала о ruDALL-E — первой в мире мультимодальной нейросети, генерирующей оригинальные изображения по заданному русскоязычному описанию. Это ПО до сих пор живо и работает. Оценить возможности ruDALL-E можно на ее официальном сайте

В апреле 2022 разработчики представили mGPT. Она, уточняли в компании, могла генерировать тексты на 61 языке мира.

Также была известна RuGPT-3. Эта нейросеть умеет писать тексты на русском языке. Ее основные навыки: может продолжить историю, создать отзыв или твит в соцсетях.

МС
Максим Смоляров
746
+1
746
Наши каналы

Хотите быть в курсе всего?
Подпишитесь на нашу рассылку

Спасибо за подписку! Замечательно, что вы с нами.

Лучшие идеи и технологии со всего мира — в вашей почте

Спасибо за подписку! Замечательно, что вы с нами.