Наш ответ чату GPT, или В чём фишка казахстанского ИИ

Анна Величко
ИИ / Ulysmedia

Как отмечают разработчики своего, то есть отечественного, мировые IT-гиганты имеют крайне скудное представление о Казахстане, поэтому всем привычные сервисы ИИ часто выдают ложную информацию о нашей стране, не могут нарисовать правильный портрет казаха, и даже представляют угрозу национальной безопасности. Поэтому в качестве альтернативы глобальному продукту создается целый ряд казахстанских приложений. Ulysmedia.kz разбирался, чем чужое хуже нашего.

Искусственный интеллект для многих уже стал продолжением естественного, а для некоторых, к сожалению, даже его заменой.

Согласно исследованиям некоммерческой организации Internet Matters, подростки все чаще заменяют живое общение беседами с искусственным интеллектом.

В исследовании приняли участие 1000 детей в возрасте от 9 до 17 лет. 67% из них признались, что регулярно пользуются чат-ботами с ИИ. При этом 35% из этой подгруппы заявили, что общение с ботом очень похоже на дружеское. А 12% поделились, что они общаются с ИИ, потому что им больше не с кем поговорить.

Нейросети с казахским “мозгом”

И тут крайне важно - какие ценности пропагандирует ИИ, с которым общаются казахстанцы? Уважает ли он казахстанские законы и менталитет?

Как отмечает менеджер IT-продукта Института умных систем и искусственного интеллекта (ISSAI) Назарбаев Университета Амина Байкенова, одна из проблем мировых нейросетей - слабая интеграция в казахстанский контекст.

Поэтому в институте разработали целую линейку продуктов, которые говорят на казахском и думают, как казахстанцы.

Среди разработок - умный ассистент Oylan 2.5, который понимает казахский, русский и английский языки, причем казахский понимает и кириллицей, и латиницей, отвечает также на том языке, который удобен пользователю.

   - Переход казахского языка на латиницу – это не просто смена графики, это этап модернизации мышления. В связи с этим мы работаем над тем, чтобы латиница могла быть доступна на наших продуктах. И также, мы получаем отзывы от нашего юного поколения, что они чаще пользуются латиницей, а не кириллицей, - объясняет Амина Байкенова.

Следующий проект – MangiSoz 2.0. Эта система распознаёт речь и переводит её на другие языки в текстовом и аудио формате. Работает с пятью языками: казахским, русским, английским, турецким и китайским. Можно выбрать мужской или женский голос.

Также специалисты Назарбаев университета рассказали о TilSync - сервисе автоматических субтитров.

   - В основном это приложение можно использовать для перевода онлайн-лекций, образовательных курсов, конференций, - говорит Байкенова.

Еще одна нейросеть - Beynele генерирует изображения.

   - Beynele генерирует реалистичные художественные изображения. Он понимает, как универсальные, так и специфические для Казахстана понятия, так как обучен полностью на данных из Казахстана. Он также отражает местную культуру, фольклор, пейзаж и современную жизнь, - утверждает менеджер IT-продукта.

Вопрос национальной безопасности

Отечественные нейросети, как отмечают разработчики, решают еще один важный момент.

   - Используя тот же чат GPT или Google Translate, мы отправляем данные в чье-то облако, где это облако находится, что происходит с этими данными - сохраняются они, не сохраняются, и как они в дальнейшем будут использоваться - мы, как конечные пользователи, не знаем, - подчеркивает Амина Байкенова.

То есть, стоит вопрос о национальной безопасности, особенно если учесть, что нейросетями могут пользоваться не только подростки, но и вполне себе взрослые дяди и тети на высоких государственных должностях.

Именно поэтому в некоторых организациях запрещен не только ИИ, но даже просто - Интернет.

   - Мы собрали наш собственный сервер Mangitas с быстрой памятью и оптимизированной архитектурой. Ноу-хау этого сервера состоит в том, что нашей командой был выведен способ, как правильно разложить модель, которая должна храниться на больших серверах и вместить ее в относительно небольшую коробку, тем самым предоставить возможность компаниям работать в закрытом контуре и обеспечивать надежную защиту данных.

Как уверяют сотрудники Назарбаев Университета, абсолютно безопасны с точки зрения конфиденциальности данных и остальные их разработки.

   - Все данные, которые обрабатываются на наших серверах, находятся здесь, локально - в Назарбаев университете, в нашем дата-центре. Это не облачное решение, это физический сервер, который находится здесь, и данные, они не сохраняются, они проходят через сервер, обрабатываются и отправляются конечному пользователю. Мы не видим, что вы делаете, переводите или обрабатываете, - объясняет Амина Байкенова.

Но тогда возникает новый вопрос - а как же учатся казахстанские нейросети? Основной принцип их развития - аккумуляция полученных от пользователей сведений, их обработка и вычленение основных закономерностей которые ИИ в будущем считает истиной.

И чем меньше данных он “проглотил”, тем больше ошибок будет выдавать.

Исполнительный директор ISSAI Ербол Абсалямов не стал отрицать, что такая проблема сейчас действительно есть.

   - Единственные данные, которые мы получаем, это ответы пользователей. Например, если вам не нравится перевод, вы можете поставить дизлайк и предложить правильную версию. После этого мы тренируем сеть с дополнительными данными. И это одна из причин, почему мы размещаем наши нейросети в открытом доступе.  Таким образом, мы с одной стороны облегчаем жизнь казахстанцам, с другой получаем реальный ответ. Наша работа не только академическая, но и реальная задача создания полезных продуктов и услуг для людей, - говорит он.

Лучше платить своим?

Пользование казахстанским ИИ, как сразу предупредили разработчики, будет платным.

   - Пробный бесплатный период не имеет какого-то определенного времени, он считается от количества символов. Если говорить о Mangisoz, то при регистрации мы предоставляем бесплатно 250 тысяч символов, это примерно 500 - 600 страниц 12 шрифтом. Если говорить о сервисе Oilan, то это 50 тысяч токенов, которых хватит примерно на полгода пользования. Следующие токены и символы вам надо будет докупать, но цена будет символической - около 4 тысяч тенге за миллион токенов, - говорит Амина Байкенова.

В то же время казахстанцы, работающие в IT, признают - за нейросети уже приходится платить, эти подписки стали для многих обязательными.

Но зачем платить иностранному “дяде”, если появляются свои, отечественные разработки?

Кел, нейросеть, оқылық!

Ответ на этот вопрос, на самом деле, банален: люди хотят платить за качество.

Могут ли его дать отечественные разработки - вопрос пока открытый.

Журналисты Ulysmedia попросили сервис Mangisoz перевести несколько цитат из репортажа нашей казахской редакции на русский. С заданием отечественная нейросеть справилась на “троечку”.

 К примеру, фразу “САРАПТАМАДА КӨРСЕТІЛГЕН СӨЗДЕР МЕНІКІ ЕМЕС” казахстанский сервис перевел как “СЛОВА, УКАЗАННЫЕ В ЭКСПЕРТИЗЕ, НЕ НАНЕСЕНЫ”.

Не получилось создать хотя бы немного приближенную к реальности картинку по промпту “казахстанцы читают Улысмедиа” и у сервиса Beynele. Мало того, что читают казахстанцы как-то странно, так еще и, как выяснилось, исключительно газеты, а на фоне не современный город, а юрты.

Так что, конечно же, учиться казахстанским нейросетям еще надо многому.

Но, с другой стороны, и всезнающий чат GPT, согласно исследованиям, выдает неверные ответы на 67% запросов. А Grok 3, платная версия которого стоит 40 долларов в месяц, и вовсе “врет” в 94% случаев.

Однако с каждым годом нейросети становятся все “умнее”, и хочется верить, что казахстанские разработчики успеют не только нагнать, но и перегнать иностранных коллег.