Цифровая платформа «Инфоаналитик» для разработки мультимодальных систем искусственного интеллекта

Опубликовано 30 мая 2025 г. в 03:53 · Артём Золотаревский

28 мая 2025 года мы выступили на XXVIII Международной конференция по мягким вычислениям и измерениям (SCM'2025) в Санкт-Петербургском государственном электротехническом университете ЛЭТИ имени В.И. Ульянова Ленина с пленарным докладом "Цифровая платформа «Инфоаналитик» для разработки мультимодальных систем искусственного интеллекта". Участники SCM`25 - представляли 11 регионов России: Санкт-Петербург, Москву и Московскую область, Дубну, Тулу, Пятигорск, Майкоп, Казань, Томск, Смоленск, Саратов. Наряду с российскими учеными в конференции приняли участие коллеги из Испании, Канады, Турции, Ирака, Индии, Сирии, Вьетнама и Китайской народной республики. Всего в рамках 12-ти секций SCM`25 было сделано 124 научных доклада. По итогам рецензирования 103 из них будут переданы для размещения в коллекцию электронной библиотеки IEEE Xplore.

На пленарном заседании с докладами выступили: профессор С.В. Прокопчина, Финансовый университет при Правительстве Российской Федерации; С.Ю. Юриш, президент Международной ассоциации сенсорных систем IFSA, Испания; А.С. Березин, канд. техн. наук, НП РУССОФТ, Интелсофт, Технический комитет 164 «Искусственный интеллект», Советник Президента Ассоциации цифровой трансформации; Фрадков А.Л., Институт проблем машиноведения РАН; Пронин А.Н., генеральный директор ВНИИМ им. Д.И. Менделеева; Борисов В.В., Национальный исследовательский университет «МЭИ», президент Российской ассоциации искусственного интеллекта. Также в рамках пленарного заседания состоялся доклад профессора Университета Альберты (Канада) Витольда Педрича «Среда знаний и ориентиры знаний в машинном обучении».

Пост-релиз конференции доступен по ссылке - https://infoanalytic.ru/content/?item_id=1&file=post_reliz25.pdf.
Сайт конференции - https://scm.etu.ru/.

Презентация доклада

Ваш браузер не поддерживает плавающие фреймы!

Запись выступления

Примерный текст доклада

Мультимодальный ИИ — это системы или модели искусственного интеллекта, которые могут обрабатывать и интегрировать информацию из нескольких модальностей или источников данных. Эти модальности могут включать текст, изображения, видео, аудио, 3d графику, сенсорные данные (сигналы с датчиков) и другие формы данных. В отличие от традиционных моделей ИИ, которые специализировались на работе с одним типом данных (например, только с текстом или только с изображениями), мультимодальные системы могут свободно переключаться между различными форматами и понимать взаимосвязи между ними.

Объединение нескольких типов данных позволяет системам лучше улавливать контекст, определять нюансы ситуации и выявлять сложные взаимосвязи между различными элементами информации. Повышается точность и надежность решений. Даже если один из каналов содержит недостаточно информации или имеет шумы, другие источники могут дополнить картину, обеспечивая баланс и точность анализа.

Расширяются области применения. Например, в здравоохранении такие системы помогают анализировать медицинские изображения в сочетании с текстовыми данными о пациенте, улучшая диагностику и планирование лечения.

Появляется универсальность решений. Такие системы становятся особенно востребованными в робототехнике и автономных системах, где комплексный анализ окружающей среды помогает принимать более корректные решения в режиме реального времени.

Ожидается, что к концу 2025 года мультимодальные системы станут стандартом для большинства коммерческих приложений ИИ.

Мультимодальные системы позволяют создавать более мощные и гибкие решения ИИ, но они значительно сложнее в инженерном и научном плане, чем "одномодальные", и требуют комплексного подхода к сбору данных, архитектуре и тестированию.

При разработке такого класса систем возникают специфические проблемы и сложности.

Сложность объединения разнородных данных

Гетерогенность данных: Разные модальности (картинки, аудио, тексты) имеют различную природу, структуру и размерность.
Представление данных: Необходимость привести разнородные данные к совместимому пространству признаков или найти эффективный способ их совместного представления (embeddings).
Синхронизация: Особенно сложна задача синхронизации, когда модальности далеки по времени (например, звук и видео могут не совпадать по таймингам).

Аннотирование и сбор данных

Ограниченная доступность мультианнотированных датасетов.
Высокая стоимость ручной разметки данных по всем модальностям.
Трудность выравнивания данных (alignment), например, связывание сегментов аудио с фрагментами текста или изображения.

Сложности обучения моделей

Большие вычислительные ресурсы: Для обучения мультимодальных моделей требуется больше памяти, времени и GPU/TPU-ресурсов.
Переобучение одной модальности: Часто одна модальность "доминирует", и другая используется малоэффективно — нужен специальный баланс или регуляризация.
Обработка пропущенных данных: На практике не всегда присутствуют все модальности; сложно корректно обрабатывать случаи отсутствия какого-либо входа.

Архитектурные трудности

Проектирование архитектуры: Требуется тщательно продумать, как и когда сливать признаки (early fusion, late fusion), как строить кроссмодальные взаимодействия (cross-attention и др.).
Совместимость моделей: Нужно подобрать и согласовать архитектуры под разные типы данных (например, CNN для изображений, Transformer для текста).
Различие временных масштабов: Видео и аудио имеют высокую частоту, а текст — низкую; нужно выравнивать временные ряды.

Проблемы интеграции и вывода

Интерпретируемость: Сложно объяснить, как данные разных модальностей повлияли на итоговое решение.
Сложность отладки: Ошибки могут возникать на стыке работы с разными модальностями, найти причину затруднительно.
Реализация мультимодальных выводов: Необходимо обеспечить, чтобы система адекватно объединяла прогнозы моделей по отдельным модальностям.

Проблемы производительности и развертывания

Имеются затраты времени на обработку больших объемов данных разных типов.
Необходима оптимизация для разных аппаратных платформ, поддержка потоковой обработки.

Проблемы устойчивости и генерализации

Обобщаемость на новые сочетания модальностей: Если при обучении не было некоторых сочетаний ("видел только текст + изображение, но не аудио + видео").
Устойчивость к "шуму" или потере одной из модальностей.

Какую цель мы ставим: устранение существующих барьеров в разработке мультимодальных и многомодульных систем искусственного интеллекта.

Какое решение мы предлагаем. Мы предлагаем использовать цифровую платформу Инфоаналитик для разработки многомодульных и мультимодальных систем искусственного интеллекта.

Наша система имеет регуляризацию на шкалах, что обеспечивает устойчивость решений при работе с неточными, неполными и шумными данными.
Реализует байесовский подход для объединения разнородных потоков данных. Его применение даёт интерпретируемость решений.
Имеется метрологическое сопровождение решений в виде метрик доверительности, надежности, риска.
Шкалы с динамическими ограничениями позволяют строить адаптивные модели мониторинга, реализуя принципы мягкого нормирования.
Применение теории лингвистических переменных Лотфи Заде позволяет привлекать экспертную информацию и знания в качестве данных, что позволяет работать при малых выборках.
Сама платформа Инфоаналитик представляет собой систему искусственного интеллекта, работающую в режиме распознавания образов.

Давайте рассмотрим конкретные технологии, которые мы используем и разрабатываем для создания платформы по разработке мультимодальных систем и их ключевой функции: интеграции разнородных информационных потоков.

Во-первых, мы подробно задокументировали все функции и инструменты нашей платформы. Мы применяем OpenAPI, благодаря чему документация всегда актуальна, подробно описаны все входы, выходы, схемы данных.

Взаимодействие с платформовой возможно в формате клиент-сервер и в формате потоковой передачи данных.

Для реализация клиент-серверного взаимодействия мы реализовали прикладной программный интерфейс REST API. REST API - это общепринятый стандарт для реализации взаимодействия между приложениями. Принципы и ограничения REST API были определены в 2000 году Роем Филдингом, одним из создателей протокола HTTP.

Для потокового взаимодействия используется протокол SSE (Server-sent Events).

Model Context Protocol (MCP) — открытый стандарт для передачи контекста между моделями искусственного интеллекта (ИИ) и внешними инструментами, системами и источниками данных. Протокол предоставляет универсальный интерфейс для чтения файлов, выполнения функций и обработки контекстных подсказок. Протокол был официально анонсирован компанией Anthropic в ноябре 2024 года, а затем внедрен крупнейшими поставщиками искусственного интеллекта, включая OpenAI и Google DeepMind.

Мы используем большие языковые модели, которые выступают в роли экспертов. С помощью протокола MCP мы можем дать LLM доступ к внешним системам, дать доступ к поиску в интернете, к внутренним корпоративным базам данных, к показаниям приборов и т.д. LLM обучена решать логические задачи, следовать заданным правилам, указаниям. За счет этого можно строить гибкую логику работы системы, способную адаптироваться под самые разные задачи. LLM обучены структурировать неструктурированные данные. А за счет того, что мы детально описали все схемы данных всех функций нашей цифровой платформы Инфоаналитик, мы можем предоставить LLM возможность взаимодействовать с нашей платформой. LLM может определять в зависимости от контекста, когда и какую функцию или даже цепочку функций платформы нужно вызывать.

И вот как это выглядит на практике.

Мы просим LLM: "Создай модель оценки успешности бизнеса".

LLM определяет какие факторы и подфакторы стоит включить в иерархическое дерево модели, а затем вызывает соответствующие функции платформы.

Мы можем интерактивно взаимодействовать с LLM, давай ей конкретные указания по доработке того или иного направления модели.

Вот так это выглядит в нашей системы.

В списке моделей появилась новая строчка.

А вот так выглядит созданное дерево.

Мы просим доработать модель, добавив факторы в дерево.

В результате мы получаем вот такую модель для оценки успешности бизнеса.

Теперь мы попросим LLM на основе открытых источников собрать информацию и внести ее в систему.

LLM ищет информацию в интернете, находит финансовую отчетность нужной компании, говорит что ей удалось найти и спрашивает подтверждение для дальнейших действий.

Мы подтверждаем, просим ее внести данные в Инфоаналитик.

И таким образом у нас появились временные ряды в Инфоаналитике.

Дальше данные интегрируются средствами цифровой платформы Инфоаналитик, после чего мы можем смотреть динамику показателей, строить прогнозы, оценивать состояние факторов, с помощью когнитивной графики создавать системы мониторинга для оценки общего состояния сложной распределенной системы.

На примере оценки состояний факторов мы можем получать с помощью применения LLM развернутые интерпретации состояний и развернутые рекомендации по исправлению состояний, которые могут строиться на основе данных внутренней документации предприятия: данных об оборудовании, внутренних регламентах, процессных и должностных инструкций, отчетов сотрудников, а также экспертной информации полученных из интернета и профильных журналов или новостной сводки.

Несколько слайдов самого интерфейса инфоаналитика.

Таким образом, в заключение, мы предлагаем решение для разработки мультимодальных систем искусственного интеллекта, предоставляющее соответствующие механизмы и инструментарий для интеграции разнородных потоков информации, интерпретируемость решений, устойчивость решений за счет регуляризации, полное метрологические сопровождение решений на основе регуляризирующего байесовского подхода, интеллектуальных байесовских технологий, измерений и аналитики. Решение реализуется на цифровой платформе Инфоаналитик.

У нас появился сайт, который мы постепенно будем наполнять информаций и новостями. Вот наши контакты.

Спасибо за внимание.

Буду рад ответить на вопросы в перерыве после завершения пленарных докладов.