banner
Центр новостей
Получите поддержку в любое время с помощью нашей круглосуточной онлайн-службы.

Распаковка «черного ящика» для создания лучших моделей ИИ

Dec 28, 2023

Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».

Предыдущее изображение Следующее изображение

Когда модели глубокого обучения применяются в реальном мире, например, для обнаружения финансового мошенничества, связанного с операциями по кредитным картам, или для выявления рака на медицинских изображениях, они часто способны превзойти людей.

Но что именно изучают эти модели глубокого обучения? Например, модель, обученная распознавать рак кожи на клинических изображениях, действительно изучает цвета и текстуры раковой ткани или же она отмечает какие-то другие особенности или закономерности?

Эти мощные модели машинного обучения обычно основаны на искусственных нейронных сетях, которые могут иметь миллионы узлов, обрабатывающих данные для составления прогнозов. Из-за их сложности исследователи часто называют эти модели «черными ящиками», поскольку даже ученые, которые их строят, не понимают всего, что происходит под капотом.

Стефани Джегелка не удовлетворена объяснением «черного ящика». Недавно получивший должность доцента кафедры электротехники и компьютерных наук Массачусетского технологического института, Джегелька углубляется в глубокое обучение, чтобы понять, чему могут научиться эти модели и как они себя ведут, а также как встроить в эти модели определенную априорную информацию.

«В конце концов, то, чему научится модель глубокого обучения, зависит от очень многих факторов. Но формирование понимания, актуального на практике, поможет нам разрабатывать более качественные модели, а также поможет нам понять, что происходит внутри них, чтобы мы знали, когда мы можем развернуть модель, а когда нет. Это чрезвычайно важно», — говорит Джегелька, который также является членом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и Института данных, систем и общества (IDSS).

Джегелька особенно интересуется оптимизацией моделей машинного обучения, когда входные данные имеют форму графиков. Данные графа создают особые проблемы: например, информация в данных состоит как из информации об отдельных узлах и ребрах, так и из структуры — что с чем связано. Кроме того, графики обладают математической симметрией, которую должна соблюдать модель машинного обучения, чтобы, например, один и тот же график всегда приводил к одному и тому же прогнозу. Встроить такую ​​симметрию в модель машинного обучения обычно непросто.

Возьмем, к примеру, молекулы. Молекулы можно представить в виде графов, вершины которых соответствуют атомам, а ребра — химическим связям между ними. Фармацевтические компании, возможно, захотят использовать глубокое обучение, чтобы быстро предсказать свойства многих молекул, сузив число тех, которые они должны физически протестировать в лаборатории.

Джегелька изучает методы построения математических моделей машинного обучения, которые могут эффективно принимать графические данные в качестве входных данных и выводить что-то еще, в данном случае прогнозирование химических свойств молекулы. Это особенно сложно, поскольку свойства молекулы определяются не только атомами внутри нее, но и связями между ними.

Другие примеры машинного обучения на графах включают маршрутизацию трафика, проектирование чипов и рекомендательные системы.

Разработка этих моделей еще более усложняется тем фактом, что данные, используемые для их обучения, часто отличаются от данных, которые модели видят на практике. Возможно, модель была обучена с использованием небольших молекулярных графов или сетей трафика, но графы, которые она видит после развертывания, становятся больше или сложнее.

В этом случае, что исследователи могут ожидать от этой модели, и будет ли она работать на практике, если реальные данные будут другими?