Apple представила FastVLM — визуально-языковую модель высокой точности, которая работает на смартфоне

ML-исследователи Apple представили FastVLM — быструю и точную визуально-языковую модель машинного обучения, которую можно запустить на смартфоне.

Apple представила FastVLM — визуально-языковую модель высокой точности, которая работает на смартфоне

Авторы проекта отмечают, что визуально-языковые модели объединяют в себе возможности обработки визуальной и текстовой информации. Такие модели распознают сложные изображения и понимают контекст. Главная их проблема в том, что для высокой точности на вход надо подавать изображение в высоком разрешении. Чем выше разрешение, тем больше нужно вычислительных ресурсов. Это мешает запускать VLM локально, особенно на мобильных устройствах.

Для решения проблемы инженеры Apple разработали свою архитектуру VLM. В основе лежит энкодер FastViT‑HD, которая во время анализа изображений в высоком разрешении генерирует меньше токенов. Сами токены при этом более качественные и точные. Кроме того, FastViT‑HD работает быстрее аналогов.

Apple представила FastVLM — визуально-языковую модель высокой точности, которая работает на смартфоне

В тестах FastVLM быстрее и точнее аналогов одинакового размера. Также для демонстрации возможностей Apple собрала тестовое приложение для iPhone 16 Pro. В нём использовали модель FastVLM 0.5B, запущенную с помощью нативного фреймворка MLX, адаптированного для работы с объединённой памятью устройств Apple.

Более подробно про архитектуру и технические решения можно прочитать в публикации инженеров Apple. Код и ссылки на модели разных размеров доступны в репозитории.

Источник: habr.com

Next Post

Google представила Opal — платформу для генерации веб-приложений на базе Gemini

Исследовательская лаборатория Google Labs выпустила бета-версию Opal — сервиса для генерации веб-приложений на базе моделей машинного обучения Gemini. Пользователь может на естественном языке описать идею приложение, а система — сгенерирует визуал и код. При желании в результат можно внести правки. Это можно сделать с помощью дополнительных текстовых подсказок или редактирования […]