Общество
Общество
2 минуты
ВКонтакте Одноклассники Telegram

Новый метод сжатия больших языковых моделей позволит быстро получать результаты даже на смартфоне и ноутбуке

Яндекс улучшил нейросетевое сжатие yandex.ru

Совместными усилиями специалистов «Яндекс» из лаборатории Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA удалось разработать метод быстрого сжатия больших языковых моделей (LLM) без потери их качества, благодаря чему работу с такими моделями можно проводить на обычном смартфоне или ноутбуке, и для этого не потребуется использовать мощные серверы с GPU. Новый метод позволит тестировать и внедрять новые решения на основе нейросетей, экономя как время, так и деньги на разработку.

Также этот метод позволит сделать работы с нейросетями доступными для небольших компаний, лабораторий и индивидуальных разработчиков. Если раньше перед запуском на смартфоне или ноутбуке необходимо было делать так называемую квантизацию на мощном сервере, что требовало продолжительного времени и затрат, то теперь эта задача может быть реализована с помощью смартфона или ноутбука за короткое время.

Новый метод проверили на большой языковой модели Llama 3 и Qwen 2.5, и он показал свою эффективность. Ранее ИА «Бизнес Код» писало, что Яндекс обновил веб музыку.