Исследователи из Stevens Institute of Technology предложили алгоритм, который повышает эффективность обучения больших языковых моделей, одновременно снижая энергопотребление и объем передаваемых данных.
Метод направлен на улучшение обмена данными между участниками распределенного обучения. Это позволяет повысить производительность моделей и уменьшить затраты как на вычисления, так и на коммуникацию между узлами.
Подход особенно важен для сценариев, где централизованный сбор данных затруднен из-за требований к приватности или организационных ограничений. В таких условиях распределенное обучение становится основным вариантом, но оно традиционно сопровождается высокими издержками на передачу данных и синхронизацию моделей.
Предложенный алгоритм уменьшает эти издержки, что делает адаптацию крупных моделей более доступной для организаций с ограниченными ресурсами.
Разработка также ориентирована на более равномерное внедрение ИИ в разных областях, включая здравоохранение, образование и межорганизационное сотрудничество, где обмен данными между участниками ограничен.
В основе работы лежит метод тонкой настройки больших языковых моделей в федеративной среде с учетом неоднородности данных. Для этого используется техника переносимой разреженности, которая позволяет уменьшить объем передаваемой информации без потери качества обучения.
Исследование оформлено в работе "Mitigating Non-IID Drift in Zeroth-Order Federated LLM Fine-Tuning with Transferable Sparsity", опубликованной в 2026 году.
Источник: TechExplore