Forwarded from Малоизвестное интересное
У Китая и России появился шанс не дать США уйти в отрыв в области ИИ.
В этом году США пошли на крайние меры, чтобы не позволить Китаю догнать и перегнать США в важнейшей для нацбезопасности индустрии ИИ. Введенные США экспортные ограничения на высокопроизводительные процессоры сильно усложняют Китаю (не имеющему пока соизмеримых по производительности собственных процессоров) возможность конкуренции в области ИИ. Заодно под раздачу экспортных ограничений (по известным причинам) попала и Россия. И это лишает российские компании и без того тусклой перспективы, - пусть не догнать США, но хотя бы отставать на годы, а не на десятилетия.
Но тут случилось такое, что мало кто мог предвидеть.
Компания Together объявила, что смогла обучить свою модель с открытым кодом GPT-JT (6 млрд параметров):
• децентрализованно (на разнородной группе не самых крутых графических процессоров)
• соединенных медленными интернет-каналами (1 Гбит/с)
Авторы модели GPT-JT придумали кучу хитрых способов уменьшения вычислительной и коммуникационной нагрузки при децентрализованном обучении. В результате, эта модель на тестах классификации приближается к современным моделям, которые намного её крупнее (например, InstructGPT davinci v2).
Это достижение может иметь колоссальные последствия.
✔️ До сих пор магистральная линия развития ИИ определялась ограниченным набором компаний, имеющих доступ к большим централизованным компьютерам. На этих высокопроизводительных вычислительных комплексах обучались все т.н. большие модели, начиная от AlphaZero и заканчивая GPT3.
✔️ Компаниям, не имеющим в распоряжении суперкомпьютерных мощностей в этой гонке было нечего ловить (см мой пост «Есть «железо» - участвуй в гонке. Нет «железа» - кури в сторонке»).
GPT-JT сметает шашки с доски, предлагая совершенно иной сценарий будущего.
Вместо нескольких компаний – гигантов, оснащенных суперкомпьютерными системами для ИИ, распределенные коллективы разработчиков могут объединять свои скромные компьютерные мощности через не самые быстрые интернет-каналы, чтобы вместе обучать большие модели.
Но это возможно лишь при условии, что разработчики GPT-JT смогут её масштабировать со скромных 6 млрд параметров на сотни миллиардов. Ибо таково требование сегодняшних больших моделей. А в 2023 счет пойдет уже на триллионы параметров.
#ИИ #HPC #Россия #Китай #ЭкспортныйКонтроль
В этом году США пошли на крайние меры, чтобы не позволить Китаю догнать и перегнать США в важнейшей для нацбезопасности индустрии ИИ. Введенные США экспортные ограничения на высокопроизводительные процессоры сильно усложняют Китаю (не имеющему пока соизмеримых по производительности собственных процессоров) возможность конкуренции в области ИИ. Заодно под раздачу экспортных ограничений (по известным причинам) попала и Россия. И это лишает российские компании и без того тусклой перспективы, - пусть не догнать США, но хотя бы отставать на годы, а не на десятилетия.
Но тут случилось такое, что мало кто мог предвидеть.
Компания Together объявила, что смогла обучить свою модель с открытым кодом GPT-JT (6 млрд параметров):
• децентрализованно (на разнородной группе не самых крутых графических процессоров)
• соединенных медленными интернет-каналами (1 Гбит/с)
Авторы модели GPT-JT придумали кучу хитрых способов уменьшения вычислительной и коммуникационной нагрузки при децентрализованном обучении. В результате, эта модель на тестах классификации приближается к современным моделям, которые намного её крупнее (например, InstructGPT davinci v2).
Это достижение может иметь колоссальные последствия.
✔️ До сих пор магистральная линия развития ИИ определялась ограниченным набором компаний, имеющих доступ к большим централизованным компьютерам. На этих высокопроизводительных вычислительных комплексах обучались все т.н. большие модели, начиная от AlphaZero и заканчивая GPT3.
✔️ Компаниям, не имеющим в распоряжении суперкомпьютерных мощностей в этой гонке было нечего ловить (см мой пост «Есть «железо» - участвуй в гонке. Нет «железа» - кури в сторонке»).
GPT-JT сметает шашки с доски, предлагая совершенно иной сценарий будущего.
Вместо нескольких компаний – гигантов, оснащенных суперкомпьютерными системами для ИИ, распределенные коллективы разработчиков могут объединять свои скромные компьютерные мощности через не самые быстрые интернет-каналы, чтобы вместе обучать большие модели.
Но это возможно лишь при условии, что разработчики GPT-JT смогут её масштабировать со скромных 6 млрд параметров на сотни миллиардов. Ибо таково требование сегодняшних больших моделей. А в 2023 счет пойдет уже на триллионы параметров.
#ИИ #HPC #Россия #Китай #ЭкспортныйКонтроль