Лян Вэньфэн — таемны заснавальнік DeepSeek, які перавярнуў свет штучнага інтэлекту

31.01.2025 / 9:0

Антось Жупран

Да 20 студзеня твар стваральніка кітайскага інструмента штучнага інтэлекту не быў вядомы шырокай публіцы. У той дзень 40-гадовага мужчыну паказала кітайскае тэлебачанне. Што пра яго вядома?

Лян Вэньфэн (справа) падчас сустрэчы з прэм'ерам Дзяржрады Кітая Лі Цяна. Скрын відэа: ShanghaiEyeMagic / YouTube

Яшчэ некалькі тыдняў таму мала хто па-за межамі свету кітайскіх фінансаў ведаў імя Лян Вэньфэна (Liang Wenfeng). 20 студзеня па кітайскім тэлебачанні быў паказаны сюжэт аб сустрэчы прэм'ера Дзяржрады Кітая Лі Цяна з невялікай групай экспертаў у галіне штучнага інтэлекту на чале з гэтым 40-гадовым мужчынам.

«Апрануты ў светлы гарнітур і светла-шэры світар, калі ўсе астатнія выбралі цёмныя пінжакі. Непаслухмяныя пасмы валасоў нядбайна ападалі на масіўную аправу акуляраў, што яшчэ больш рабіла яго знешні воблік падобным да гіка. Такім ён з’явіўся ўпершыню ў галоўным выпуску навін дзяржаўнага тэлебачання а 7-й вечара», — піша Le Mond.

Для Кітая гэта было першае знаёмства з новым героем тэхналагічнай гонкі з ЗША, які 20 студзеня прадставіў сваю новую мадэль штучнага інтэлекту DeepSeek-R1, адкрытую і бясплатную, створаную з выкарыстаннем у разы меншага фінансавання і вылічальных магутнасцей.

Так хто ж гэты мужчына, стваральнік стартапу, які выклікаў хваляванне ў Сіліконавай даліне і нервовасць на Уол-стрыт?

Лян Вэньфэн, нарадзіўся ў 1985 годзе ў партовым горадзе Чжанцзян на поўдні Кітая. Яшчэ падчас вучобы ва ўніверсітэце ў Ханчжоў ён захапіўся фінансавым мадэляваннем, натхнёны поспехамі хедж-фонду Renaissance.

Хлопец пісаў першыя алгарытмы для аналізу рынку, а ў 2013 годзе, праз некалькі гадоў пасля атрымання дыплома, разам з аднакурснікамі заснаваў квантавы інвестыцыйны фонд, які выкарыстоўваў мадэляванне вялікіх даных для прагназавання рынкавай дынамікі і частковай аўтаматызацыі інвестыцыйных рашэнняў.

У 2015 годзе, калі кітайскі фондавы рынак перажыў бурны рост, а затым крызіс, гэта адкрыла магчымасці для вопытных трэйдараў. Заснаваны ў той жа год другі фонд Ляна Вэньфэна, High-Flyer, прынёс значныя прыбыткі. Да 2019 года яго актывы выраслі з 1 да 10 мільярдаў юаняў (з 130 мільёнаў да 1,3 мільярда еўра).

Паўнавартасна засяродзіўшыся на трэйдынгу з выкарыстаннем ШІ, Вэньфэн інвеставаў у вылічальныя магутнасці: High-Flyer закупіў суперкамп’ютары на 156 мільёнаў еўра і паспеў набыць 10 000 картак Nvidia A100 да ўвядзення санкцый ЗША супраць Кітая ў 2022 годзе. Але ўжо тады яго ўвага была скіраваная далей — на стварэнне «агульнага штучнага інтэлекту», які павінен пераўзысці чалавечы.

Лян Вэньфэн у 2019 годзе. Фота: VCG/VCG via Getty Images

Стварэнне DeepSeek

Інвестыцыі для DeepSeek Вэньфэн бярэ з High-Flyer і прыцягвае на працу маладых выпускнікоў без досведу, лічачы, што «тыя, хто не ведае гатовых рашэнняў, шукаюць новыя». Сам ён працягвае пісаць код, чытаць навуковыя артыкулы і ўдзельнічаць у абмеркаваннях DeepSeek. Як адзначаюць эксперты, Кітай мае дзве ключавыя перавагі: шматлікія таленты ў матэматыцы і вялікія масівы дадзеных для навучання ШІ.

DeepSeek знайшоў новы падыход да навучання ШІ. У той час як іншыя мадэлі проста назапашваюць веды, DeepSeek быў навучаны лепш шукаць адказы з дапамогай метаду «навучання з падмацаваннем». Пры ім сістэма сама задае сабе пытанні і атрымлівае ўзнагароды (напрыклад, дадатковыя балы або паляпшэнне яе магчымасцяў), калі яе рашэнні правільныя. Гэта робіць яе менш хуткай, але значна больш эфектыўнай у спажыванні энергіі.

У выніку DeepSeek-R1 апынуўся да 27 разоў таннейшым за OpenAI o1 у разліку на запыт. Акрамя таго, DeepSeek быў навучаны ўсяго на 2 048 відэакартах, якія Nvidia цяпер пастаўляе ў Кітай у абмежаваным выглядзе, што ставіць пад пытанне эфектыўнасць амерыканскіх санкцый.

Такі падыход выклікаў цікавасць нават у ЗША. На думку экспертаў, эфектыўнасць кітайскай мадэлі ШІ ў адносінах да кошту робіць іх больш даступнымі.

Аднак DeepSeek мае і свае абмежаванні. Мадэль схільная да генерацыі несапраўдных фактаў. Да таго ж пры пытаннях пра палітыку або гісторыю КНР яна часта прапануе «пагаварыць пра нешта іншае», што сведчыць пра ўбудаваную цэнзуру.

Як адзначае выданне, пасля запуску ChatGPT у 2022 годзе Кітай сутыкнуўся з амерыканскай перавагай у ШІ і тэхналагічнымі абмежаваннямі, уведзенымі Вашынгтонам. Першапачатковыя спробы кітайскіх распрацоўшчыкаў не дацягвалі да ўзроўню OpenAI. Аднак цяпер DeepSeek пераканаў нават нацыянальных лідараў у магчымасці тэхналагічнай перамогі.

Сам Лян Вэньфэн заяўляе, што больш не шукае багацця, а імкнецца да прарываў, каб Кітай мог стаяць у авангардзе тэхналогій. І цяпер менавіта амерыканскія інжынеры вывучаюць код DeepSeek, каб зразумець яго сакрэты.

Чытайце таксама:

Што думае нашумелы кітайскі чат-бот пра рэжым Лукашэнкі

Кітайская ШІ-мадэль зрабіла фурор на тэхналагічным рынку. Лідарства ЗША можа быць пад пагрозай

У Кітаі выпусцілі аналаг ChatGPT, які чысціць чат пры кожным няёмкім пытанні пра палітыку. Пратэставалі яго

Каментары да артыкула