国产精品自拍亚洲-国产精品自拍一区-国产精品自拍在线-国产精品自拍在线观看-亚洲爆爽-亚洲不卡一区二区三区在线

雷軍都來挖人,這家公司想把1%的AI天才藏起來

錢玉娟2025-01-14 19:55

經濟觀察網 記者 錢玉娟 AI世界從來不只是巨頭的獨角戲。來自中國、成立僅一年半的人工智能創業公司深度求索(下稱“DeepSeek”),使用2048顆英偉達H800 GPU,用時短短兩個月,訓練出了6710億參數的開源大模型DeepSeek-V3,直接趕超美國AI巨頭OpenAI投入超百倍的頂級模型GPT-4o。

“美國人在休息,中國人在奮斗。”硅谷AI數據標注獨角獸企業Scale.ai的創始人Alexandr Wang感慨,DeepSeek正以更低的成本、更快的速度和更強大的戰斗力實現了追趕。

DeepSeek不僅給沉浸于圣誕假期的硅谷AI研究者和開發者帶去了震撼,這家坐落在杭州的初創公司,還激發國內不少人前來“朝圣”。

一位接近DeepSeek管理層的人士透露,過去兩周,受DeepSeek-V3全球熱度影響,有來自北京市、浙江省的政府官員約見DeepSeek創始人梁文鋒,這些都是“推不掉的事情”;面對更多的見面邀約,梁文鋒選擇在“社恐”外衣下主動把自己“藏”起來。目前,各類企業提出與DeepSeek建聯、交流的訴求后,DeepSeek及其母公司幻方量化的管理層基本是“隱身”處理。

采訪期間,經濟觀察網也嘗試與DeepSeek官方以及其母公司董事總經理聯系,未獲回復。

上述接近DeepSeek管理層的人士說,梁文鋒把精力投入到模型產品的迭代中,除了潛心研發外,減少曝光還有另一重考量:要保護好DeepSeek這支年輕的技術隊伍。

要知道,就在DeepSeek-V3發布第二天,小米科技創始人雷軍親自以千萬年薪挖走DeepSeek羅福莉的消息便沖上熱搜。

一支東方力量

從浙江大學電子工程系人工智能方向畢業后,梁文鋒曾進入“不對口”的金融科技領域,從事私募基金、量化投資多年。

“他一直堅信AI會改變世界。”前述接近DeepSeek管理層的人士稱,梁文鋒對AGI有理想情懷,在國內處于大模型創新風口時分身入局,于2023年7月創立了DeepSeek。

DeepSeek-V3模型發布即開源。在長達53頁的論文中坦誠披露了模型訓練的技術細節。

DeepSeek僅花費557.6萬美元,就完成了這一多模態、推理模型的總訓練,模型的訓練成本是其他全球知名大模型的1/20,甚至1/100。

H800是英偉達針對中國市場特供的低配版GPU,芯片性能受限下,DeepSeek仍實現了超大規模參數的模型訓練。OpenAI創始成員Karpathy在社交媒體上點評,DeepSeek-V3讓在有限算力預算上進行模型預訓練這件事變得容易。

DeepSeek的開源模型震動硅谷,國內相關領域人士試圖挖掘這個AI創業團隊的神秘班底。

2023年本科畢業的小陸曾經歷6輪面試獲得了DeepSeek人力資源部的入職資格,盡管后來她選擇出國深造,放棄了入職,但回憶起這家初創公司的面試風格,她的感受是,從Passion(熱情)出發去做一個不可能完成的任務。

小陸候選的崗位涉及招聘AI人才,她了解到,這個團隊最大的特點是年輕化,且在當時就有大批清華大學、北京大學的應屆生放棄去斯坦福、MIT跟著大牛導師讀博的機會選擇加入DeepSeek。

“只招1%的年輕天才,做99%的公司都做不到的事情。”小陸覺得,DeepSeek在組織形態上是最像OpenAI的一家中國AI公司。

但與DeepSeek-V3低成本訓練一樣令人驚嘆的是,DeepSeek的員工規模不及OpenAI的1/5,百人出頭的公司中,算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共有約70人,主要在北京分部,其余30多人在杭州總部,多為前端、產品以及商務人員。

1%的年輕天才

從DeepSeek發布的論文貢獻者名單看,他們多是清華、北大、北郵、北航等高校計算機相關專業應屆生、博士在讀生,少部分工作經驗短至兩三年的技術人員,也是擁有國內教育背景的高材生。

梁文鋒是DeepSeek這支年輕隊伍中少有的80后,他會親自帶隊研發產品,有時還會親自寫代碼,與同事一起攻克AI大模型的技術難題。

在招人準則上,梁文鋒與OpenAI的創始人奧特曼有相似之處,不在學歷、履歷上設定門檻,更看重一個人的工程能力。

DeepSeek人力資源部門的一位工作人員在多個平臺發布招聘需求,她會在簡單介紹JD(Job Descripion,職位描述)后補充這樣一句:“不希望用JD限制人選在公司發展的空間。”她介紹,DeepSeek招募人才著重考察的是人選的素質和對大模型的熱愛。

雖然脫胎于量化私募基金巨頭,但DeepSeek的自我認知是一家小公司,這讓它不需要像科技大廠那樣,對一個創新想法反反復復推演、論證,“搞來搞去,一大幫人重復做一件事。”上述接近DeepSeek管理層的人士介紹,扁平化管理模式下的DeepSeek,所有的研究人員直接向梁文鋒匯報,創始人給予研究和開發團隊充分尊重,誰有好想法,盡管推進去做。

這一點也在前述人力資源工作人員處得到印證,她說,公司在資源配給方面,可以做到萬卡GPU訓練集群,無需申請,不限使用。

DeepSeek管理風格的背后,是梁文鋒對尋找更多技術知音的迫切。

DeepSeek-V2模型的關鍵開發者之一羅福莉,早在北京大學研究生階段就在AI領域的頂級國際會議ACL(國際計算語言學協會年會)上發表了8篇論文,其中2篇是一作。截至目前,羅福莉的研究論文在谷歌學術上被引用次數已超2000次。

一位在國產模型“五虎”之一的AI企業進行產業生態研究的人士告訴記者,任何一家模型廠商都處在一個科研驅動的階段,招聘人才必然看學術與工程開發的能力,看頂刊論文,畢竟招聘進來是要搞科研的。

在該人士看來,DeepSeek研究團隊的高光標簽并非本土化,而是“研究”。年輕的頂尖人才再配備萬卡資源,這樣的公式讓DeepSeek這家創業公司走到今天甚至一鳴驚人并不令人意外,反而襯托出行業的灰暗面。

接受記者采訪時,上述模型廠商的生態研究人士以某明星AI公司為例說,即便被資本捧上了天,但身處鎂光燈下,很少人去看它成立至今才發布了幾款模型,“目前已經有多家廠商很長時間沒有發布新模型了,他們中的大多數并非真正重視研究創新這件事”。

創業公司習慣借助技術大牛加入團隊來撐門面,而像DeepSeek這樣的公司,僅有一部分是像羅福莉這樣從母公司轉崗加入DeepSeek,在擴充人才梯隊時,梁文鋒特別要求人力資源方面不去百度、阿里、字節等大廠挖角技術大牛。

上述接近DeepSeek管理層的人士理解這種做法,任何一家大廠的技術大牛,多會在離開時帶走一些嫡系,這樣一群帶有大廠思維模式的人進入創業團隊,難免會形成“山頭”,嚴重時還會損害公司的創業氛圍,影響產品的開發節奏。

既不靠母公司砸錢吸納大牛,又想吸引更多熱情投入研究的年輕技術人,不是一件容易的事。

于是,梁文鋒走到臺前接受媒體采訪,對外發聲有兩個階段:一是DeepSeek成立初期,他需要告訴所有人,DeepSeek的目標是聚焦AGI展開研究、探索;二是DeepSeek-V2發布時,它點燃了國內大模型價格戰的導火索,時值2024年年中,梁文鋒在接受36氪采訪時稱,DeepSeek無意成為行業鲇魚,低價背后是希望算力普惠,以及公司的愿景仍是AGI。

上述接近DeepSeek管理層的人士告訴記者,在團隊招募人才的關鍵期以及行業發展的轉折點,梁文鋒會主動出來,但他反復強調的內容都與商業化目的無關,包括梁文鋒在內的管理層擔憂的是,團隊核心成員被競爭者持續挖角,技術創造力流失。

“DeepSeek眼下沒有商業化,也沒有其他新產品發布,對手籌謀更多的就是挖人。”上述生態研究人士了解到,其公司正在通過獵頭挖人。

當DeepSeek爆火后,那些出現在技術論文中的貢獻者們,成為不少廠商覬覦的“生產力”。

模型廠商的異類

AI大模型在國內爆火后,行業里流行這樣一個說法,中國持有高性能GPU最多的機構不是AI公司,而是幻方量化。卡多、不差錢的幻方量化,在背后支撐DeepSeek展開模型研究,路線則是堅持開源,并不急于部署商業化應用。

與不少模型廠商既要開發基礎模型又要AI應用變現的邏輯不同,DeepSeek一度被視為模型廠商中的異類。

記者與多位DeepSeek內部人士交流后,發現這家AI公司有很多差異化表現:不做產品運營,也不進行廣告投流,更沒有在社交媒體向C端用戶推出任何講解Prompt(AI模型提示詞)模板等。

上述接近管理層的人士透露,眼下DeepSeek雖然會向開發者賣低價的API,但像其他友商那樣面向開發者搞各種項目,它完全沒興趣,幾乎模型相關的核心研究人員都在專注于產品迭代,以及另外一個 “產品”——技術研究論文。

騰訊前高級研究員、北京大學人工智能方向博士后盧菁,近兩年一直專注于對國內外知名大模型展開深度研究,將其中的技術創新點通過社交媒體平臺傳播給國內外的技術愛好者們。

盧菁在1月11日晚通過視頻直播,就DeepSeek-V3核心技術進行第二期講解。他提出,DeepSeek并非突然爆火,它其實承接了上一代模型版本中的很多創新,相關模型架構、算法創新經過迭代驗證,震動行業也有其必然性。在他看來,DeepSeek更關鍵的動作是在模型工程細節上的優化,“它把已有的東西,做到極致,成本降到了最低”。

很多人是在DeepSeek-V3面世后才對這一模型背后的團隊、技術核心產生巨大的好奇,實際上,DeepSeek的團隊早就引起盧菁這類業內專家的默默關注,直到DeepSeek-V2以多頭潛在注意力機制(MLA)架構創新,在硅谷引發震動后,這一公司才真正在AI領域出圈。

在盧菁看來,DeepSeek團隊在做的是一個精細活,需要的是一線真正干活的技術工程師,去將模型推理架構、算法等細節優化,從而實現低成本訓練。

低成本訓練并不代表模型效果差。DeepSeek官方指出,DeepSeek-V3模型多項評測成績超越了當前全球頂級的開源模型Llama-3,就連國外獨立測評機構Artificial Analysis測試后,也感嘆DeepSeek-V3已經超越了迄今為止所有開源模型。

盧菁還在模型論文中看到,DeepSeek-V3在知識類任務上表現優異,已經接近當前表現最好的閉源模型,即OpenAI發布的GPT-4o以及Anthropic公司發布的Claude-3.5-Sonnet。

陳天楚在浙江大學計算機系統結構實驗室從事大模型相關研究工作,DeepSeek-V3發布后,雖然這一模型的參數超出了開源社區一般模型愛好者的選擇,但他在相關測試中著重對模型的代碼能力加以考察,發現DeepSeek-V3已經達到了國外先進模型的水平。

從DeepSeek官網可以看到,DeepSeek-V3模型部署的價格,與全球其他同級別的模型價格相比更為低廉。這一模型因具有性價比,而被外界賦予了DeepSeek“AI界拼多多”的稱號。

模型產品看似以價格取勝,但上述接近管理層的人士強調,DeepSeek至今沒有面向C端的應用開發,也未向B端企業級發展商業化,目前還是在模型探索與完善的階段。

DeepSeek在年輕創造力的驅動下,更強調專注于研究。上述接近DeepSeek管理層的人士介紹,梁文鋒已經以個人名義投資了一些未來能在DeepSeek的模型基礎上長起來的下游AI應用企業項目。這可以理解為,梁文鋒在為DeepSeek未來能形成一個小生態提早鋪墊,慢慢布局。

TMT新聞部記者
長期關注并報道TMT領域的重大事件,時刻保持新聞敏感,發現前沿趨勢。擅長企業模式、人物專訪及行業深度報道。
重要新聞線索可聯系qianyujuan@eeo.com.cn
微信號:EstherQ138279