DeepSeek:到底是AI顛覆者還是低級小偷? |
送交者: 雷歌747 2025年01月31日15:02:27 於 [天下論壇] 發送悄悄話 |
DeepSeek:到底是AI顛覆者還是低級小偷? 雷歌 2025年1月31日 DeepSeek火爆出圈已近一周。一開始是AI秩序顛覆者、厲害國“彎道超車”的最新神話,沒幾天又變成數據小偷、“漢芯”二世、故事大王,劇情翻來覆去,一會兒天堂,一會兒地獄,DeepSeek就在吃瓜群眾的二極世界中來回蹦極。 但真實世界永遠比二極管思維複雜。現實中的DeepSeek也一樣。今天我講關於DeepSeek的三個問題,希望能給DeepSeek一個相對準確的定位,儘可能還原事件的真相。 一、DeepSeek是AI格局的顛覆者嗎? 不是。看過我前兩篇文章的朋友應該知道我的答案及其理由,我至今沒有改變我的看法。 DeepSeek橫空出世確實驚動了世界,但也只是“驚動”,沒有改變格局。即使讓全球市值第一的芯片大佬英偉達一夜蒸發了近6000億美元,但這只是華爾街和市場的過度反應。DeepSeek會給AI發展帶來新變化,但它不是顛覆者。僅憑一款本質上是個“山寨”產品的AI語言大模型,不可能改變美國主導AI發展的現有格局。 為什麼說DeepSeek在1月20日推出的最新R1大模型本質上只是個“山寨”產品?經過近一周各方專業人士對DeepSeek-R1的分析解讀,它驚動世界的“低成本”優勢來源於兩個方面:模型架構設計及算法上的創新,以及它的“數據蒸餾”方法。“蒸餾”方法依賴於對更好的“老師模型”數據的萃取,它省錢且高效,但出來的產品整體上無法超越“老師模型”(局部可以),因此,哪怕它在方法上再有創意,本質上還是個山寨產品。 現在DeepSeek推出的R1語言大模型,雖然以極低的成本(據說只有美國AI大公司的1/10或1/20甚至1/30)訓練出許多指標可以與OpenAI的ChatGPT4相媲美的AI大模型,但DeepSeek現在也只敢說R1的性能指標超越了現有的“開源模型”。對R1深度測試過的專業人士,均確認DeepSeek-R1隻是一些常用考評指標與ChatGPT4相當,讓一般使用者覺得“夠用”了,還那麼便宜。但無法從整體上超越它的蒸餾對象ChatGPT4。 因為已經有了類似ChatGPT等成型在先的原創AI大模型,DeepSeek-R1這種低成本山寨版才可能出現。作為一種產品,它本質上是模仿,只是模仿的方法比較巧妙,比較有創意。用DeepSeek自己的話說這叫“站在巨人的肩膀上”。 換個角度看,如果請梁文鋒的深度探索公司做一個目前沒有的原創性AI應用模型,比如像谷歌早年的AlphaGO,或現在特斯拉正在開發的FSD自動駕駛平台,梁文鋒怎麼做呢?深度探索還能低成本做出來嗎?不可能,因為原創性的AI大模型無法用“蒸餾”法降低成本,因為缺乏“蒸餾”對象。 因此,用低成本方法做一個別人已經做過的AI大模型是一回事,原創一個別人沒做過的AI平台則是另一回事。而AI給世界帶來的一切改變,歸根到底得靠原創。 到目前為止,改變世界和人類生活的AI原創平台都是美國大公司創造的,這是目前的大格局。這個總體格局不會因為DeepSeek用省錢的方法推出一個精巧的“復製品”就被輕易顛覆。 牆內牆外許多民族主義情結深重的國人,無論是華為推出Mate 60,比亞迪宣布年售電動車超特斯拉,還是DeepSeek發布R1語言大模型,他們都像嗑了藥,一下腎上腺素狂飆,宣布中國真牛逼、美國不行了,中國即將雄霸世界等等。這些人大都生活在習式“中國夢”里,哪怕他們身在美國。他們的“民族自豪感”讓世界的一切在他們眼裡都變了形。一個人愛國並不是錯,但如果“愛國”愛得這麼愚蠢、這麼變態,實際上於國無補,反而有害。這樣的“愛國”,不愛也罷。 二、DeepSeek只是個低級小偷嗎? 兩天前一些媒體開始揭發DeepSeek可能使用“蒸餾”法違規盜取了ChatGPT的數據,OpenAI和微軟稱正在調查此事,而OpenAI更直接宣布已經掌握了DeepSeek盜用大量數據的證據後,DeepSeek頃刻變成了人人喊打的小偷。 由於中國公司習慣從別人那裡偷東西已經全世界出了名,這次一曝出DeepSeek偷數據,不少人自然嗤之以鼻,很自然地從DeepSeek聯想到當年的“漢芯”事件(註:2003年上海一教授從國外買了摩托羅拉芯片,回來磨掉商標,自稱是自己研發的“漢芯一號”。由多名院士組成的專家組鑑定後認為達到“國際先進水平”,由此成為當年“厲害了我的國”的重大事件。該教授因此獲得許多榮譽和上億的科研資金,三年後才被戳穿,成為國際醜聞),認為DeepSeek就是“漢芯”第二,除了偷就是騙。先進國家花幾億幾十億才研發出一個AI大模型,你用558萬就搞掂了?所謂的“低成本”奇蹟,就是個精心編造的“大躍進”故事,DeepSeek就是“故事大王”。 DeepSeek有沒有“編故事”?照我看還真有。DeepSeek說只用了2048塊英偉達H800芯片,僅用55天就完成了大模型訓練,一共只花了557.6萬美元。訓練出來的AI大模型,比美國大公司花多少億搞出來的一點不差。但DeepSeek說的557.6萬美元,實際是R1的前一個版本V 3的預訓練GPU小時數折算的花費。而僅2048塊H800芯片,價格就超過6000萬美元。因此這557.6萬顯然並不包括訓練平台的搭建和其他費用。此外,升級版R1的訓練費用根本就沒公布,宣傳時有點故意用V3版的費用魚目混珠。籠統地跟美國大公司的數億美元比,就有明顯“編故事”的味道。說實話,編故事的宣傳效果還真好,不光是DeepSeek名聲大振,還連帶把美國股市一天砸掉上萬億。 DeepSeek違規盜用OpenAI的數據,而且精心編了個故事,是不是一個只會偷和騙的小茅賊呢?這麼想的人還真是把事情想簡單了。 我們注意到,儘管微軟和OpenAI稱正在調查DeepSeek違規使用蒸餾ChatGPT的數據,而且從OpenAI的表態看,DeepSeek違規使用OpenAI數據一事證據都在手上,基本上沒跑。但微軟CEO納德拉在昨天微軟四季度財報發布會上,依然對DeepSeek的創新讚不絕口。納德拉稱DeepSeek“有一些真的創新”,而AI成本下降是必然趨勢。 也就是說,納德拉認為DeepSeek訓練大模型成本的大幅降低,除了從OpenAI蒸餾數據這種投機取巧之外,它還是有一些業內認可的真正的科技創新,就是我在前兩篇文章中提到過的模型架構設計上的工程創新和算法上的技術創新。這些在DeepSeek發表的相關論文中都有詳細介紹,也得到了行內專業人士的普遍認可。 在前兩篇文章中,我一直肯定,DeepSeek低成本模型的推出,至少對AI大模型的建設具有方法論上的意義,將促進行業轉換思路,尋找降低成本的可行方法。從這幾天業內大佬們如微軟CEO納德拉和Meta老闆扎克伯格等人的反應來看,他們都肯定了DeepSeek的出現對AI發展的積極意義,會推動其他公司探索降低成本的方法。類似的方法應該也能在原創性AI大模型的訓練中得到應用,從而降低模型訓練的成本,提高效率。 所以,DeepSeek的出現並不是一個單純的“漢芯“偷竊或欺騙事件,其中包含着對全行業有啟發意義的真實的技術創新和天才的工程優化。儘管DeepSeek推出的產品並無新意,談不上顛覆,但其中包含的方法卻耳目一新。 三、地緣政治與大國博弈:DeepSeek會遭封禁嗎? 從DeepSeek“偷”數據案發,許多人就預計,美國對中國的技術封鎖將會收緊。一方面是領先的AI大公司會有嚴格的措施防範對手隨意蒸餾數據等 “偷盜”手段。另一方面,則是美國政府會進一步收緊對中國的芯片禁運,甚至直接像對付TikTok一樣,以國家安全的名義把DeepSeek列入黑名單。此前,美國海軍已經宣布,在海軍內部禁止任何使用DeepSeek。 這幾天,也有一種觀點沉渣泛起,就像前兩年華為推出Mate60時一樣,認為對中國的芯片禁運,除了讓一些美國公司賺不到錢外,還有一個更大的副作用,就是迫使中國自己研發出自己的高端芯片。因此,美國的芯片禁運可以休矣。 這種說法,聽上去完全是中共帶節奏的口風。因為中共最盼望的就是美國在芯片禁運上鬆綁,芯片禁運卡住了中共的脖子,已經讓它翻白眼了。普通吃瓜群眾也跟着這種論調起鬨,如果不是壞,那就只能是蠢了。 也有人說,如果DeepSeek確有創新,是一家新興創新公司,那就不該對它封禁,而應該放手讓它進入市場,參與競爭,這有利於AI行業的健康發展。 但DeepSeek是不是一家簡單的私營創新公司呢? 認真研究DeepSeek這次橫空出世一鳴驚人的全過程,我覺得它不太像一個公司主導的簡單科技事件,背後有中共操控的魅影。梁文鋒執掌的深度探索公司,似乎也不像表面看上去那麼簡單。一個賬面上只有4個社保員工、也從未對外融資的小型創新公司,如何能夠在註冊一年半後就突然爆發,成為震動全球AI行業的新貴? 看國內的報道,梁文鋒早年利用AI平台做量化投資,他經營的私募基金一度達到上千億規模,成為國內四強之一。報道說那時梁文鋒為了搭建人工智能平台,在美國實施芯片禁運前,就大量採購了英偉達高端芯片,是當時具有上萬塊高端芯片集群的僅有的幾家中國公司之一。現在回頭去看這件事,不免令人生疑。上萬塊英偉達高端芯片是什麼概念?每塊芯片至少兩三萬美金,上萬塊就是好幾億美金,一家小的初創公司能像阿里或騰訊這樣的互聯網巨頭一樣大手筆地囤積高端芯片?最近又有一種說法,說梁文鋒的深度探索公司實際擁有5萬塊英偉達H100芯片,是通過越南的中間買家違規轉手過來的。這看上去就更不像普通公司的行為。 另外,DeepSeek發布最新的R1版本時,正好是1月20日,當天恰好是川普宣誓就職重返白宮的日子。挑這麼個日子發布,有沒有挑戰川普2.0的意思?而且,20日當天,梁文鋒還進中南海參加了總理李強主持的一個座談會,會上梁文鋒做了主題發言,當晚還上了新聞聯播。 梁文鋒看上去只是一家民營創新公司的創辦人,但圍繞這家公司的各種跡象,讓人感到整個公司都籠罩着中共的巨大陰影,有隻無形的手操控着這家公司的一切。營造DeepSeek一鳴驚人放衛星的奇蹟,似乎是一個“東升西降”的經典案例,樣樣都呼應着打敗美帝的節奏。 目前,中美對抗已經成為冷戰結束後新的世界格局的主軸。而人類社會正在步入AI時代。掌握AI發展的主動權,成了大國競爭必須搶占的制高點。 所以,進一步收緊對華芯片禁運,是完全可以預期的事。如果哪天DeepSeek被美國政府列入黑名單,我一點也不會感到意外。 更多精彩內容請看: 1)萬維博客“雷歌視角”: https://blog.creaders.net/uindex.php 2)油管頻道“雷歌視角”: https://www.youtube.com/channel/UClfm_D5GrSVn59znfs8JD1g 歡迎關注“雷歌視角”,幫你挖掘新聞背後的新聞。 歡迎訂閱、轉發和點讚。謝謝! |
|
|
![]() |
![]() |
實用資訊 | |