DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。DeepSeek 是一家創(chuàng)新型科技公司,成立于2023年7月17日 ,使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉、有用的數(shù)據(jù) 。由知名私募巨頭幻方量化孕育而生,專注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)和相關(guān)技術(shù)。注冊(cè)地址 :浙江省杭州市拱墅區(qū)環(huán)城北路169號(hào)匯金國(guó)際大廈西1幢1201室 。法定代表人為裴湉 ,經(jīng)營(yíng)范圍包括技術(shù)服務(wù)、技術(shù)開(kāi)發(fā)、軟件開(kāi)發(fā)等 。 2024年1月5日,發(fā)布DeepSeek LLM(深度求索的第一個(gè)大模型) 。1月25日,發(fā)布DeepSeek-Coder 。2月5日,發(fā)布DeepSeekMath。 3月11日,發(fā)布DeepSeek-VL。5月7日,發(fā)布DeepSeek-V2。6月17日,發(fā)布DeepSeek-Coder-V2。9月5日,更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出 DeepSeek V2.5。12月13日,發(fā)布DeepSeek-VL2 。12月26日晚,正式上線DeepSeek-V3首個(gè)版本并同步開(kāi)源 [1-2]。2025年1月31日,英偉達(dá)宣布DeepSeek-R1模型登陸NVIDIANIM。同一時(shí)段內(nèi),亞馬遜和微軟也接入DeepSeek-R1模型。英偉達(dá)稱,DeepSeek-R1是最先進(jìn)的大語(yǔ)言模型。 2月5日消息,DeepSeek-R1、V3、Coder 等系列模型,已陸續(xù)上線國(guó)家超算互聯(lián)網(wǎng)平臺(tái)。2月6日消息,澳大利亞政府以所謂“擔(dān)心安全風(fēng)險(xiǎn)”為由,已禁止在所有政府設(shè)備中使用DeepSeek。2月8日,DeepSeek正式登陸蘇州,并在蘇州市公共算力服務(wù)平臺(tái)上完成部署上線,為用戶提供開(kāi)箱即用的軟硬件一體服務(wù)。
主要產(chǎn)品
2024年1月5日,發(fā)布DeepSeek LLM,這是深度求索的第一個(gè)大模型。DeepSeek LLM包含670億參數(shù),從零開(kāi)始在一個(gè)包含2萬(wàn)億token的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,數(shù)據(jù)集涵蓋中英文。全部開(kāi)源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社區(qū)使用。DeepSeek LLM 67B Base在推理、編碼、數(shù)學(xué)和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數(shù)學(xué)方面表現(xiàn)出色。它還展現(xiàn)了顯著的泛化能力,在匈牙利國(guó)家高中考試中取得了65分的成績(jī)。當(dāng)然,它還精通中文:DeepSeek LLM 67B Chat在中文表現(xiàn)上超越了GPT-3.5。
2024年1月25日,發(fā)布DeepSeek-Coder,DeepSeek Coder由一系列代碼語(yǔ)言模型組成,每個(gè)模型均從零開(kāi)始在2萬(wàn)億token上訓(xùn)練,數(shù)據(jù)集包含87%的代碼和13%的中英文自然語(yǔ)言。代碼模型尺寸從1B到33B版本不等。每個(gè)模型通過(guò)在項(xiàng)目級(jí)代碼語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,采用16K的窗口大小和額外的填空任務(wù),以支持項(xiàng)目級(jí)代碼補(bǔ)全和填充。DeepSeek Coder在多種編程語(yǔ)言和各種基準(zhǔn)測(cè)試中達(dá)到了開(kāi)源代碼模型的最先進(jìn)性能。
2024年2月5日,發(fā)布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎(chǔ),繼續(xù)在從Common Crawl中提取的數(shù)學(xué)相關(guān)token以及自然語(yǔ)言和代碼數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練規(guī)模達(dá)5000億token。DeepSeekMath 7B在競(jìng)賽級(jí)MATH基準(zhǔn)測(cè)試中取得了51.7%的優(yōu)異成績(jī),且未依賴外部工具包和投票技術(shù),接近Gemini-Ultra和GPT-4的性能水平。
2024年3月11日,發(fā)布DeepSeek-VL,DeepSeek-VL是一個(gè)開(kāi)源的視覺(jué)-語(yǔ)言(VL)模型,采用了混合視覺(jué)編碼器,能夠在固定的token預(yù)算內(nèi)高效處理高分辨率圖像(1024 x 1024),同時(shí)保持相對(duì)較低的計(jì)算開(kāi)銷。這一設(shè)計(jì)確保了模型在各種視覺(jué)任務(wù)中捕捉關(guān)鍵語(yǔ)義和細(xì)節(jié)信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在廣泛的視覺(jué)-語(yǔ)言基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)或可競(jìng)爭(zhēng)的性能。
2024年5月7日,發(fā)布第二代開(kāi)源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一個(gè)強(qiáng)大的混合專家(MoE)語(yǔ)言模型,以經(jīng)濟(jì)高效的訓(xùn)練和推理為特點(diǎn)。它包含2360億個(gè)總參數(shù),其中每個(gè)token激活210億個(gè)參數(shù)。與DeepSeek 67B相比,DeepSeek-V2不僅實(shí)現(xiàn)了更強(qiáng)的性能,同時(shí)還節(jié)省了42.5%的訓(xùn)練成本,將KV緩存減少了93.3%,并將最大生成吞吐量提升至5.76倍。在一個(gè)包含8.1萬(wàn)億token的多樣化且高質(zhì)量的語(yǔ)料庫(kù)上對(duì)DeepSeek-V2進(jìn)行了預(yù)訓(xùn)練。在完成全面的預(yù)訓(xùn)練后,通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步釋放了模型的潛力。評(píng)估結(jié)果驗(yàn)證了方法的有效性,DeepSeek-V2在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試和開(kāi)放式生成評(píng)估中均取得了顯著的表現(xiàn)。DeepSeek V2模型因在中文綜合能力評(píng)測(cè)中的出色表現(xiàn),且以極低的推理成本引發(fā)行業(yè)關(guān)注,被稱為“AI界的拼多多”。
2024年6月17日,發(fā)布DeepSeek-Coder-V2,DeepSeek-Coder-V2是一個(gè)開(kāi)源的混合專家(MoE)代碼語(yǔ)言模型,在代碼特定任務(wù)中達(dá)到了與GPT4-Turbo相當(dāng)?shù)男阅?。DeepSeek-Coder-V2是從DeepSeek-V2的一個(gè)中間檢查點(diǎn)開(kāi)始,進(jìn)一步預(yù)訓(xùn)練了額外的6萬(wàn)億token,顯著增強(qiáng)了DeepSeek-V2的編碼和數(shù)學(xué)推理能力,同時(shí)在通用語(yǔ)言任務(wù)中保持了相當(dāng)?shù)男阅?。并在代碼相關(guān)任務(wù)、推理能力和通用能力等多個(gè)方面都取得了顯著進(jìn)步。此外,DeepSeek-Coder-V2將支持的編程語(yǔ)言從86種擴(kuò)展到338種,并將上下文長(zhǎng)度從16K擴(kuò)展到128K。在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,DeepSeek-Coder-V2在編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等閉源模型。
2024年12月13日,發(fā)布用于高級(jí)多模態(tài)理解的專家混合視覺(jué)語(yǔ)言模型——DeepSeek-VL2,DeepSeek-VL2是一個(gè)先進(jìn)的大型混合專家(MoE)視覺(jué)-語(yǔ)言模型系列,相較于其前身DeepSeek-VL有了顯著改進(jìn)。DeepSeek-VL2在多種任務(wù)中展現(xiàn)了卓越的能力,包括但不限于視覺(jué)問(wèn)答、光學(xué)字符識(shí)別、文檔/表格/圖表理解以及視覺(jué)定位。模型系列由三個(gè)變體組成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別具有10億、28億和45億激活參數(shù)。與現(xiàn)有的開(kāi)源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活參數(shù)下實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力或最先進(jìn)的性能。
2024年12月26日晚,AI公司深度求索(DeepSeek)正式上線全新系列模型DeepSeek-V3首個(gè)版本并同步開(kāi)源。 [1-2]DeepSeek-V3在知識(shí)類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當(dāng)前表現(xiàn)最好的模型Anthropic公司于10月發(fā)布的Claude-3.5-Sonnet-1022。在美國(guó)數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)和全國(guó)高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3大幅超過(guò)了其他所有開(kāi)源閉源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度從20TPS(Transactions Per Second每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,相比V2.5模型實(shí)現(xiàn)了3倍的提升,能夠帶來(lái)更加流暢的使用體驗(yàn)。
2025年1月20日,DeepSeek正式發(fā)布 DeepSeek-R1 模型,并同步開(kāi)源模型權(quán)重。DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1兩款大模型,成本價(jià)格低廉,性能與OpenAI相當(dāng),讓硅谷震驚,甚至引發(fā)了Meta內(nèi)部的恐慌,工程師們開(kāi)始連夜嘗試復(fù)制DeepSeek的成果。
2025年2月10日消息,長(zhǎng)安汽車已完成Deepseek深度融合,助力北斗天樞2.0計(jì)劃加速落地,2月12日行業(yè)首發(fā)量產(chǎn)搭載上市。