<rt id="o0ow2"><optgroup id="o0ow2"></optgroup></rt>
  • <wbr id="o0ow2"><acronym id="o0ow2"></acronym></wbr>
  • MOSS大模型负责人邱锡鹏:大模型不仅仅是工程问题
      來源:bat365在線平臺官方網站  更新時間:2023-09-25 11:56:35
      
      復旦大學計算機科學技術學院教授、大模MOSS大模型負責人邱錫鵬在外灘大會見解論壇。型負

    “現在的責人大模型比較耗資源,但總體而言它的邱錫資源消耗都集中在預訓練階段。除了算力需求大之外,模型很多人認為大模型是不僅工程問題,但事實上并不是僅工。大模型里存在很多科學問題,程問比如智能涌現、大模復雜推理、型負知識融合以及學習策略等等。責人”

    9月7日,邱錫復旦大學計算機科學技術學院教授、模型MOSS大模型負責人邱錫鵬在外灘大會見解論壇“大語言模型消除人機鴻溝:人類主體性是不僅強化還是弱化”上發表主旨演講,演講題目為“大型語言模型的僅工科學挑戰”。

    “自然語言處理已經進入大模型時代。由早期的專家系統到深度學習,再到現在參數量上千億或萬億的大模型,總體上進入參數量和訓練數據都大規模發展的狀態。但這些千億模型或百億模型不是最近才出現的,可能兩年前就有了?!鼻皴a鵬說。

    這自然引出一個疑問,為什么兩年前不叫大模型?

    邱錫鵬解釋道,之所以現在叫“大模型”,關鍵因素在于其內涵和使用方式發生了變化。以前是把一個語言模型作為基座,運用到不同任務中,每個任務要微調(fine tuning)一個自己的模型。而現在大語言模型有了新的內涵,即一個模型能夠解決所有問題。

    在ChatGPT出現后,大語言模型變得更加流行,邱錫鵬認為這是因為其泛化能力非常好,只需要少量學習人類的一些指令,就能夠泛化到很多其他的、甚至沒有見過的指令上,“這就是大語言模型帶來的涌現效應?!?/p>

    據邱錫鵬介紹,現在做大模型研發有3個非常重要的準則,也叫“HHH準則”。

    第一是有用性(Helpful),“我們跟GPT-4還是有非常大的差異,雖然都可以用來完成日常的對話聊天,但這個差異在于能不能用其完成非常復雜的任務。這是非常重要的一點?!鼻皴a鵬說。

    其次是誠實性(Honest),邱錫鵬解釋道,也就是說大模型知道的要說,不知道的不說,這就涉及到現在廣泛提及的“幻覺”問題(指模型生成不正確、無意義或不真實的文本),這也是非常難,非常有挑戰性的問題。

    第三是無害性(Harmless),“因為語言模型在訓練時見過非常多的數據,其中包含好的與不好的,要讓它對齊(alignment,使系統的目標和人類價值觀一致),不要產生具有冒犯性、歧視性、有害的內容?!鼻皴a鵬表示,“這3個準則就是新的時代我們做大語言模型時主要考慮的3個目標。不過這3個是比較寬泛的原則,具體又可以細化出非常多的研究點?!?/p>

    今年2月20日晚,邱錫鵬領導的團隊發布國內首個類ChatGPT的對話式大型語言模型MOSS,邀請公眾參與內測,一經發布就引起極高參與熱情。

    在論壇上,邱錫鵬也談到MOSS的發布,“它是國內第一個發布的類ChatGPT模型,我們也是最早提出開源的插件增強版本,比OpenAI的發布都更早?!鼻皴a鵬的團隊當時意識到,語言模型不只是用來對話,最重要的是它作為使用工具和外部世界相連接時對人的賦能?!拔覀儸F在也在不斷提高,會有些更新的結果,在原來的能力基礎上取得大幅提升?!?/p>

    邱錫鵬所提及的正在進行的工作,一個值得注意的方向是“大模型的平民化”,即最終要讓應用大模型的每個人都覺得成本可以接受,包括微調、預訓練、推理部署?!跋瘳F在買一臺英偉達A100服務器的成本,不是所有單位都能方便采用的,非常重要的就是如何去低成本優化這些模型”。

    邱錫鵬也提到一些具體方法,如高效的參數微調方法,“但這些方法都有一定缺陷,總體上來講調的參數量越小,模型能力就會越差?!蹦懿荒軈盗坎蛔?,但把成本降下來?

    邱錫鵬團隊提出一個名為LOMO的優化器,將它稱為低內存的優化。它可以做到什么程度呢?“比如一個非常大的,如650億參數的開源模型,全量微調原來需要10臺8卡的英偉達A100,那現在用一臺8卡的英偉達RTX3090就可以微調它了。這樣的話成本就會非常低,并且是全量參數,微調并沒有損失它的性能,這樣沒有太多資源的人也都可以去優化這些大模型?!?/p>

    “最近OpenAI的一位創始人公布了他們的整個流程,包括大概的花費。在整個大模型的訓練階段,可以看到第一階段需要高算力,但在其他階段的算力投入并不是很大,這里面有非常多的研究空間。之前大家總以為做大模型就需要買好多張顯卡,確實需要一定的卡,但不是需要特別多。如果細分到后面的幾個步驟,可能就需要幾十張卡,幾周時間就可以完成?!鼻皴a鵬表示。

    九九热在线观看_动漫精品视频一区二区三区_一级a性色生活片久久无码火_亚洲AV无码天堂2018
    <rt id="o0ow2"><optgroup id="o0ow2"></optgroup></rt>
  • <wbr id="o0ow2"><acronym id="o0ow2"></acronym></wbr>