Inhaltsverzeichnis
Einführung von MPT-30B
MosaicML hat kürzlich das neueste Modell in ihrer Foundation-Serie vorgestellt: MPT-30B. Dieses Modell hebt die Messlatte für Open-Source-Grundmodelle auf ein neues Niveau. MPT-30B ist ein leistungsstarkes Mitglied der Foundation-Serie von Open-Source-Modellen, das mit einer 8K-Kontextlänge auf H100s trainiert wurde.
Seit der Einführung von MPT-7B im Mai hat die ML-Community die Open-Source-MosaicML Foundation-Serie begeistert aufgenommen. Die MPT-7B Base, Instruct, Chat und Storywriter-Modelle wurden zusammen über 3 Millionen Mal heruntergeladen.
Besondere Merkmale und Leistung von MPT-30B
MPT-30B ist ein neues Open-Source-Modell, das für kommerzielle Nutzung lizenziert ist und deutlich leistungsfähiger als MPT-7B ist. Es übertrifft sogar das Original GPT-3. Zudem wurden zwei fein abgestimmte Varianten, MPT-30B-Instruct und MPT-30B-Chat, veröffentlicht, die auf MPT-30B aufbauen und bei Einzelanweisungen und Mehrfachgesprächen hervorragend abschneiden. Alle MPT-30B-Modelle verfügen über besondere Merkmale, die sie von anderen LLMs unterscheiden. Dazu gehören ein 8K-Token-Kontextfenster zur Trainingszeit, Unterstützung für noch längere Kontexte über Alibi und effiziente Inferenz- und Trainingsleistung über FlashAttention.
MPT-30B zeigt auch starke Fähigkeiten im Codieren, dank seiner Mischung aus Vortrainingsdaten. Dieses Modell wurde auf Nvidia H100s auf ein 8K-Kontextfenster erweitert, was es, nach unserem Wissen, zum ersten LLM macht, das auf H100s trainiert wurde. Die Größe von MPT-30B wurde speziell so gewählt, dass es einfach auf einer einzelnen GPU bereitgestellt werden kann. Andere vergleichbare LLMs wie Falcon-40B haben größere Parameterzahlen und können nicht auf einer einzelnen Datacenter-GPU bedient werden.
MosaicML ist begeistert zu sehen, was die Community und die Kunden als nächstes mit MPT-30B aufbauen werden.
Quellen