Bitget App
Trade smarter
Kup kryptoRynkiHandelFuturesEarnCentrumWięcej
Tether Data rozszerza QVAC Genesis II do 148 miliardów tokenów AI

Tether Data rozszerza QVAC Genesis II do 148 miliardów tokenów AI

CryptotaleCryptotale2025/12/23 08:44
Pokaż oryginał
Przez:Cryptotale
  • QVAC Genesis II rozszerza otwarte szkolenie AI do 148 miliardów tokenów w 19 dziedzinach akademickich.
  • Zbiór danych szkoli modele do wyjaśniania wyborów i poprawy rozumowania poza powierzchownym poziomem.
  • Tether Data udostępnia zbiór danych otwarcie, aby wspierać badaczy poza zamkniętymi systemami AI.

Tether Data opublikował QVAC Genesis II, rozszerzając swój otwarty syntetyczny zbiór danych edukacyjnych dla sztucznej inteligencji do 148 miliardów tokenów w 19 dziedzinach akademickich. Aktualizacja dodaje 107 miliardów tokenów do wcześniejszego wydania Genesis I i pozycjonuje zbiór danych jako największy na świecie publicznie dostępny syntetyczny zasób edukacyjny do wstępnego szkolenia AI.

QVAC, dział badań nad sztuczną inteligencją Tether Data, poinformował, że zbiór danych ma na celu wzmocnienie rozumowania, wyjaśniania i podejmowania decyzji w modelach AI, zamiast uczenia się wzorców na poziomie powierzchownym. Wydanie pojawia się w momencie, gdy wiele zaawansowanych zbiorów danych szkoleniowych pozostaje ograniczonych w ramach systemów zastrzeżonych, ograniczając dostęp niezależnym badaczom i instytucjom akademickim.

Skala zbioru danych i zakres akademicki

Rozszerzony zbiór danych obejmuje 19 dziedzin akademickich i koncentruje się na głębi rozumowania edukacyjnego w ramach zadań wymagających strukturalnego rozumowania. QVAC poinformował, że zwiększenie skali wspiera bardziej spójne szkolenie modeli, które wymagają wyjść opartych na wyjaśnieniach, a nie tylko probabilistycznego przewidywania tekstu.

W rezultacie zbiór danych koncentruje się na jasności i przyczynowości w pytaniach i odpowiedziach wykorzystywanych podczas wstępnego szkolenia. Zbiór danych pozostaje otwarcie dostępny dla badaczy, uniwersytetów i niezależnych deweloperów pracujących poza zamkniętymi platformami.

Tether Releases QVAC Genesis II, Expanding the World’s Largest Synthetic Educational Dataset to 148 Billion Tokens

Follow @qvac_tether and read more:https://t.co/FhKgwZEKCr

— Tether (@Tether_to) 22 grudnia 2025

QVAC opublikował Genesis II na licencji Creative Commons Attribution–NonCommercial 4.0, kontynuując podejście licencyjne zastosowane w Genesis I. Organizacja poinformowała, że licencja wspiera wykorzystanie do celów badawczych, jednocześnie zachowując wymóg przypisania autorstwa i ograniczenia komercyjnego wykorzystania. Zbiór danych i powiązane modele są dostępne przez Hugging Face, wraz ze szczegółową dokumentacją i narzędziami dostępowymi.

Nowa metoda rozumowania na poziomie opcji

W centrum Genesis II znajduje się nowa metoda generowania danych, zwana Option-Level Reasoning. Metoda ta ocenia każdą możliwą odpowiedź w pytaniu wielokrotnego wyboru, w tym poprawne opcje i powszechne błędne przekonania.

Zamiast traktować poprawne odpowiedzi jako ostateczne wyniki, podejście analizuje, dlaczego każda opcja odnosi sukces lub porażkę. QVAC poinformował, że ten proces wzmacnia prawidłowe rozumowanie, jednocześnie bezpośrednio adresując błędne założenia w danych szkoleniowych.

Metoda ta opiera się na analizie niepowodzeń wprowadzonej w Genesis I. Obie techniki tworzą razem dwumetodowy pipeline, który zapewnia, że każdy wygenerowany element wnosi wartość edukacyjną.

Niezależne oceny cytowane przez QVAC pokazują, że modele szkolone na danych Genesis II osiągają wyższą dokładność rozumowania i dostarczają jaśniejsze odpowiedzi w sposób bardziej spójny. W rezultacie zbiór danych przesuwa nacisk szkolenia w kierunku strukturalnego zrozumienia, a nie tylko płynności.

Powiązane: Tether składa propozycję przejęcia klubu piłkarskiego Juventus

Otwarte badania i cele zdecentralizowanej AI

QVAC poinformował, że publikacja jest zgodna z szerszym wysiłkiem na rzecz wspierania lokalnego i zdecentralizowanego rozwoju AI. Inicjatywa ma na celu umożliwienie szkolenia i wdrażania modeli bez polegania na scentralizowanych platformach chmurowych.

Poprzez rozszerzenie otwartych podstaw szkoleniowych, Tether Data dąży do eliminacji barier strukturalnych, z jakimi borykają się mniejsze grupy badawcze. „Większość szkoleń AI dzisiaj optymalizuje płynność, a nie zrozumienie” – powiedział Paolo Ardoino, dyrektor generalny Tether.

„Dzięki tej publikacji idziemy dalej niż tylko ilość – stawiamy na strukturę, rozumowanie i jasność” – powiedział Ardoino. Dodał, że otwarty dostęp daje badaczom narzędzia do opracowywania systemów AI, które pozostają wyjaśnialne i niezawodne.

Artykuł techniczny zatytułowany QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training jest dostępny na blogu badawczym QVAC. QVAC opublikował również szczegółowe FAQ i materiały wspierające na swojej oficjalnej stronie internetowej.

W miarę jak systemy AI rozszerzają się na edukację, naukę i usługi finansowe, w tym aplikacje fintech, czy strukturalne zbiory danych mogą zmienić sposób, w jaki systemy inteligencji uczą się i działają?

0
0

Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.

PoolX: Stakuj, aby zarabiać
Nawet ponad 10% APR. Zarabiaj więcej, stakując więcej.
Stakuj teraz!
© 2025 Bitget