Jako badacz AI, wytrenowałem duży model językowy na@OpenLedger ($OPEN ), którego celem jest generowanie artykułów na temat „analizy rynku kryptowalut”. Dane treningowe zawierają miliony artykułów, raportów i postów z dyskusji społecznościowych. Gdy#OpenLedger model generuje prognozę na temat wahań ceny Bitcoina, zastanawiam się, na jakich danych treningowych opiera swoje osądy.
W przypadku tradycyjnych metod obliczenia są albo zbyt wolne, albo mogą jedynie ogólnie wskazywać wkład całego zbioru danych, co uniemożliwia precyzyjne śledzenie konkretnych dokumentów lub fragmentów. W tym momencie używamy Infini-gram.#OpenLedger System łączy każdą kluczową frazę z wyjścia modelu z korpusem treningowym, tworząc symboliczne powiązania, co pozwala na wydajną porównywalność przy użyciu struktury tablicy sufiksów.
Wyniki pokazują:
Gdy model @OpenLedger przewidywał krótkoterminowy spadek BTC, głównym źródłem był trzy artykuły analizy rynku oraz konkretny fragment postu z dyskusji społecznościowej. Wpływ każdego dokumentu został zilustrowany ilościowo, dzięki czemu mogę zobaczyć, który fragment tekstu miał największy wpływ na decyzję modelu. Proces ten pozwala mi:
Weryfikować decyzje modelu: zapewnić, że model nie nauczył się zniekształconych danych;
Zwracać uznanie twórcy danych: poprzez OpenLedger($OPEN ) ilościowo oceniać wkład i wypłacać nagrody;
Optymalizować zbiór danych: identyfikować dane o dużym wpływie, aby poprawić wydajność modelu.
Dla mnie i mojego zespołu Infini-gram to nie tylko technologia, ale także przejrzystość wartości każdej danej. Każda decyzja modelu ma jasne i śledzone źródło, a twórcy danych mogą być uznanymi na łańcuchu, tworząc sprawiedliwy i weryfikowalny ekosystem AI.

