AI iekšpusē: vai LLMS, piemēram, Chatgpt, ir tikai Reddit iesaiņojumi vai UGC regurgitācijas mašīnas?

Jauns SEMRUSH pētījums parāda lielus valodas modeļus, piemēram, Chatgpt un apjukumu, netiek piesaistīti slēptās zināšanu akas-tie darbojas kā iesaiņojumi ap lietotāju ģenerētu saturu (UGC) no Reddit, Wikipedia, YouTube un daudz ko citu.

2023. gada 18. augustā mēs publicējām skaņdarbu ar nosaukumu “AI Wrappers: AI iesaiņojumu pieaugums un priekšā esošie izaicinājumi”. Tajā mēs pārbaudījām, kā jaunuzņēmumi veidoja SaaS produktus papildus lielo valodu modeļiem (LLMS), piemēram, Openai’s Chatgpt. Tajā laikā iesaiņojumi tika uzskatīti par gudriem veidiem, kā iesaiņot AI intelektu jauniem lietošanas gadījumiem.

Divus gadus vēlāk stāsts ir paņēmis negaidītu pavērsienu. Iesaiņojumi vairs nav tikai jaunuzņēmumu AI SaaS produkti. Paši LLM izskatās kā iesaiņojumi-šoreiz ap lietotāju ģenerētu saturu (UGC) no tādām platformām kā Wikipedia un, pats galvenais, Reddit.

LLMS atmaskots: reddit iesaiņojumi vai patiess intelekts?

Jauns Semrush pētījums rada datus aiz aizdomām, ka daudziem ir bijušas: šodienas AI sistēmas nerada zināšanas no Thin Air. Viņi izvelk no tiem pašiem interneta laistīšanas caurumiem, ko mēs darām, un pārmet šo saturu sarunvalodas tonī. Reddit augšpusē diagrammas ar plašu rezervi, kas parādās vairāk nekā 40 procentos citātu visā Chatgpt, apjukumā, Google AI režīmā un AI pārskatos. Ja jūsu tērzēšanas robots izklausās kā reddit pavediens, tas ir iemesls.

“Mūsdienu AI sistēmas nerada zināšanas no Thin Air. Viņi velk no tiem pašiem interneta laistīšanas caurumiem, ko mēs darām, un pārmet šo saturu sarunvalodas tonī.”

Semrush pētījums, kas publicēts 2025. gada jūnijā, analizēja vairāk nekā 150 000 citātu, kas izvilkti no četriem visplašāk izmantotajiem LLM: Chatgpt, apjukuma, Google AI režīma un AI pārskatiem. Lai pārbaudītu modeļus, komanda vadīja 5000 nejauši izvēlētus atslēgvārdus-sākot no informatīviem līdz darījumu vaicājumiem, un izsekoja, kuri domēni sistēmas ir balstītas uz visbiežāk.

Rezultāti atņēma jebkuru mistiku. Tā vietā, lai kalpotu kā sākotnējās domas strūklakas, modeļi vairāk līdzinās kuratoriem, kas dod priekšroku lietotāja pļāpāšanai. Reddit dominēja iepakojumā ar satriecošu 40,1 procentu atsauces frekvenci. Wikipedia nolaidās otrajā vietā ar 26,3 procentiem, kam sekoja YouTube, Google un Yelp. Facebook, Amazon un TripAdvisor nebija tālu aiz muguras, noapaļojot desmit labākos, kas lielā mērā noliecās uz platformām, kas veidotas ap sabiedrības diskusijām un pārskatiem.

Kur AI iegūst savus faktus: kā Chatgpt, apjukums un Google AI paļaujas uz Reddit, lai saņemtu atbildes

Pētījums arī atklāja, kā katrs modelis uzvedas atšķirīgi. Apmetuma atsauces ir cieši saistītas ar Google meklēšanas rezultātiem-91 procents domēna pārklājas-padarot to mazāk kā izrāvienu un vairāk kā apkopota meklētājprogramma. Chatgpt parādīja vājāku izlīdzināšanu ar Google, tā vietā atgādinot Binga vēsturiskos atsauces modeļus. Paša Google AI režīmā bija plašāka pieeja, vidēji katrā reakcijā sasniedzot septiņus unikālus domēnus un bieži velkot no kartēšanas platformām, piemēram, Mapbox un OpenStreetMap, pat ja šīs vietnes parasti tradicionālajā meklēšanā nemaz neaudzētu.

Tas mazāk glezno llms kā inovāciju dzinējus un vairāk kā filtrus virs pazīstamā tīmekļa reljefa, un Reddit darbojas kā viņu kolektīvo “zināšanu” centrālais centrs.

LLMS tumšā puse: aizspriedumi, misinfo un atbalss kameras

Saukt LLMS par “Reddit iesaiņojumiem” nav tikai gudrs perforators – tas izceļ reālus riskus. Smaga paļaušanās uz lietotāju radītu saturu nozīmē, ka šīs sistēmas manto tādas pašas nepilnības, kas ar to nāk: dezinformācija, aizspriedumi un atbalss kameras efekts.

Reddit spēks ir tā mērogs un daudzveidība, taču tā ir arī pussagrāmām pretenzijām, nepārbaudītām anekdotēm un vīrusu mītiem. Kad LLMS absorbē un pārstrādā šo materiālu, līnija starp faktu un fantastiku var izplūst. Briesmas nav teorētiskas. Iepriekšējos gadījumos Chatgpt ir ierosinājis sajaukt balinātāju un etiķi, lai attīrītu ūdeni – kombināciju, kas faktiski rada toksisku hlora gāzi. Iespējams vainīgais? Slikti padomi, kas nokasīti no tiešsaistes forumiem.

Neobjektivitāte ir vēl viens slānis. Reddit kopienas, tāpat kā visas tiešsaistes telpas, atspoguļo viņu aktīvāko lietotāju perspektīvas. Ja šīs balsis ir ļoti pretrunā ar noteiktiem demogrāfiskiem vai viedokļiem, AI, kas uz tām apmācīti, var pastiprināt šo slīpumu. Tā vietā, lai paplašinātu perspektīvas, tehnoloģija riskē tos sašaurināt, pastiprinot tos pašus neredzamos punktus, kas jau atrodas UGC.

Pat šķietami neitrālie domēni visaugstākajā sarakstā ir ar brīdinājumiem. Piemēram, Yelp un TripAdvisor ir vērtīgi pārskatiem, taču tie joprojām ir subjektīvi konti, ko veido individuāla pieredze. Tādas kartes platformas kā OpenStreetMap paļaujas uz brīvprātīgo ieguldījumu, kas ir precīzi atšķirīgs. Šie ieguldījumi var darboties labi, ja ieteikti restorāni vai vietējie padomi, bet, kad LLM tos ievelk veselības, finanšu vai juridiskā kontekstā, sekas var kļūt nopietnas.

Ikvienam, kurš AI reakcijas uzskata par autoritatīvu, pētījums ir prātīgs atgādinājums: avota materiāls nav ekspertu pārskatītās zināšanas, bet gan ar pūļa pūles pļāpāšanas mozaīku, kas ģērbusies pulētos teikumos.

Ko tas nozīmē nākotnei

Tā kā AI sistēmas padziļinās ikdienas dzīvē, Semrush pētījums uzsver nepatīkamu patiesību: LLM intelekts ir tikai tikpat spēcīgs kā saturs, uz kura viņi ir balstīti. Šobrīd šis fonds lielā mērā izmanto Reddit pavedienus, Wikipedia labojumus, Yelp pārskatus un citus lietotāju ģenerēta satura veidus.

Tas pēc būtības nav slikti-to dēļ un sabiedrības virzītās vietnes atspoguļo reālu cilvēku pieredzi mērogā, bet tas aizrauj robežu starp ekspertu zināšanām un kolektīvo viedokli. Kad AI pārsaiņo, kas sajaucas ar orākula uzticību, tas paaugstina likmes kuratoram.

Daži uzņēmumi jau eksperimentē ar labojumiem. Application ciešāka izlīdzināšana ar meklēšanas rezultātiem liek justies kā nākamā paaudzes meklētājprogrammai, savukārt XAI ir ieguvis reāllaika iegūšanu no X stabiem kā veidu, kā radīt svaigumu un caurspīdīgumu. Google pieeja, atsaucoties uz unikālākiem domēniem, liecina par centieniem paplašināt ievadi. Bet neviens no šiem centieniem nemaina faktu, ka neobjektivitāte, dezinformācija un nevienmērīga kvalitāte joprojām ir iebūvēta cauruļvadā.

Lieta nav tā, ka AI būtu jānoraida, bet gan tā, ka tās lietotājiem un celtniekiem vajadzētu mazāk izturēties kā pret atklāsmi un vairāk kā apkopošanu. Uzticamas AI nākotne nenāks no avotu slēpšanas, bet gan no to paplašināšanas un pārbaudes. Līdz tam, kad Chatgpt atbild uz jūsu jautājumu, atcerieties: iespējams, labāk lasīt Reddit pavedienu labākā gramatikā.

🚀 Vai vēlaties, lai jūsu stāsts būtu redzams?

Iegūstiet tūkstošiem dibinātāju, investoru, PE firmas, tehnoloģiju vadītāju, lēmumu pieņēmēju un tehnoloģiju lasītāju priekšā, iesniedzot savu stāstu Techstarts.comApvidū

Piedāvājiet