Datu ieguves tirgus ir strauji, klusi un izdevīgi aug. Tas miers tikko beidzās. Uzņēmums Google ir izlaidis atvērtā pirmkoda rīku, kas pievērš uzmanību strauji augošai, vairākus miljardus dolāru vērtai nozarei. Rīks, ko sauc par LangExtract, risina problēmu, kurai jau sen ir nepieciešama maksas programmatūra, pielāgoti cauruļvadi vai lielas datu komandas: netīra, nestrukturēta teksta pārvēršana tīros, strukturētos datos. Šoreiz tas ir bez maksas.
LangExtract tika palaists 2025. gada jūlijā kā daļa no Google Gemini darbināmās informācijas ieguves kopas. Tā ir Python bibliotēka, kas izveidota strukturētas informācijas iegūšanai no gariem dokumentiem, izmantojot lielus valodu modeļus. Tas, kas to atšķir, ir pārbaude. Katra izvilktā entītija tiek piesaistīta tās precīzai pozīcijai avota tekstā līdz rakstzīmju nobīdēm. Rezultāts ir dati, kurus var pārskatīt, pārbaudīt un vizuāli izsekot.
“Mēs ar prieku iepazīstinām ar LangExtract — jaunu atvērtā pirmkoda Python bibliotēku, kas izstrādāta, lai sniegtu izstrādātājiem iespēju tieši to darīt. LangExtract nodrošina vieglu saskarni dažādiem LLM, piemēram, mūsu Gemini modeļiem, lai apstrādātu lielus nestrukturēta teksta apjomus strukturētā informācijā, pamatojoties uz jūsu pielāgotajām instrukcijām, nodrošinot gan elastību, gan izsekojamību,” vietnē LangExtract Developers teica Google.
Tam ir nozīme tirgū, kur uzticēšanās ir trausla. Pasaules datu ieguves telpa ir novērtēta no aptuveni 1,5 miljardiem USD līdz vairāk nekā 5 miljardiem USD 2024.–2025. gadā, un prognozes sasniegs desmitiem miljardu līdz 2030. gadu vidum. Izaugsmi veicināja mākoņu ieviešana, mākslīgā intelekta izmantošana uzņēmumos un spiediens automatizēt ar dokumentiem saistītās darbplūsmas veselības aprūpes, finanšu, tiesību aktu un atbilstības jomā. LangExtract ierodas tieši šajā pieprasījuma līknē.
LangExtract: pārvērtiet netīro tekstu Graph-RAG ieskatos

Tā vietā, lai paļautos uz trausliem skriptiem vai necaurspīdīgiem API, izstrādātāji definē, ko viņi vēlas, izmantojot shēmu un dažus piemērus. Pēc tam LangExtract lieto šo struktūru lielām dokumentu kopām, atgriežot tādus izvadus kā JSON, kas paliek saistīti ar sākotnējo tekstu. Garie faili tiek apstrādāti, sadalot un paralēli, un rezultātus var pārskatīt, izmantojot interaktīvus HTML failus, kas izceļ katru izvilkumu kontekstā.
Pirms iedziļināties plašākā tirgus ietekmē, tas palīdz noskaidrot, ko LangExtract patiesībā dara praksē un ko tas padara nevajadzīgu.
Ko dara LangExtract
- Izvelk strukturētus datus no nestrukturēta teksta, izmantojot lielus valodu modeļus
- Iezemē katru izvilkto entītiju līdz tās precīzai atrašanās vietai avota dokumentā
- Apstrādā garus dokumentus, tostarp failus, kas pārsniedz 100 lappuses
- Izveido interaktīvus HTML failus konteksta pārskatīšanai un pārbaudei
- Darbojas ar mākoņdatošanas modeļiem un vietējiem modeļiem, izmantojot tādus rīkus kā Ollama
Ko LangExtract aizstāj
- Uz regulāru izteiksmi balstīta modeļa atbilstība, kas tiek pārtraukta, mainot formātu
- Pielāgoti nosauktu entītiju atpazīšanas cauruļvadi, kuriem nepieciešama pastāvīga apkope
- Maksas ekstrakcijas API, kas iekasē pēc apjoma ar ierobežotu caurspīdīgumu
- Manuālās datu ievades darbplūsmas vidēs, kurās ir daudz dokumentu
Šai maiņai ir plašāka ietekme uz mūsdienu AI sistēmām. Izguves paplašinātā paaudze paļaujas uz tīriem, strukturētiem metadatiem, lai tie darbotos labi. LangExtract nodrošina šīs sistēmas ar izsekojamu struktūru, nevis ar vaļīgām teksta lāsēm, uzlabojot izguves precizitāti un samazinot kluso atteices režīmus, kad modeļiem tiek lūgts pamatot lielu dokumentu kolekciju.
Google pozicionē LangExtract kā izstrādātāju utilītu, taču tā ietekme pārsniedz to. Izmantojot atvērtā avota rīku, kas sedz galvenās ieguves vajadzības dažādās nozarēs, Google ir saspiedis plašu maksas produktu kategoriju bibliotēkas izsaukumā. Tas neizdzēš tirgu vienas nakts laikā, bet atjauno cerības attiecībā uz cenu noteikšanu, diferenciāciju un vērtību.
LangExtract nesola pilnību. Rezultāti joprojām ir atkarīgi no pamatā esošā modeļa un sniegto piemēru kvalitātes. Bibliotēka var papildināt iegūtos faktus ar modeļa zināšanām, kas ievieš savus kompromisus. Tomēr virziens ir skaidrs. Datu ieguve tiek pāriet no atsevišķas produktu kategorijas uz kopīgu AI steka slāni.
Šādi izskatās Google atvērtais avots, kad tas nonāk augošā tirgus vidū, un kāpēc kādreiz ērtā nozare pievērš uzmanību.
Tālāk ir sniegti LangExtract darbības piemēri.