Google Hirdetés

Chonky szöveg szegmentáló modell

A Chonky nevű transformer modell értelmes szemantikai egységekre bontja a szövegeket, ideális megoldást nyújtva RAG rendszerek számára. 🆕 Most már többnyelvű! A modell intelligensen szegmentálja a szövegeket, amelyek ezután beágyazás-alapú lekérdező rendszerekben vagy nyelvi modellekben használhatók. Könnyen integrálható Python könyvtárunkkal, amely leegyszerűsíti a szövegrészek automatikus felosztását.

&NewLine; <p><p>A Chonky elnevezés&udblac; transzformer modell olyan mesterséges intelligencia&comma; amely szövegeket tartalmi szempontból értelmes szegmensekre bont&period; A modell különösen hasznos RAG &lpar;Retrieval-Augmented Generation&rpar; rendszerekben&comma; ahol a szövegrészek beágyazása és visszakeresése történik&period; 🆕 Legújabb funkciójaként a modell mostantól többnyelv&udblac; támogatással rendelkezik&comma; ami azt jelenti&comma; hogy nemcsak angol&comma; hanem számos más nyelv szövegein is hatékonyan m&udblac;ködik&period; A modell olyan szemantikailag koherens blokkokra osztja a szöveget&comma; amelyek közvetlenül használhatók beágyazó modellekben vagy nyelvi modellek bemeneteként&period;<&sol;p><p>A Chonky használatához készült egy speciális Python könyvtár&comma; amely leegyszer&udblac;síti a modell integrálását&period; A &grave;ParagraphSplitter&grave; osztály segítségével pár sor kóddal beállítható a szövegbontás&comma; ahol a modell automatikusan letölt&odblac;dik az els&odblac; futtatáskor&period; A bemutatott példa jól illusztrálja&comma; hogyan választja szét a modell a szöveg logikai egységeit – az írással kapcsolatos emlékek és a programozási élmények külön blokkokba kerülnek&comma; pontos elválasztó jelekkel&period; Alternatív megoldásként a modell a Hugging Face szabványos NER &lpar;Named Entity Recognition&rpar; folyamatával is használható&comma; ahol a &&num;8220&semi;separator&&num;8221&semi; címkék jelzik a szegmenshatárokat&period;<&sol;p><p>A modell min&odblac;ségét széleskör&udblac; adathalmazon tesztelték&comma; beleértve a Project Gutenberg gy&udblac;jteményt és többnyelv&udblac; korpuszokat&period; A metrikák alapján a Chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1 verzió kiemelked&odblac; teljesítményt mutat számos nyelv esetében&comma; token-alapú F1-pontszámokkal &lpar;például 0&period;97 orosz&comma; 0&period;93 francia&comma; 0&period;91 spanyol nyelven&rpar;&period; Összehasonlítva más modellekkel&comma; a többnyelv&udblac; változat jelent&odblac;sen felülmúlja az angolra specializált verziókat is&comma; ami egyedivé teszi a sokoldalú alkalmazási lehet&odblac;ségek között&period; A modell egyetlen H100 hardveren&comma; néhány órás finomhangolással készült&comma; ami a hatékonyságát és gyors bevethet&odblac;ségét is bizonyítja&period;<&sol;p><br><&sol;p>&NewLine; <p>Ez a cikk a Neural News AI &lpar;V1&rpar; verziójával készült&period;<&sol;p>&NewLine; <p>Forrás&colon; <a href&equals;"https&colon;&sol;&sol;huggingface&period;co&sol;mirth&sol;chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1" target&equals;"&lowbar;blank" rel&equals;"noopener noreferrer">https&colon;&sol;&sol;huggingface&period;co&sol;mirth&sol;chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1<&sol;a>&period;<&sol;p>&NewLine; <p>A képet <a href&equals;"https&colon;&sol;&sol;unsplash&period;com&sol;photos&sol;a-cat-sitting-on-a-step--aqHQhasq&lowbar;A" target&equals;"&lowbar;blank" rel&equals;"noopener noreferrer">Maximilian Müller<&sol;a> készítette&comma; mely az <a href&equals;"https&colon;&sol;&sol;unsplash&period;com&sol;&commat;kuhantilope" target&equals;"&lowbar;blank" rel&equals;"noopener noreferrer">Unsplash<&sol;a>-on található&period;<&sol;p>&NewLine;

Hírdetés