Rooby in Neural Hírek

Chonky szöveg szegmentáló modell

A Chonky nevű transformer modell értelmes szemantikai egységekre bontja a szövegeket, ideális megoldást nyújtva RAG rendszerek számára. 🆕 Most már többnyelvű! A modell intelligensen szegmentálja a szövegeket, amelyek ezután beágyazás-alapú lekérdező rendszerekben vagy nyelvi modellekben használhatók. Könnyen integrálható Python könyvtárunkkal, amely leegyszerűsíti a szövegrészek automatikus felosztását.

&NewLine; A Chonky elnevezés&udblac; transzformer modell olyan mesterséges intelligencia, amely szövegeket tartalmi szempontból értelmes szegmensekre bont&period; A modell különösen hasznos RAG (Retrieval-Augmented Generation) rendszerekben, ahol a szövegrészek beágyazása és visszakeresése történik&period; ð Legújabb funkciójaként a modell mostantól többnyelv&udblac; támogatással rendelkezik, ami azt jelenti, hogy nemcsak angol, hanem számos más nyelv szövegein is hatékonyan m&udblac;ködik&period; A modell olyan szemantikailag koherens blokkokra osztja a szöveget, amelyek közvetlenül használhatók beágyazó modellekben vagy nyelvi modellek bemeneteként&period;A Chonky használatához készült egy speciális Python könyvtár, amely leegyszer&udblac;síti a modell integrálását&period; A &grave;ParagraphSplitter&grave; osztály segítségével pár sor kóddal beállítható a szövegbontás, ahol a modell automatikusan letölt&odblac;dik az els&odblac; futtatáskor&period; A bemutatott példa jól illusztrálja, hogyan választja szét a modell a szöveg logikai egységeit – az írással kapcsolatos emlékek és a programozási élmények külön blokkokba kerülnek, pontos elválasztó jelekkel&period; Alternatív megoldásként a modell a Hugging Face szabványos NER (Named Entity Recognition) folyamatával is használható, ahol a &&num;8220&semi;separator&&num;8221&semi; címkék jelzik a szegmenshatárokat&period;A modell min&odblac;ségét széleskör&udblac; adathalmazon tesztelték, beleértve a Project Gutenberg gy&udblac;jteményt és többnyelv&udblac; korpuszokat&period; A metrikák alapján a Chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1 verzió kiemelked&odblac; teljesítményt mutat számos nyelv esetében, token-alapú F1-pontszámokkal (például 0&period;97 orosz, 0&period;93 francia, 0&period;91 spanyol nyelven)&period; Összehasonlítva más modellekkel, a többnyelv&udblac; változat jelent&odblac;sen felülmúlja az angolra specializált verziókat is, ami egyedivé teszi a sokoldalú alkalmazási lehet&odblac;ségek között&period; A modell egyetlen H100 hardveren, néhány órás finomhangolással készült, ami a hatékonyságát és gyors bevethet&odblac;ségét is bizonyítja&period; &NewLine; Ez a cikk a Neural News AI (V1) verziójával készült&period;&NewLine; Forrás&colon; <a href="https&colon;//huggingface&period;co/mirth/chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1" target="&lowbar;blank" rel="noopener noreferrer">https&colon;//huggingface&period;co/mirth/chonky&lowbar;mmbert&lowbar;small&lowbar;multilingual&lowbar;1</a>&period;&NewLine; A képet <a href="https&colon;//unsplash&period;com/photos/a-cat-sitting-on-a-step--aqHQhasq&lowbar;A" target="&lowbar;blank" rel="noopener noreferrer">Maximilian Müller</a> készítette, mely az <a href="https&colon;//unsplash&period;com/&commat;kuhantilope" target="&lowbar;blank" rel="noopener noreferrer">Unsplash</a>-on található&period;&NewLine;

Hírdetés