Neural hírek logo

Chonky szöveg szegmentáló modell

A Chonky nevű transformer modell értelmes szemantikai egységekre bontja a szövegeket, ideális megoldást nyújtva RAG rendszerek számára. 🆕 Most már többnyelvű! A modell intelligensen szegmentálja a szövegeket, amelyek ezután beágyazás-alapú lekérdező rendszerekben vagy nyelvi modellekben használhatók. Könnyen integrálható Python könyvtárunkkal, amely leegyszerűsíti a szövegrészek automatikus felosztását.

A Chonky elnevezésű transzformer modell olyan mesterséges intelligencia, amely szövegeket tartalmi szempontból értelmes szegmensekre bont. A modell különösen hasznos RAG (Retrieval-Augmented Generation) rendszerekben, ahol a szövegrészek beágyazása és visszakeresése történik. 🆕 Legújabb funkciójaként a modell mostantól többnyelvű támogatással rendelkezik, ami azt jelenti, hogy nemcsak angol, hanem számos más nyelv szövegein is hatékonyan működik. A modell olyan szemantikailag koherens blokkokra osztja a szöveget, amelyek közvetlenül használhatók beágyazó modellekben vagy nyelvi modellek bemeneteként.

A Chonky használatához készült egy speciális Python könyvtár, amely leegyszerűsíti a modell integrálását. A `ParagraphSplitter` osztály segítségével pár sor kóddal beállítható a szövegbontás, ahol a modell automatikusan letöltődik az első futtatáskor. A bemutatott példa jól illusztrálja, hogyan választja szét a modell a szöveg logikai egységeit – az írással kapcsolatos emlékek és a programozási élmények külön blokkokba kerülnek, pontos elválasztó jelekkel. Alternatív megoldásként a modell a Hugging Face szabványos NER (Named Entity Recognition) folyamatával is használható, ahol a “separator” címkék jelzik a szegmenshatárokat.

A modell minőségét széleskörű adathalmazon tesztelték, beleértve a Project Gutenberg gyűjteményt és többnyelvű korpuszokat. A metrikák alapján a Chonky_mmbert_small_multilingual_1 verzió kiemelkedő teljesítményt mutat számos nyelv esetében, token-alapú F1-pontszámokkal (például 0.97 orosz, 0.93 francia, 0.91 spanyol nyelven). Összehasonlítva más modellekkel, a többnyelvű változat jelentősen felülmúlja az angolra specializált verziókat is, ami egyedivé teszi a sokoldalú alkalmazási lehetőségek között. A modell egyetlen H100 hardveren, néhány órás finomhangolással készült, ami a hatékonyságát és gyors bevethetőségét is bizonyítja.


Ez a cikk a Neural News AI (V1) verziójával készült.

Forrás: https://huggingface.co/mirth/chonky_mmbert_small_multilingual_1.

A képet Maximilian Müller készítette, mely az Unsplash-on található.

Neural hírek

2026-ban izgalmas sportév várható: foci- és krikett-világbajnokság mellett a Premier League, az F1, a darts és az NFL is forró drámákkal kecsegtet. Az Arsenal véget
0 views
A csokoládéd egyre kisebb, drágább és kevésbé csokoládés – de miért? A gyártók a dráguló alapanyagok miatt kisebb csomagolásban és módosított receptúrával árulják kedvencédet. A
0 views
Trump állítása, miszerint az amerikai születésű munkavállalók élvezik az új munkahelyek 100%-át, szembemegy a statisztikákkal, amelyek gyengébb munkaerőpiacot mutatnak, mint elődje alatt. Közgazdászok szerint a
0 views
A sütemények is szerepet játszottak a nők választójogi harcában. Az amerikai szüfrazsettek sütivel és szakácskönyvekkel gyűjtöttek pénzt a mozgalom támogatására. A sütikészítés nemcsak bevételt hozott,
0 views
A szakértők szerint a saláták, csírák és a felvágottak is komoly élelmiszer-mérgezési kockázatot hordoznak – egyes szakértők kifejezetten kerülik ezeket. Az élelmiszerbiztonsági szakértők hangsúlyozzák, hogy
0 views
FCC-elnök Brendan Carr zaklatott egy San Francisco-i AM rádióállomást, amiért az elmondta a helyieknek az igazságot. Carr hamis vizsgálatot indított a KCBS ellen, mert az
0 views

Kertészet