Sumarizare automată

Sumarizarea automată este crearea unei versiuni mai scurte a unui text de către un program. Rezultatul acestei operații conține totuși majoritatea punctelor importante din textul original.

Fenomenul potopului de informații a însemnat că accesul la sumarizări coerente și corect generate este vital. O dată cu creșterea accesului la date, a crescut și interesul în sumarizearea automată. Un exemplu al utilizării tehnologiei de sumarizare sunt motoarele de căutare precum Google.

Tehnologiile care construiesc un sumar coerent, dintr-un text de orice natură, trebuie să ia în considerare diverse variabile precum lungimea, stilul de scriere și sintaxa pentru a realiza un sumar util.

Extracție și abstracție

[modificare | modificare sursă]

În general, se disting două posibilități de sumarizare: extracție și abstracție.

Tehnicile de extracție copiază informațiile considerate cele mai importante din text în sumar (de exemplu, propozițiile, frazele sau paragrafele cheie), în timp ce abstracția implică parafrazarea unor secțiuni din documentul sursă. În general, abstracția poate condensa un text mai bine decât extracția, dar astfel de programe sunt mai greu de dezvoltat și necesită utilizarea tehnologiei de generare de limbaj natural, domeniu care este în dezvoltare.

Tipuri de sumarizări

[modificare | modificare sursă]

Există mai multe tipuri de sumarizări, depinzând de ceea ce este în vedere la crearea sumarului unui text, de exemplu sumare generice sau sumare pentru interogări (uneori numite sumare bazate pe interogare).

Sistemele de sumarizare sunt capabile să creeze și sumare de text bazate pe interogare și sumare generice, în funcție de ceea ce este necesar utilizatorului. Sumarizarea documentelor multimedia, precum imagini sau filme, este posibilă.

Unele sisteme vor genera sumare bazate pe un singur document sursă, în timp ce altele pot utiliza mai multe documente drept sursă (de exemplu, o clasificare a unor articole de știri despre același subiect). Astfel de sisteme se numesc sisteme de sumarizare multi-document.

Sumarizare ajutată

[modificare | modificare sursă]

Tehnicile de învățare automată din câmpurile apropiate precum recuperarea informațiilor sau text mining au fost adaptate cu succes în folosul sumarizării automate.

Cu excepția Sumarizatoarelor Complet Automate (Fully Automated Summarizers (FAS)), există sisteme care ajută utilizatorii cu sarcina sumarizării (Sumarizare Umană Ajutată de Mașină - MAHS = Machine Aided Human Summarization), de exemplu prin evidențierea pasajelor candidate la includerea în sumar, și sisteme care depind de oameni pentru post-procesare (Sumarizare Mecanică Ajutată de Om - HAMS = Human Aided Machine Summarization).

O problemă care persistă în acest domeniu este aceea a evaluării. Judecata omenească nu este precisă în ceea ce privește un sumar bun, însemnând că automatizarea procesului evaluării este dificilă. Evaluarea manuală poate fi folosită, dar această metodă este consumatoare de timp și muncă, deoarece oamenii trebuie să citească nu numai rezultatul sumarizării, dar și documentele sursă. Alte probleme sunt cele care privesc coerența și acoperirea.

O măsură folosită în Conferințele anuale de Înțelegere a Documentelor organizate de NIST, unde grupurile de cercetare își propun sistemele de sumarizare și traducere, este măsura ROUGE (Recall-Oriented Understudy for Gisting Evaluation [1] Arhivat în , la Wayback Machine.). În principiu, ea calculează suprapunerile n-gramelor dintre sumarele generate automat și cele scrise de oameni. Un nivel înalt de suprapunere indică un nivel înalt de concepte care apar în ambele sumare. Atenție însă, astfel de măsuri de suprapunere nu sunt capabile să exprime gradul de coerență a sumarului. Rezoluția anaforelor rămâne încă o problemă care trebuie rezolvată.

Legături externe

[modificare | modificare sursă]