Индекс удобочитаемости — Википедия

Индекс удобочитаемости — мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша

[править | править код]

Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка. Она оценивает сложность текста по следующей формуле[1]

или

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

где:

ASL — средняя длина предложения в словах (англ. average sentence length),
ASW — средняя длина слова в слогах (англ. average number of syllables per word)[2].

Индекс по шкале FRES (англ. Flesch reading ease scale) распределяется таким образом:

100: Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем 2 слогов.
65: простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога.
30: Немного трудно читать. Предложения содержат до 25 слов. Обычно, двусложные слова.
0: Очень трудно читать. В среднем предложение имеет 37 слов. Слово имеет в среднем более 2 слогов.

Для английского языка значение 90—100 соответствует лёгкому тексту для младших школьников, 60—70 — тексту, который могут читать выпускники школы, тексты с индексом 0—30 предназначены для людей с высшим образованием.

В связи с тем, что в русском языке средняя длина предложения меньше (за счёт меньшего использования служебных слов, таких как артикли или вспомогательные глаголы), а слова в среднем длиннее, было предпринято несколько попыток разработать специфическую для русского языка версию меры, например, путём подгонки коэффициентов при сравнении индексов, полученных для оригинальных английских текстов и их переводов. Ниже представлен один из вариантов такой адаптации[3]:

FRE = 206,835 − 1,52 × ASL − 65,14 × ASW.

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за эталонные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком[4].

Примечания

[править | править код]
  1. Edit Central. Дата обращения: 16 декабря 2012. Архивировано 20 декабря 2012 года.
  2. Rudolf Flesch (1948). A new readability yardstick, Journal of Applied Psychology, 32, С. 221—233.
  3. Оборнева И. В. (2005). Математическая модель оценки учебных текстов Архивная копия от 14 апреля 2021 на Wayback Machine. Материалы XV Международной конференции-выставки "Информационные технологии в образовании" ("ИТО-2005"), г.Москва.
  4. Мизернов И. Ю., Гращенко Л. А. (2015). Анализ методов оценки сложности текста Архивная копия от 31 мая 2016 на Wayback Machine. Новые информационные технологии в автоматизированных системах, 18, С. 572—581.