Предсказание грамматических признаков слов помогает нам читать быстрее
Психолингвисты из Центра языка и мозга НИУ ВШЭ выяснили, что при чтении люди могут предсказывать не только конкретные слова, но и грамматические признаки слов, что позволяет читать быстрее. Кроме этого ученые определили, что предсказуемость слов и грамматических признаков можно успешно моделировать при помощи нейронных сетей. Исследование опубликовано в журнале PLOS ONE.
Способность к предсказанию следующего слова в речи собеседника или при чтении была обнаружена во множестве психо- и нейролингвистических исследований последних 40 лет. Считается, что эта способность позволяет нам быстрее обрабатывать поступающую информацию. При этом недавние работы на материале английского языка приводят отдельные свидетельства того, что во время чтения люди могут предсказывать не только конкретное слово, но и его отдельные признаки (например, часть речи или семантическую группу). Такое частичное предсказание также помогает нам быстрее читать.
Чтобы оценить предсказуемость того или иного слова в контексте, исследователи обычно используют задание на заполнение пропусков в предложении (cloze task), например, Причиной аварии стал мобильный _____________ . В этом предложении возможны разные существительные, но наиболее вероятное — телефон, которое и является реальным продолжением предложения. Вероятность слова телефон в контексте рассчитывается как доля людей, угадавших данное слово, от всех людей, которые выполняли данное задание.
Другим вариантом для оценки вероятности слова в контексте является использование языковых моделей, которые предлагают вероятности для слов, опираясь на большой корпус текстов. При этом практически не существует исследований, которые бы сравнивали вероятности, полученные из задания на заполнение пропусков в предложении, с вероятностями из языковой модели. Кроме этого никто не пробовал моделировать мало изученную грамматическую предсказуемость слов. Авторы статьи решили проверить, будут ли носители русского языка предсказывать грамматические признаки слов, и смогут ли вероятности из языковой модели стать адекватной заменой вероятностям из задания на заполнение пропусков в предложении.
Ученые проанализировали ответы 605 носителей языка в задании на заполнение пропусков в 144 предложениях и обнаружили, что точно угадать слово люди могут примерно в 18% случаев. При этом точно угадывания частей речи и морфологических признаков слов (род, число, падеж существительных и время, число, лицо, род глаголов) варьировалась от 63% до 78%. Обнаружилось, что нейронная сетевая модель, обученная на Национальном корпусе русского языка, предсказывает конкретные слова и грамматические признаки с точностью, сопоставимой с ответами людей в эксперименте. Важным наблюдением оказалось то, что нейронная сеть лучше, чем люди, справляется с предсказанием слов с низкой вероятностью и хуже людей предсказывает высоковероятные слова.
Вторым шагом исследования стало определение того, как экспериментальные и корпусные вероятности влияют на скорость чтения. Для этого ученые использовали данные о движениях глаз при чтении тех же самых 144 предложений, записанные у 96 человек. Результаты показали, что, во-первых, чем выше вероятность угадать часть речи, род и число существительных, а также время глаголов, тем быстрее человек прочитывал слова с этими признаками.
По словам исследователей, это говорит о том, что для языков с богатой морфологией, к которым относится русский язык, предсказание в большой степени связано с предугадыванием грамматических признаков слова.
Во-вторых, вероятности грамматических признаков, полученные из нейронной сетевой модели, объясняли скорость чтения так же хорошо, как и экспериментальные вероятности. «Из этого следует, что для последующих исследований можно будет использовать корпусные вероятности из языковой модели и не проводить новые эксперименты на заполнение пропусков в предложении», — комментирует автор статьи, научный сотрудник Центра языка и мозга Анастасия Лопухина.
В-третьих, вероятности конкретных слов, полученные из языковой модели, объясняли скорость чтения немного иначе, чем вероятности, полученные от людей в эксперименте. Авторы статьи предполагают, что такой результат может быть связан с разными источниками для корпусной и экспериментальной вероятностей: корпусные меры точнее для маловероятных слов, а экспериментальные — для высоковероятных слов.
Анастасия Лопухина, научный сотрудник Центра языка и мозга
Для нас в этой работе было важно две вещи, во-первых, мы выяснили, что читающие носители языков с богатой морфологией активно задействуют грамматическое предсказание. Во-вторых, наши коллеги, лингвисты и психологи, изучающие предсказание, получили возможность оценивать вероятность слов при помощи языковой модели. А это позволит существенно упростить процесс исследования.
Лопухина Анастасия Александровна