Влияние объема корпуса на определение наиболее часто употребляемых слов: анализ частотных данных из пяти корпусов
Аннотация:
Настоящая статья посвящена определению понятия «наиболее часто употребляемых слов», которое востребовано в преподавании иностранных языков и в лингвистических компьютерных технологиях. Цель работы заключается в том, чтобы определить размер частотного ядра лексикона по данным из корпуса. Был разработан метод определения этого ядра с помощью нескольких выборок объемом в один миллион словоупотреблений и оценена устойчивость словарного состава. Создано пять корпусов размером в один миллион словоупотреблений, каждый из которых представляет примерно одну сотую коллекции Национального корпуса русского языка, использованной в частотном словаре. Национальный корпус русского языка является значительным по объему и сбалансированным по жанровому отбору текстов. Он предоставляет достаточно достоверную информацию о частоте слов в письменном языке. Пять наших корпусов воспроизводят баланс жанров частотного словаря и, таким образом, представляют собой миниатюризованный Национальный корпус русского языка. В настоящей работе посредством сравнения частотных данных из этих корпусов с данными Национального корпуса русского языка проанализирована доля совпадения лексических единиц в них на основе метода А. Килгарриффа. В результате выявлено, что миллион словоупотреблений достаточен для описания около 1 500 первых слов, упорядоченных по частотному рангу. Иначе говоря, первые по рангу 1 500 слов стабильно входят во все корпуса. Анализ также указывает на то, что для определения лексического ядра частотным рангом более 1 500 требуется корпус размером более одного миллиона.