«Использование ИТ в корпусных исследованиях»

Главная Учебники - Разные Лекции (разные) - часть 15

«Использование ИТ в корпусных исследованиях»

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по
«Основам информационных технологий»

Магистрант

кафедры прикладной лингвистики

Влазнюк Наталья Ивановна

Руководители:

ст. преподаватель Кожич П.П.

ст. преподаватель Громко Н.И

Минск – 2009 г.

Оглавление

Оглавление. 2

Список обозначений ко всей выпускной работе. 3

на тему «Использование ИТ в корпусных исследованиях». 4

Введение. 4

Глава 1. О содержании корпусов и возможностях использования материалов корпусов. 6

Зачем нужен национальный корпус?. 6

Как развивается Национальный корпус?. 8

Области применения корпусов. 10

Глава 2. Программные средства. 13

Программные средства. 13

О программе Mystem... 13

AOT – Автоматическая обработка текста. 13

Заключение. 14

Интернет ресурсы в предметной области исследования. 15

Действующий личный сайт в WWW (гиперссылка). 16

Список обозначений ко всей выпускной работе

НКРЯ – Национальный корпус русского языка

на тему «Использование ИТ в корпусных исследованиях»

Введение

В данной работе мы рассмотрим возможности использования национальных корпусов языков в различных исследованиях. Актуальность данной темы обусловлена стремительным развитием такой дисциплины, как корпусная лингвистика, и разработкой новых сфер её применения.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники.

Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;

достаточно большой представительностью данных (при большом объёме корпуса);

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков.

Национальный корпус русского языка (НКРЯ), создаваемый при РАН, содержит на сегодняшний день более 140 млн. словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

В данной работе мы рассмотрим следующие вопросы.

1. Принципы создания корпусов, используемые в них программные средства.

2. Возможности использования материалов корпусов в лингвистических исследованиях и в учебном процессе.

Глава 1. О содержании корпусов и возможностях использования материалов корпусов.

Зачем нужен национальный корпус?

Прежде всего, необходимо пояснить, что такое корпус вообще и Национальный корпус в частности.

Корпус некоторого языка — это, в первом приближении, собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, обычно называется «разметкой», или «аннотацией», корпуса. Корпус тем лучше, чем полнее и совершеннее его аннотация. Собственно, наука о корпусах — это прежде всего наука о том, как сделать хорошую разметку корпуса.

Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Ведь в обычном тексте нет никаких сведений, например, о грамматической характеристике входящих в него слов. Если нам нужно найти просто слово (например, слово диван во всех его формах), то с этой задачей неплохо справится и обычный текстовый редактор: достаточно написать в окне поиска цепочку букв ДИВАН, и результат окажется вполне приемлемым. Несколько хуже, правда, дело будет обстоять в том случае, если мы захотим искать, например, все формы русского слова рожь. У этого слова есть беглая гласная, поэтому в некоторых формах его основа выглядит как РОЖ-, а в некоторых — как РЖ-. Но если мы напишем в окне поиска только эти две буквы (РЖ), результат окажется неприемлемым: слишком много других русских слов тоже начинаются на РЖ- (ржавый, ржаветь, ржать, Ржев и т. п.). Стало быть, программа поиска должна понимать как минимум то, какие формы в тексте относятся к одному и тому же слову (например, ржи и рожью, но не ржал и Ржев), т. е. хотя бы частично «понимать» грамматическую структуру данного языка.

Тем более это понимание необходимо, если мы хотим искать не слова, а формы. Представим себе такую задачу: найти в достаточно длинном тексте все формы дательного падежа единственного числа. Текстовый редактор с этой задачей вряд ли справится. Для того чтобы грамматические формы можно было автоматически найти в тексте, этот текст как раз и необходимо предварительно разметить. Иначе поиск возможен только вручную, а это процедура долгая и трудоемкая.

Это только один, самый простой пример, который показывает, для чего может быть нужна разметка. На самом деле, хорошо размеченный текст оказывается бесценным для специалиста. Ведь в своей исследовательской работе лингвисты зависят, прежде всего, от количества и качества собранного материала. У многих еще свежи в памяти те времена, когда примеры выписывались из текста и заносились на карточки. Сейчас карточки ушли в прошлое, но сама процедура выбора примеров из текста делается человеком и с трудом поддается автоматизации. Размеченные корпуса — первый серьезный инструмент, позволяющий существенно ускорить и упростить эту процедуру. Иными словами, то, на что у исследователей предшествующих поколений уходили недели, а то и месяцы напряженного труда, с помощью корпуса можно сделать за минуты.

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает, прежде всего, период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. В корпус попадают образцы практически любого существующего в русском языке письменного дискурса: от статьи современного музыкального критика до инструкции по уходу за кактусами. Более того, составители корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке необходимо еще в большей степени расширить рамки корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа ведется.

Здесь нельзя не сказать еще об одном типе текстов, активно используемых в Корпусе уже на данном этапе работы. Это тексты так называемой «электронной коммуникации»: переписка по электронной почте, а также всевозможные чаты, форумы, общедоступные электронные дневники и др. В такого рода текстах мы имеем дело фактически со спонтанным письменным самовыражением, дающим очень своеобразный гибрид устной и письменной речи. Конечно, даже в форумах и блогах люди продолжают писать не совсем так, как говорят, но дистанция между письменной и устной речью здесь во много раз меньше. Этим электронная коммуникация и привлекательна для лингвистов: какие-то языковые явления встречаются только или преимущественно в данных текстах. Впрочем, нельзя не заметить, что тексты электронной коммуникации наиболее сложны для обработки и разметки, потому что пишущие в сетевой среде чувствуют себя более свободно не только в отношении языка, но и в отношении норм общепринятой орфографии. Орфографическая вариативность электронных текстов возрастает на порядок, в них широким потоком вливаются разговорные дублеты, произносимые на месте литературных, но обычно не отражаемые на письме — такие, как ща (и щас), сёдни, чё, тока, ваще, кто-нить — и многое другое (русистам давно известное). Интересно, что пишущие часто прибегают к искажению орфографии сознательно, в целях языковой игры. Более того, кажется, что массовые игры с орфографией (которые заслуживали бы отдельного обстоятельного рассказа) как раз и возникли именно в электронной среде как специфическое средство выразительности — если угодно, художественный прием. Существует даже специальная мода, вышедшая из нескольких сетевых сообществ и распространившаяся по всему русскому Интернету (например, орфографические клише типа пеши исчо или аффтар ) — своеобразный код, по которому посвященные узнают друг друга. Но, конечно, привлекают электронные тексты далеко не только своей орфографией и раскованным синтаксисом, но и лексикой. Это (если не считать некоторых молодежных периодических изданий) один из самых надежных источников для изучения современного сленга. Где еще можно в таком количестве (и в таких естественных контекстах) встретить всевозможные рулит, зажигает, не катит, колбасит, тащится и т. д.

Из сказанного выше видно, что национальные корпусы активно используют электронные тексты. Это также одна из причин того, почему в Национальном корпусе русского языка художественные тексты представлены в большом количестве, но не доминируют. Интересно, что в корпусах европейских языков эта доля еще более низкая и, как правило, не превышает 20 процентов, так что Национальный корпус русского языка все равно остается одним из самых «литературоцентричных».

Все это позволяет любому человеку искать любые слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Говоря техническим языком, возможен поиск по морфологическим параметрам. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п. (в любых комбинациях: например, тексты о спорте, написанные женщинами после 1995 года).

Национальный корпус русского языка в настоящее время включает следующие подкорпуса :

· глубоко аннотированный корпус , в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

· параллельный русско-английский корпус текстов , в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

· корпус диалектных текстов , включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

· корпус поэтических текстов , в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

· корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Области применения корпусов.

Отчасти на этот вопрос ответ был уже дан выше. Прежде всего, корпус нужен — даже не просто нужен, а необходим — профессиональным лингвистам, тем, кто, так или иначе, имеет дело с фактами языка, а значит, должен эти факты собирать и систематизировать. Для лингвистов корпус — как минимум неоценимый инструмент, сокращающий затраты времени на техническую работу. Корпус — это также фактически справочно-информационная система по современному русскому языку, позволяющая получать ответы на самые неожиданные вопросы, — более того, позволяющая ставить новые проблемы, которых лингвистика прошлого почти не касалась.

Вот один из примеров, взятых из недавней исследовательской практики. На приведенный вопрос лингвист может ответить с помощью Корпуса буквально за считанные минуты.

В русском языке есть глагол несовершенного вида реагировать. Его коррелятами совершенного вида могут быть несколько разных приставочных глаголов: прореагировать, отреагировать, среагировать (явление нередкое, особенно среди заимствований). Какой из этих приставочных коррелятов употребляется чаще? К каким контекстам тяготеет каждый из этих приставочных коррелятов (например, какой из них охотнее сочетается с наречием быстро)? Наконец, в какой последовательности они появляются в современном языке — одновременно или по очереди? Различается ли частота их употребления в разные периоды?

Совершенно ясно, что число таких примеров можно многократно увеличить, а задачи — усложнить. Но этот пример показывает, насколько Корпус технически сокращает и революционизирует работу с материалом даже и в этих случаях, позволяя простым нажатием кнопки получить данные, на сбор которых в иной ситуации потребовались бы месяцы.

Сейчас использование Корпуса в повседневной деятельности лингвистов постепенно становится нормой. Уже привычно, что доклады на научных конференциях сопровождаются словами «На основе примеров, полученных из Национального корпуса русского языка…» или «В Национальном корпусе русского языка это явление отражено следующим образом…». Студенты выполняют практические задания, пишут курсовые и дипломные работы, используя Корпус (и одновременно обучаясь правильно с ним обращаться). На материале Корпуса уже защищаются диссертации. Все это совершенно естественно и могло бы произойти значительно раньше: в нашей стране корпусная лингвистика развивалась, к сожалению, с большим отставанием от США, Европы и Японии. Вполне возможно, что в недалеком будущем без корпуса изучаемого языка лингвисту будет так же невозможно обходиться, как, например, без словаря этого языка. Более того, корпус, словарь и грамматика, скорее всего, соединятся в один электронный ресурс, или базу данных, на основании которой и можно будет изучать язык.

Программистам, работающим в области автоматической обработки текстов (в том числе и различного рода поисковых систем), также хорошо известны преимущества корпусов. Поскольку программы такого рода имеют дело с естественным языком, они должны в той или иной степени «понимать» структуру текстов, написанных на этом языке. Причем понимать структуру именно тех текстов, которые встречаются в реальной жизни, а не идеализированную структуру языка в том виде, как она описана в академических и школьных грамматиках. Из сказанного становится ясно, что программисты, как никакие другие профессионалы (не считая лингвистов) заинтересованы в том, чтобы корпуса, отражающие подлинное и максимально разнообразное языковое употребление, так сказать, «неприглаженную» языковую стихию, создавались и развивались. Не случайно проект создания Национального корпуса русского языка уже на самых ранних этапах был поддержан компанией «Яндекс» (крупнейший российский портал, разработавший одну из самых быстрых и эффективных поисковых программ по русскому сегменту Интернета), и в целом вне лингвистики наибольшее внимание к Корпусу проявляли и проявляют специалисты по информатике и программированию. Сотрудничество с программистами компании «Яндекс» оказалось очень плодотворным: при их непосредственной технической поддержке и был создан сайт, на котором размещен Национальный корпус русского языка в его нынешнем виде.

Разумеется, и программисты далеко не исчерпывают «целевую аудиторию» корпуса. Следующая по важности группа пользователей — это те, кто, так или иначе, имеет дело с преподаванием современного русского языка, причем не только в качестве родного, но и в качестве иностранного. Данная область применения национального корпуса является наиболее актуальной для нас, так как основной целью написания нашей магистерской диссертации по специальности является создание методического пособия по русскому языку для иностранцев на базе материалов НКРЯ.

При обращении к иностранной аудитории значимость Корпуса многократно возрастает. Для людей, не владеющих русским языком в качестве родного (как преподавателей, так и обучаемых), Корпус оказывается поистине незаменимым инструментом. Действительно, мы, носители русского языка, ежесекундно погружены в его стихию. «Примеры употребления» русского языка не просто существуют у нас в сознании — они окружают нас буквально повсюду. Конечно, специально отобранные и обработанные в составе Корпуса, эти примеры могут принести гораздо бoльшую пользу, но если носителя русского языка лишить Корпуса, это не скажется фатальным образом на возможности его контактов со стихией русского языка — просто потому, что эта стихия существует по крайней мере и в его сознании тоже.

Языковое сознание иностранца — не русское. И он в высшей степени нуждается в инструменте, открывающем ему максимально широкий (и максимально комфортный) доступ в мир русского языка. Ничего лучше Корпуса современная наука в этом случае предложить не может. Именно в Корпусе преподаватель и студент могут найти ответы на многие интересующие их вопросы — причем такие ответы, которые даже носитель не сразу догадается предложить. Поэтому не случайна высокая популярность корпусов в иноязычной среде. И именно от зарубежных русистов (в особенности преподавателей русского языка) создатели корпусов получали самые заинтересованные отклики.

В качестве небольшого отступления следует отметить, что первые электронные корпуса русского языка, доступные для всеобщего пользования, начали появляться не в России, а в Европе, и создателями их были европейские русисты. Специалисты хорошо знают так называемый Упсальский корпус русского языка. Этот корпус был создан в Швеции, а в настоящее время хранится на сервере Тюбингенского университета в Германии, и в свое время немало пригодился специалистам. Интересные разработки по русской корпусной лингвистике ведутся в Финляндии — эта страна является одним из лидеров корпусной лингвистики в мире, в том числе и в области русской корпусной лингвистики. Весь этот опыт наши разработчики старались учесть — наряду с отечественным опытом последних десятилетий.

Еще одна группа людей, для которых Корпус может представлять бесспорный интерес, — люди пишущие или в своей повседневной деятельности связанные со словом. Например, редакторы газет и журналов. Редакторам в своей практической деятельности гораздо чаще, чем академическим исследователям, приходится решать вопросы узуса: допустимо ли такое слово или конструкция? Кто, где, когда употребил впервые такой оборот? Для каких типов текста он наиболее характерен? Трудно представить себе, где можно быстро найти ответы на такие вопросы, кроме Корпуса. Корпусом можно пользоваться и для проверки каких-то сведений, т. е. как справочником, но в этом отношении необходимо соблюдать известную осторожность, помня, что не всё действительное может быть разумно (по крайней мере, если речь идет о тексте, предназначенном для публикации в газете или журнале).

Глава 2. Программные средства.

Программные средства

Программа метатекстовой разметки для НКРЯ подготовлена С. А. Шаровым; упрощенная метатекстовая разметка проводилась при помощи программного обеспечения, созданного А. Е. Поляковым.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов анализа в этих программах занимались Л. Л. Иомдин и В. З. Санников (Mystem), Н. Н. Леонтьева (Dialing).

Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям. Для их получения можно обратиться на сайты авторов — Яндекса и АОТ.

В создании и усовершенствовании программного обеспечения Национального корпуса принимали участие также А. А. Аброскин, Н. В. Григорьев, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов.

О программе Mystem

Программа Mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Принципы работы кратко описаны в статье Segalovich I. «A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine». [MLMTA-2003]

AOT – Автоматическая обработка текста

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг интересов разработчиков в основном входит анализ русского языка.

Подход этой группы является скорее консервативным, чем революционным. Участники группы не высказываются в поддержку общей «суперидеи», объясняющей сущность естественного языка. Вместе с тем они считают, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.

Начиная с 2002 года, группа АОТ выкладывает свои разработки с лицензией LGPL. Теперь каждый может бесплатно использовать эти библиотеки в своих программах, в том числе и в коммерческих приложениях.

Заключение.

В заключение следует сказать, что Корпус дает огромные возможности для изучения русского языка и понимания закономерностей его развития. В своей преподавательской деятельности нами уже широко использовались материалы Корпуса, а в будущем планируется создать методическое пособие для студентов-иностранцев и преподавателей русского языка как иностранного на основе материалов НКРЯ и корпусов других языков (в частности, английского, немецкого, польского, китайского, персидского).

Интернет ресурсы в предметной области исследования.

www.ruscorpora.ru

www.aot.ru

www.wikipedia.org

www.corpora.iling.spb.ru

www.corpus.leeds.ac.uk

www.studiorum.ruscorpora.ru

www.sara.natcorp.ox.ac.uk

http://linguistlist.org/sp/Texts.html

http://www.corpuslab.com/

http://dict.ruslang.ru/

http://www.corpora4learning.net/resources/bibliography.html

Действующий личный сайт в WWW (гиперссылка).