|
С развитием вычислительной техники и информационных технологий в нашей жизни появились новые электронные устройства, в первую очередь - компьютер, без которого невозможно представить профессиональную деятельность и быт современного человека.
Кроме того, возникли новые науки и электронные хранилища информации. В их ряду корпусная лингвистика и особый вид текстовых хранилищ, который называют лингвистическим корпусом. Знать о нем, пользоваться им и даже принять участие в его пополнении по силам каждому культурному человеку.
Что же такое лингвистический корпус? По сути, это «совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов)». Такое толкование дается в Википедии.
Самым первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна. Он содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году, и задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.
По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.
О Национальном корпусе русского языка - собрании русских текстов в электронной форме, адаптированных для исследований и поиска, а также проблемах, связанных с изучением русского языка в современном компьютеризированном мире говорила в своем выступлении на Празднике русской словесности, который проходит в Узбекистане, Хуршеда Давроновна Хамракулова - ведущий научный сотрудник НИУ ВШЭ (Москва). Думаем, познакомиться с ее мнением будет интересно для многих из наших читателей.
- Русский язык стал одним из четырех самых распространенных языков Интернета.
Изменившийся мир предлагает нам новые варианты поведения, в том числе и речевого, информационного, где важное место занимают информационные технологии и так называемое корпусное обучение языкам.
В Узбекистане. Как и в других странах, Интернет все более расширяет свое воздействие на деятельность человека. Современная информация нередко представлена в виде таблиц, диаграмм, интерфейсов, коротких сообщений и требует быстрого восприятия. Принципиально при этом и с огромной скоростью меняется мир текстов. И наше образование к этому не готово. В вузовском и школьном образовании учащиеся мало работают с такими текстами, с которыми им приходится сталкиваться в реальной повседневной жизни и работе. Мало пособий по русскому языку, составленных на реальном языковом материале.
Говоря о литературном языке, мы ориентировались обычно на язык классических литературных произведений. Сегодня на формирование современного литературного языка оказывает огромное влияние язык средств массовой информации. Хорошо это или плохо, и какая это речь – другой вопрос, не секрет, что иногда от нее «уши вянут».
Пора составлять такие учебники, которые учат правильно реагировать на то, что происходит сегодня в языке.
Мы должны обратиться к современной речи и включить в школьные и вузовские учебники образцы тех текстов, которые имеют отношение к жизни, а не только к литературе. Учитывать при обучении орфографии и пунктуации наличие компьютерных редакторов, хотя и не совершенных. Учить пониманию и текстов, и речи, и использованию языковых знаний в речи.
На первом месте при изучении языка должна быть речь. И обязательное использование информационных технологий и Интернета в преподавании предметов гуманитарного цикла, это облегчает обучение и повышает интерес к изучению дисциплин.
Как когда-то человек, ходивший пешком, пересел на колесный транспорт, потом автомобиль, а вскоре и космические ракеты могут стать пассажирскими, так и использование информационных технологий дарит нам все новые и новые возможности. Одна из них – Интернет и национальные корпусные словари. Они достаточно широко используются в Великобритании, США.
Создан сегодня и Национальный корпус русского языка. Это новое явление, появившееся совсем недавно. Узнать о нем подробнее и пользоваться в научной работе и при изучении языка можно с помощью Интернета.
Дополним сообщение Х. Д. Хамракуловой.
Как объясняется на сайте проекта, Корпус содержит практически все типы письменных и устных текстов, представленные в языке: художественные тексты разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные.
Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.
Зачем нужен национальный корпус? Это очень полно растолковано его составителями.
В первую очередь - для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий.
Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа.
Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков.
Основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания.
Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Тамара Санаева.
Фото автора. |