Национальный корпус осетинского языка
Национальный корпус осетинского языка
- Регистрация:
- не требуется
- Язык:
- русский/английский
- Веб-адрес:
- corpus.ossetic-studies.org
- Дата основания:
- 2011 год
- Текущий статус:
- работает и развивается
- Создатель:
- О. И. Беляев и А. П. Выдрин
- Владелец:
- А. П. Выдрин
- Контакты:
- [email protected]
Национальный корпус осетинского языка — онлайновый корпус текстов на иронском (литературном) диалекте осетинского языка. Был создан в 2011 году в рамках программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». Около двух третей всего объёма корпуса составляет литературный журнал «Мах дуг» («Наша эпоха»); также корпус включает в себя художественные произведения современных осетинских писателей 1990—2014 гг., произведения отдельных наиболее известных осетинских писателей XX века и др. (см. полный список произведений, включенных в Осетинский национальный корпус).
Создатели корпуса — О. И. Беляев и А. П. Выдрин, руководитель — А. П. Выдрин.
Содержание |
[править] Характеристики корпуса
Корпус состоит из письменных текстов на иронском (литературном) диалекте осетинского языка. Приблизительный объём корпуса в настоящее время составляет более 11 млн словоупотреблений. В корпус включены как художественные произведения (поэзия и проза), так и некоторые периодические издания.
Корпус является инструментом, позволяющим осуществлять поиск среди большого количества аннотированных и грамматически размеченных текстов. В качестве критериев поиска могут быть указаны следующие типы информации:
- словоформы и лексемы
- лексические и грамматические категории, словоизменительные типы
- пунктуация и регистр.
Также может осуществляться поиск словосочетаний определенного вида.
С помощью задачи пользовательского подкорпуса результаты поиска могут быть отфильтрованы по следующим категориям:
- Авторы и произведения
- Период
- Жанр текста
- Проза/поэзия
- Оригинальная/переводная литература
- Орфография (новая/классическая)
[править] Принцип работы
Корпус снабжён автоматической базовой метатекстовой (название текста, имя автора и/или название периодического издания, время создания и жанр) и подробной грамматической разметкой (начальная форма слова и грамматические характеристики данной словоформы) на русском и английском языках. Корпус использует адаптированную поисковую систему, изначально разработанную компанией Corpus Technologies для Восточноармянского национального корпуса (EANC), позволяющую осуществлять сложные лексико-морфологические запросы. Данная платформа позволяет задавать сложные контекстные запросы, отфильтровывать результаты выдачи с помощью метаинформации и использовать интуитивно понятные функции для настройки выдаваемого материала по многим параметрам.
[править] Возможности поиска
С помощью используемой Осетинским национальным корпусом поисковой системы пользователь может находить как точную форму слова (Wordform/форма), так и все формы заданного слова, встречающиеся в корпусе (Lexeme/лемма), а также осуществлять поиск слов по их английским переводным эквивалентам (Translation/перевод). Поиск словоформы, соответствующей заданным грамматическим и лексическим параметрам, доступен при нажатии на ссылку «Gram & Lexical Attributes/грамматика и часть речи» (см. иллюстрацию). Грамматические признаки для удобства пользования распределены по группам, соответствующим грамматическим категориям (таким как «Parts of speech/Часть речи», «Case/Падеж», «Tense/Время» и др.) Все выбранные параметры отображаются в строке грамматических признаков; там же их можно вводить и редактировать вручную. Расширенный выбор инструментов поиска по корпусу доступен по щелчку по вкладке «Advanced/Дополнительно» под строкой грамматических признаков. Дополнительные параметры поиска:
- пунктуационные знаки;
- позиция слова в предложении;
- регистр;
- омонимичные разборы (функция «запретить омонимичные разборы» аналогична поиску по подкорпусу со снятой грамматической омонимией в Национальном корпусе русского языка).
При поиске в Осетинском национальном корпусе могут использоваться следующие логические функции и маски:
- звёздочка (*) (в строке поиска): заменяет любую последовательность букв; во вкладке «перевод» звездочка перед словом позволяет вывести все варианты перевода вне зависимости от частотности данного способа перевода;
- логическая связка «или» (|): в строке поиска и в строке грамматических признаков;
- логическая связка «не» (~): в строке грамматических признаков;
- логическая связка «и» (,): в строке грамматических признаков.
Помимо поиска единичной словоформы можно осуществлять поиск словосочетаний различной длины (причем слова могут находиться друг от друга на заданном расстоянии); в данном режиме также доступна функция быстрого поиска. Пользователь может задавать собственный подкорпус, сортирующий тексты по дате (периоду) написания, авторству, жанру и некоторым другим признакам. Подкорпус может состоять из одного или нескольких заданных произведений, а может — из всех произведений выбранного автора или данного периода.
[править] Меню настроек выдачи
При выдаче результатов поиска в верхней части экрана отображается следующая информация: общее число документов, в которых встречается заданный запрос, число искомых вхождений, процентное соотношение подкорпуса, по которому осуществлялся поиск, ко всему объёму корпуса, а также количество выбранных документов.
При наведении курсора на слово в выданном контексте (не только искомое) появляется всплывающее окно лексико-грамматического разбора осетинской словоформы. При желании эту форму можно отключить в настройках выдачи.
Также в настройках выдачи доступны функции смены формата выдачи (полный: каждый текст в примерах выдачи снабжён краткой аннотацией (метаразметка), краткий: аннотация текстов появляется только в окне расширенного контекста, глосированный: приближен к морфологическому глоссированию или KWIC (Key Words In Context): отображение текстов выдачи таким образом, что они выравнены по искомому слову (подробнее см. иллюстрацию) и сортировка результатов по ряду дополнительных параметров (начальная форма словоформы-вхождения (лексема), словоформа-вхождение, словоформа слева от словоформы-вхождения, расстояние между вхождениями, автор, название, год создания (по убыванию)); пользователь может добавлять несколько параметров сортировки (кликнув на плюсик внизу справа от строки с уже выбранным параметром).
При некорректном отображении букв осетинского алфавита у пользователя есть возможность изменить кириллическое отображение слов на транслитерацию.
[править] Дополнительные технические возможности корпуса
Для ввода запросов на осетинском языке корпус оснащён виртуальной клавиатурой.
Можно осуществлять поиск в новом окне, кликнув на соответствующую вкладку. Данная функция позволяет совершать два (или более) независимых запроса, что удобно при необходимости сравнения результатов (например, употребление заданного слова/конструкции в двух разных веках или в произведениях двух разных авторов).
[править] Ссылки
- Национальный корпус осетинского языка
- Статья о Национальном корпусе осетинского языка на Lngvomania.info
- Сайт проекта проекта по документированию и описанию осетинского языка
Национальный корпус осетинского языка относится к теме «Образование» |