Национальный корпус осетинского языка

Материал из Викиреальностя
Перейти к: навигация, поиск

Национальный корпус осетинского языка

Интернет-сайт


URL:
corpus.ossetic-studies.org


Тип сайта:
образовательный/научный проект
Регистрация:
не требуется
Язык(и):
русский/английский



Начало работы:
2011 год


Текущий статус:
работает и развивается



Национальный корпус осетинского языка — онлайновый корпус текстов на иронском (литературном) диалекте осетинского языка. Был создан в 2011 году в рамках программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». Около двух третей всего объёма корпуса составляет литературный журнал «Мах дуг» («Наша эпоха»); также корпус включает в себя художественные произведения современных осетинских писателей 1990—2014 гг., произведения отдельных наиболее известных осетинских писателей XX века и др. (см. полный список произведений, включенных в Осетинский национальный корпус). Создатели корпуса — О. И. Беляев и А. П. Выдрин, руководитель — А. П. Выдрин.

Содержание

[править] Характеристики корпуса

Корпус состоит из письменных текстов на иронском (литературном) диалекте осетинского языка. Приблизительный объём корпуса в настоящее время составляет более 11 млн словоупотреблений. В корпус включены как художественные произведения (поэзия и проза), так и некоторые периодические издания.

Корпус является инструментом, позволяющим осуществлять поиск среди большого количества аннотированных и грамматически размеченных текстов. В качестве критериев поиска могут быть указаны следующие типы информации:

  • словоформы и лексемы
  • лексические и грамматические категории, словоизменительные типы
  • пунктуация и регистр.

Также может осуществляться поиск словосочетаний определенного вида.

С помощью задачи пользовательского подкорпуса результаты поиска могут быть отфильтрованы по следующим категориям:

  • Авторы и произведения
  • Период
  • Жанр текста
  • Проза/поэзия
  • Оригинальная/переводная литература
  • Орфография (новая/классическая)

[править] Принцип работы

Корпус снабжён автоматической базовой метатекстовой (название текста, имя автора и/или название периодического издания, время создания и жанр) и подробной грамматической разметкой (начальная форма слова и грамматические характеристики данной словоформы) на русском и английском языках. Корпус использует адаптированную поисковую систему, изначально разработанную компанией Corpus Technologies для Восточноармянского национального корпуса (EANC), позволяющую осуществлять сложные лексико-морфологические запросы. Данная платформа позволяет задавать сложные контекстные запросы, отфильтровывать результаты выдачи с помощью метаинформации и использовать интуитивно понятные функции для настройки выдаваемого материала по многим параметрам.

[править] Возможности поиска

Поиск слова в Осетинском национальном корпусе можно уточнять с помощью следующих грамматических и лексических категорий (окно открывается при нажатии на ссылку «Gram & Lexical Attributes/грамматика и часть речи» под поисковой строкой)

С помощью используемой Осетинским национальным корпусом поисковой системы пользователь может находить как точную форму слова (Wordform/форма), так и все формы заданного слова, встречающиеся в корпусе (Lexeme/лемма), а также осуществлять поиск слов по их английским переводным эквивалентам (Translation/перевод). Поиск словоформы, соответствующей заданным грамматическим и лексическим параметрам, доступен при нажатии на ссылку «Gram & Lexical Attributes/грамматика и часть речи» (см. иллюстрацию). Грамматические признаки для удобства пользования распределены по группам, соответствующим грамматическим категориям (таким как «Parts of speech/Часть речи», «Case/Падеж», «Tense/Время» и др.) Все выбранные параметры отображаются в строке грамматических признаков; там же их можно вводить и редактировать вручную. Расширенный выбор инструментов поиска по корпусу доступен по щелчку по вкладке «Advanced/Дополнительно» под строкой грамматических признаков. Дополнительные параметры поиска:

  • пунктуационные знаки;
  • позиция слова в предложении;
  • регистр;
  • омонимичные разборы (функция «запретить омонимичные разборы» аналогична поиску по подкорпусу со снятой грамматической омонимией в Национальном корпусе русского языка).

При поиске в Осетинском национальном корпусе могут использоваться следующие логические функции и маски:

  • звёздочка (*) (в строке поиска): заменяет любую последовательность букв; во вкладке «перевод» звездочка перед словом позволяет вывести все варианты перевода вне зависимости от частотности данного способа перевода;
  • логическая связка «или» (|): в строке поиска и в строке грамматических признаков;
  • логическая связка «не» (~): в строке грамматических признаков;
  • логическая связка «и» (,): в строке грамматических признаков.

Помимо поиска единичной словоформы можно осуществлять поиск словосочетаний различной длины (причем слова могут находиться друг от друга на заданном расстоянии); в данном режиме также доступна функция быстрого поиска. Пользователь может задавать собственный подкорпус, сортирующий тексты по дате (периоду) написания, авторству, жанру и некоторым другим признакам. Подкорпус может состоять из одного или нескольких заданных произведений, а может — из всех произведений выбранного автора или данного периода.

[править] Меню настроек выдачи

KWIC in Osetic national corpus

При выдаче результатов поиска в верхней части экрана отображается следующая информация: общее число документов, в которых встречается заданный запрос, число искомых вхождений, процентное соотношение подкорпуса, по которому осуществлялся поиск, ко всему объёму корпуса, а также количество выбранных документов.

При наведении курсора на слово в выданном контексте (не только искомое) появляется всплывающее окно лексико-грамматического разбора осетинской словоформы. При желании эту форму можно отключить в настройках выдачи.

Также в настройках выдачи доступны функции смены формата выдачи (полный: каждый текст в примерах выдачи снабжён краткой аннотацией (метаразметка), краткий: аннотация текстов появляется только в окне расширенного контекста, глосированный: приближен к морфологическому глоссированию или KWIC (Key Words In Context): отображение текстов выдачи таким образом, что они выравнены по искомому слову (подробнее см. иллюстрацию) и сортировка результатов по ряду дополнительных параметров (начальная форма словоформы-вхождения (лексема), словоформа-вхождение, словоформа слева от словоформы-вхождения, расстояние между вхождениями, автор, название, год создания (по убыванию)); пользователь может добавлять несколько параметров сортировки (кликнув на плюсик внизу справа от строки с уже выбранным параметром).

При некорректном отображении букв осетинского алфавита у пользователя есть возможность изменить кириллическое отображение слов на транслитерацию.

[править] Дополнительные технические возможности корпуса

Для ввода запросов на осетинском языке корпус оснащён виртуальной клавиатурой.

Можно осуществлять поиск в новом окне, кликнув на соответствующую вкладку. Данная функция позволяет совершать два (или более) независимых запроса, что удобно при необходимости сравнения результатов (например, употребление заданного слова/конструкции в двух разных веках или в произведениях двух разных авторов).

[править] Ссылки

Национальный корпус осетинского языка относится к теме «Тематические сайты»   ±
  1. В шаблон вносятся сайты, не попавшие в другие шаблоны