Алгоритм грамматического анализа корейского предложения
DRAFT
Copyright (C) Евгения и Дмитрий Бречаловы, 2008
Алгоритм
Алгоритм состоит из трёх частей:
- Грамматический анализ
- Расстановка скобок
- Поиск синтаксических отношений
Грамматический анализ
Разбиение предложения на словоформы
Предложение разбивается на отдельные словоформы, все пробелы и знаки пунктуации отбрасываются. Словоформой считается последовательность латинских букв, цифр, символов ‘=‘ и точки.
Послучившийся список словоформ используется в качестве входных данных для остальных частей программы.
Первичный грамматический анализ
Для каждой словоформы предложения:
- Ищется ключ.
- Если он найден, по нему определяется грамм. класс и грамматические показатели. Грамматический класс может быть
N,PилиX. - Если ключ не найден, то грамм. класс словоформы устанавливается равным
N.
- Если он найден, по нему определяется грамм. класс и грамматические показатели. Грамматический класс может быть
- Разрешение X-ов: для каждой словоформы, определенной как
X, делается попытка определить грамм. класс по отдельным аффиксам и их комбинациям в словоформе.
Расстановка скобок
Скобка содержит последовательность словоформ или других скобок. Каждая скобка имеет следующие атрибуты:
- грамматические характеристики (часть речи и грам. показатели)
- правило, согласно которому элементы были объеденены в нее
- список объединенных элементов (главным считается последний)
- Каждая словоформа предложения сама по себе заключается в скобку
- В скобки объединяются элементы, подпадающие под правила предварительного объединения
- Для каждого элемента проверяется левый контекст:
- Если это первый элемент (левый контекст пуст) — перейти к следующему элементу
- Если существует правило, позволяющее объединить текущий элемент с соседом слева:
- они объединяются в скобку
- скобка становится новым текущим элементом
- алгоритм повторяется с п. 3.1.
Поиск синтаксических отношений
- Для каждой скобки, начиная с самой внешней:
- Найти всех слуг для главного (правого) элемента
- Для каждой скобки-слуги повторить алгоритм
RSS