Курс "Компьютерная лингвистика"
В качестве лабораторного практикума мы предлагаем ряд задач. Данные задания покрывают многие теоретические термины курса и помогают на практике студентам закрепить свои знания. Предполагается, что студентам будет выдано 1-2 задания, ввиду их достаточной обширности.
1. Автоматическое определение тональности.
Системе, реализованной студентом, необходимо определить является ли входной текст положительным отзывом/комментарием или отрицательным. Предполагается использование одного из алгоритмов машинного обучения (Наивный Байесовский классификатор, метод опорных векторов, метод k ближайших соседей).
Для реализации необходима предметная область и обучающая выборка. Для примера возможно использовать открытый размеченный корпус комментариев в сети Twitter (http://study.mokoron.com/).
Возможно задание пороговой точности, например не меньше 0.7.
2. Система фильтрации спама.
Системе, реализованной студентом, подается на вход текст письма и необходимо определить является ли письмо спамом или нет. Предполагается использование одного из алгоритмов машинного обучения (Наивный Байесовский классификатор, метод опорных векторов, метод k ближайших соседей).
Для создания обучающей выборки, каждый студент должен предоставить порядка 20 писем, содержащих спам. Это будет основа обучающего корпуса.
Возможно задание пороговой точности, например не меньше 0.7.