Задачи к курсу

В качестве лабораторного практикума мы предлагаем ряд задач. Данные задания покрывают многие теоретические термины курса и помогают на практике студентам закрепить свои знания. Предполагается, что студентам будет выдано 1-2 задания, ввиду их достаточной обширности.

1. Автоматическое определение тональности.

Системе, реализованной студентом, необходимо определить является ли входной текст положительным отзывом/комментарием или отрицательным. Предполагается использование одного из алгоритмов машинного обучения (Наивный Байесовский классификатор, метод опорных векторов, метод k ближайших соседей).

Для реализации необходима предметная область и обучающая выборка. Для примера возможно использовать открытый размеченный корпус комментариев в сети Twitter (http://study.mokoron.com/).

Возможно задание пороговой точности, например не меньше 0.7.

2. Система фильтрации спама.

Системе, реализованной студентом, подается на вход текст письма и необходимо определить является ли письмо спамом или нет. Предполагается использование одного из алгоритмов машинного обучения (Наивный Байесовский классификатор, метод опорных векторов, метод k ближайших соседей).

Для создания обучающей выборки, каждый студент должен предоставить порядка 20 писем, содержащих спам. Это будет основа обучающего корпуса.

Возможно задание пороговой точности, например не меньше 0.7.