[userpic]

Новости 

klizardin в посте Metapractice (оригинал в ЖЖ)

Есть Google Prediction API. Оно хорошо тем, что позволяет обрабатывать достаточно большие объемы данных (быстро и эффективно) и, в принципе, подходит для одного частного решения рассматриваемой в посте задачи. Пока программой для исследования языкоидов я заняться не могу, у меня все ещё подготовка к курсу у студентов. Смогу ближе к концу зимы, к весне, когда более или менее освобожусь.
У меня есть затруднение в понимании сущности языкоидов. До сих пор я не мог сформулировать понимание того, какой интерфейс программы (и в дальнейшем подход по выбору алгоритмов) нужен/оптимален для решения задачи анализа языкоидов с помощью машинного обучения. Пару разборов текста для анализа языкоидов я наблюдал, но желательно больший набор текстов для поиска языкоидов. Если можно, то хотя бы по одному разбору для всех видов языкоидов, которые известны на данных момент. (Можно просто ссылками на уже существующие разборы ну или подсказкой по тому, где их можно искать, такие разборы текстов.) Это нужно для формулирования понимания того, какой интерфейс нужно реализовать для программы по анализу языкодов.
Хотя, т.к. Google Prediction API заточено под решение определённого класса задач, то в общем, частично с интерфейсом для программы поиска языкоидов я более или менее определился (есть ограничения на алгоритмы в Google Prediction API). Но на этапе проектирования программы неплохо было бы понимать, что она сможет сделать, а что скорее всего нет (из-за ограничений по алгоритмам).
Фактически, программа по анализу языкоидов будет способна на выделение определённых закономерностей для слов, групп слов, фрагментов текстов. Как у человека формируется метанойя, так и программа (с использованием Google Prediction API) будет обобщать некоторые данные и давать возможность получить предсказание на основе обучаемого набора данных.
Но такое предсказание будет требовать достаточно большие объемы данных для обучения.
Самая сложная задача в использовании данной программы -- это подготовка достаточного объема входных данных. Т.к. всеже алгоритмы банально находят некоторые закономерности только при достаточном количестве данных. Поэтому есть смысл планировать уже сейчас обработку достаточно больших объемов текстов. Со своей сторорны я постараюсь реализовать программу (интерфейс программы) так, чтобы максимально упростить обработку больших объемов текстов, так чтобы подготовка обучающих данных была максимально простой, быстрой и эффективной.
На данный момент в разработке программы можно помочь подсказав ссылки на разбор текстов по анализу языкоидов.
P.S. Google Prediction API в принципе позволяет обрабатывать достаточно большие объемы данных, достаточно быстро, что скорее всего, позволит обойти ограничения по сложности (как если бы мы использовали собственные вычислительные средства). Все же задачи по обработке текста весьма ресурсоёмки. Предполагаю, что Google Prediction API позволит решить проблемы ограниченности собственных вычислительных ресурсов. К примеру, свести машинное обучение для одного эксперимента от недельного срока, к меньшему времени. Для свободного использования Google Prediction API есть ограничения, но думаю, это не самые сложные вопросы, учитывая преимущества по вычислительным мощностям.