Языкоиды. как может помочь машинное обучение. ↑

klizardin 31 декабря 2014, 09:50 в посте Metapractice (оригинал в ЖЖ)

если мы говорим о текстовых языкоидах. поправляйте, если не прав!

Языкоиды

Языкоид есть разнообразной природы процессы ситуационной семантизации и последующей десемантизации любых элементов экспрессии человека, животных, природных явлений и т.п.

есть текст, который в стандартном понимании состоит из слов. смысл текста -- это смысл отдельных слов, групп слов, сочетаний слов. но языкоид предполагает концепцию, когда смысл/образ/посыл текста определяется не только словами, но и другими атрибутами текста.

фактически, (как я понимаю) задача поиска языкоидов/видов языкоидов в тексте предполает поиск и выделение атрибутов, которые связаны с передачей некоторого смысла/образа/меседжа текста.

таким образом, алгоритмы машинного обучения должны быть нацелены на поиск скрытых атрибутов текста (формы слов, форма/структура текста и т.д.), которые задействованы в передаче месседжа наравне со словами.

Машинное обучение

Одна из классических задач машинного обучения в анализе текстов -- это, например, определение является ли текст спамом или нет.

Для решения этой задачи используется обучающее множество, т.е. множество текстов, о которых уже известно являются ли они спамом или нет. при этом, при обучении мы представляем алгоритмам обучения текст с меткой спам или не спам. алгоритмы машинного обучения ищут закономерности, которые позволяют определить то является текст спамом или не является. это этап обучения. обучение может быть успешным (сходиться) или не быть успешным. обеспечение успешности обучения как задача алгоритмов машинного обучения, так и задача подбора обучающих текстов. фактически, есть неявное правило, что по крайней мере эксперт по обучающему множеству должен быть способен выявить является ли конкретный текст спамом или не является. возможна ситуация, когда эксперт может выявить, но алгоритмы не сходятся, скорее всего это свидетельствует о некоторых неявных данных, которые способен выделить эксперт, но которые не предоставлены алгоритмам машинного обучения в обучающем множестве.

после успешного обучения. мы получаем возможность использовать обученную систему. теперь в нашем примере мы можем подать на вход некий текст и получить ответ явлется ли он спамом или нет?

Как можно использовать алгоритмы машинного обучения для поиска языкоидов

Одна из формулировок задачи анализа языкоидов, например, такова.

Для фрагментов текстов мы определяем некоторые категории.

Человеческий ввод:

Берём тексты. Прописываем для фрагментов этих текстов категории.

Далее программно формируем обучающее множество, в котором передаём в алгоритмы машинного обучения информацию о структуре текста, о том какие фрагменты к каким категориям относятся, информацию о стандартных атрибутах слов (форма, падеж, склонение и т.п.).

Происходит обучение на основе обучающего множества.

Далее, можно попробовать формулировать тексты и наблюдать то, как эти тексты разберёт на языкоиды (т.е. к каким категориям отнесёт те или иные фрагменты текста) обученная система.

Данный разбор обученной системой может подсказать исследователю те или иные закономерности, на основании которых он может сформулировать определённые правила/законы о языкоидах.

(К сожалению, Google Prediction API не позвоялет непосредственно выделить "знания" об атрибутах связаных с теми или иными языкоидами. Эта возможность просто не реализована в API Google-а).