Metapractice: Лента записей и комментариев

</>

языкоиды. как может помочь машинное обучение.

klizardin 31 декабря 2014, 09:50 в посте Metapractice (оригинал в ЖЖ)

если мы говорим о текстовых языкоидах. поправляйте, если не прав!

Языкоиды

Языкоид есть разнообразной природы процессы ситуационной семантизации и последующей десемантизации любых элементов экспрессии человека, животных, природных явлений и т.п.

есть текст, который в стандартном понимании состоит из слов. смысл текста -- это смысл отдельных слов, групп слов, сочетаний слов. но языкоид предполагает концепцию, когда смысл/образ/посыл текста определяется не только словами, но и другими атрибутами текста.

фактически, (как я понимаю) задача поиска языкоидов/видов языкоидов в тексте предполает поиск и выделение атрибутов, которые связаны с передачей некоторого смысла/образа/меседжа текста.

таким образом, алгоритмы машинного обучения должны быть нацелены на поиск скрытых атрибутов текста (формы слов, форма/структура текста и т.д.), которые задействованы в передаче месседжа наравне со словами.

Машинное обучение

Одна из классических задач машинного обучения в анализе текстов -- это, например, определение является ли текст спамом или нет.

Для решения этой задачи используется обучающее множество, т.е. множество текстов, о которых уже известно являются ли они спамом или нет. при этом, при обучении мы представляем алгоритмам обучения текст с меткой спам или не спам. алгоритмы машинного обучения ищут закономерности, которые позволяют определить то является текст спамом или не является. это этап обучения. обучение может быть успешным (сходиться) или не быть успешным. обеспечение успешности обучения как задача алгоритмов машинного обучения, так и задача подбора обучающих текстов. фактически, есть неявное правило, что по крайней мере эксперт по обучающему множеству должен быть способен выявить является ли конкретный текст спамом или не является. возможна ситуация, когда эксперт может выявить, но алгоритмы не сходятся, скорее всего это свидетельствует о некоторых неявных данных, которые способен выделить эксперт, но которые не предоставлены алгоритмам машинного обучения в обучающем множестве.

после успешного обучения. мы получаем возможность использовать обученную систему. теперь в нашем примере мы можем подать на вход некий текст и получить ответ явлется ли он спамом или нет?

Как можно использовать алгоритмы машинного обучения для поиска языкоидов

Одна из формулировок задачи анализа языкоидов, например, такова.

Для фрагментов текстов мы определяем некоторые категории.

Человеческий ввод:

Берём тексты. Прописываем для фрагментов этих текстов категории.

Далее программно формируем обучающее множество, в котором передаём в алгоритмы машинного обучения информацию о структуре текста, о том какие фрагменты к каким категориям относятся, информацию о стандартных атрибутах слов (форма, падеж, склонение и т.п.).

Происходит обучение на основе обучающего множества.

Далее, можно попробовать формулировать тексты и наблюдать то, как эти тексты разберёт на языкоиды (т.е. к каким категориям отнесёт те или иные фрагменты текста) обученная система.

Данный разбор обученной системой может подсказать исследователю те или иные закономерности, на основании которых он может сформулировать определённые правила/законы о языкоидах.

(К сожалению, Google Prediction API не позвоялет непосредственно выделить "знания" об атрибутах связаных с теми или иными языкоидами. Эта возможность просто не реализована в API Google-а).

</>

Новости

klizardin 31 декабря 2014, 09:08 в посте Metapractice (оригинал в ЖЖ)

Есть Google Prediction API. Оно хорошо тем, что позволяет обрабатывать достаточно большие объемы данных (быстро и эффективно) и, в принципе, подходит для одного частного решения рассматриваемой в посте задачи. Пока программой для исследования языкоидов я заняться не могу, у меня все ещё подготовка к курсу у студентов. Смогу ближе к концу зимы, к весне, когда более или менее освобожусь.

У меня есть затруднение в понимании сущности языкоидов. До сих пор я не мог сформулировать понимание того, какой интерфейс программы (и в дальнейшем подход по выбору алгоритмов) нужен/оптимален для решения задачи анализа языкоидов с помощью машинного обучения. Пару разборов текста для анализа языкоидов я наблюдал, но желательно больший набор текстов для поиска языкоидов. Если можно, то хотя бы по одному разбору для всех видов языкоидов, которые известны на данных момент. (Можно просто ссылками на уже существующие разборы ну или подсказкой по тому, где их можно искать, такие разборы текстов.) Это нужно для формулирования понимания того, какой интерфейс нужно реализовать для программы по анализу языкодов.

Хотя, т.к. Google Prediction API заточено под решение определённого класса задач, то в общем, частично с интерфейсом для программы поиска языкоидов я более или менее определился (есть ограничения на алгоритмы в Google Prediction API). Но на этапе проектирования программы неплохо было бы понимать, что она сможет сделать, а что скорее всего нет (из-за ограничений по алгоритмам).

Фактически, программа по анализу языкоидов будет способна на выделение определённых закономерностей для слов, групп слов, фрагментов текстов. Как у человека формируется метанойя, так и программа (с использованием Google Prediction API) будет обобщать некоторые данные и давать возможность получить предсказание на основе обучаемого набора данных.

Но такое предсказание будет требовать достаточно большие объемы данных для обучения.

Самая сложная задача в использовании данной программы -- это подготовка достаточного объема входных данных. Т.к. всеже алгоритмы банально находят некоторые закономерности только при достаточном количестве данных. Поэтому есть смысл планировать уже сейчас обработку достаточно больших объемов текстов. Со своей сторорны я постараюсь реализовать программу (интерфейс программы) так, чтобы максимально упростить обработку больших объемов текстов, так чтобы подготовка обучающих данных была максимально простой, быстрой и эффективной.

На данный момент в разработке программы можно помочь подсказав ссылки на разбор текстов по анализу языкоидов.

P.S. Google Prediction API в принципе позволяет обрабатывать достаточно большие объемы данных, достаточно быстро, что скорее всего, позволит обойти ограничения по сложности (как если бы мы использовали собственные вычислительные средства). Все же задачи по обработке текста весьма ресурсоёмки. Предполагаю, что Google Prediction API позволит решить проблемы ограниченности собственных вычислительных ресурсов. К примеру, свести машинное обучение для одного эксперимента от недельного срока, к меньшему времени. Для свободного использования Google Prediction API есть ограничения, но думаю, это не самые сложные вопросы, учитывая преимущества по вычислительным мощностям.

</>

...

klizardin 26 сентября 2014, 13:57 в посте Metapractice (оригинал в ЖЖ)

альтернативная схема работы данного метода может быть следующей:

допустим, есть фраза: Но, для ограниченного корпуса слов типа конкретного языкоида, кажется, это будет работать

и мы берём фрагменты этой фразы:

* "Но" -- категория 1

* "Но, для" -- категория 2

* "Но, для ограниченного" -- категория 3

* "Но, для ограниченного корпуса" -- категория 1

* ...

* "корпуса слов типа" -- категория 2

...

</>

...

klizardin 26 сентября 2014, 13:49 в посте Metapractice (оригинал в ЖЖ)

теперь вопрос создания приложения для реализации данного метода.

1) необходимо создавать приложение и пользовательский интерфейс для:

1.1) создания категорий;

1.2) просмотра/редактирования разметки текста, т.е. отнесения слов и групп слов к разным категориям;

1.3) задания фразы, задания разбиения на дерево (или автоматическое разбиение) и просмотр категорий данной фразы;

2) необходимо ядро, с которым бы мог бы работать неспециалист.

вопросы:

1. подпадает ли частная задача по языкоидам под рассмотренную выше схему (или схема немного другая)?

фактически, какая на данный момент информация создаётся в разметке текстов? т.е. на каких данных можно будет базироваться.

2. какие есть предложения по организации интерфейса для просмотра/редактирования разметки текста, т.к. эта операция одна из наиболее трудозатратных и её нужно сделать оптимально с точки зрения затрат на использование интерфейса

</>

...

klizardin 26 сентября 2014, 13:35 в посте Metapractice (оригинал в ЖЖ)

метод работает следующим образом:

1. строим обучающий корпус. это фразы размеченные по категориям.

категории формируем в виде списка ("А", "Б", "В", ...)

всем/части словам приписывается категория

всем/части группам слов приписывается категория

получаем фразу в следующем виде:

"мама"(категория 1) + "мыла"(категория 2)
              \ /
                 * (категория 3) + "раму" (категория 1)
                                      \ /
                                    * (категория 4)

т.е. по результату получаем некоторое дерево фразы с присвоенными категориями.

(можно эксперементировать и смотреть, что будет если, только малому числу слов задавать категорию. были примеры за то, что и классифиация малой части должна работать, но ясно будет только по результатам экспериментов)

2. провести обучение приложения на обучающем корпусе.

3. предъявляем фразу

далее приложение ищет наиболее возможное разбиение (для формирования дерева) и определяет категории на каждой из вершин полученного разбиения. также разбиение можно будет задавать.

</>

...

klizardin 17 июня 2014, 10:53 в посте Metapractice (оригинал в ЖЖ)

Несмотря на потрясающую память я часто теряю ключи.

1. (против модели памяти) но что интересно, в модели памяти организма обучающимся подкреплением, которой нужно помнить всё для последующей оценки событий и генерализации, организму нужно также и запоминать как входы, так и свои действия. а этот человек не очень запоминает свои действия.

2. (за) если запоминание необходимо для обобщения и далее может игнорироваться и забываться, то этот человек демонстрирует несмотря на хорошую память вполне обычный уровень обобщения для ситуации негативного подкрепления рассеянности после забывания ключа. хотя м.б. он часто вполне успешно вспоминает где забыл ключи, а не винит себя в том, что забыл ключи и не подкрепляет себя когда берёт ключи.

</>

...

klizardin 17 июня 2014, 10:29 в посте Metapractice (оригинал в ЖЖ)

интересно, а как можно определить понятие смысла текста?

</>

...

klizardin 17 июня 2014, 10:20 в посте Metapractice (оригинал в ЖЖ)

если рассматривать обучение с подкреплением, то необходимы некоторые разные периоды запоминания, которые заканчиваются оценкой цепочки действий. с одной стороны, нужно хранить достаточно длинную цепочку, чтобы можно было связать зависимостью события достаточно отлежащие друг от друга, но в то же время и связанные. с другой, нужно хранить достаточно малые цепочки, чтобы определять закономерности и на малых периодах (определять повторяющиеся в каждом достаточно малом периоде события и тем самым определить закономерности и малой величины).

т.е. очевидно, что хранить всю информацию просто невозможно. и значит нужно выделять некоторые события, которые нужно запомнить. это могут быть события для которых не закончился период и ещё не произошла оценка этого события, чтобы генерализировать его важность для организма.

в тоже время, память может быть артефактом генерализации и невозможности хранения всех данных в памяти. рассмотрим следющую систему.

пусть у нас есть некий обучающийся с подкреплением организм, который получает некоторые входы и формирует некоторые действия.

он обучается и формирует некую функцию: вознаграждение = f(текущий_вход, планируемые_действия).

входе планирования в функцию подставляется текущий_вход и далее ищется цепочка действий планируемые_действия, которые максимизируют вознаграждение.

на каждом шаге планирования мы задаём каждый раз новый текущий_вход, тем самым цепочка действий планируемые_действия может координально меняться.

допустим, у нас есть некое действия А1, которое должно приводить к состоянию С1 (наши входы), но оно приводит либо с одного раза выполнения. либо с нескольких раз выполнения. и после достижения состояния С1 (достижения некоторых текущих входов), допустим, возможно действие А2. Получается, что до достижения состояния С1 действие А2 невозможно, а возможно лишь действие А1 (повторяемое N раз).

тогда организм обучаемые с подкреплением может начать искать нужные состояния т.е. нужные входы. при этом интересно, что организм может "вспоминать" возможные состояния для того, чтобы достигнуть состояние и далее уже реализовать нужные действия. т.е. если на входах задано текущий_вход, то организм может вспомнить некий желаемый вход или/и не желаемый вход и искать цепочку действий к данному входу.

т.е. память оказывается нужна и как функция формулирования цели действий. тогда запоминаться будут также и входы, которые желательны или не желательны. т.е. которые ведут или не ведут к вознаграждению.

</>

...

klizardin 17 июня 2014, 09:46 в посте Metapractice (оригинал в ЖЖ)

и всеже есть вопрос: любой человек помнит буквально все, что с ним случалось в жизни или же факты запоминаются в рамках некоторого периода? далее по окончанию этого периода факты как-то осознаются/интерпретируются и дальше уже не храняться или храняться выборочно. один из естественных периодов может быть бодрствование-сон. или период равный размеру краткосрочной памяти. а какие ещё могут быть периоды?

</>

...

klizardin 17 июня 2014, 09:42 в посте Metapractice (оригинал в ЖЖ)

но, как говорят, у меня лучше работает «система извлечения»: у меня лучше, чем у других, получается достать нужное из архива.

И с тех пор, если я хотел вспомнить, в какой день произошло то или иное событие, я мысленно представлял себе календарь этого года и пролистывал его в воображении.

вполне возможно, что ещё в детстве этот человек стоял перед календарём и вспоминал, что происходило вчера или в понедельник или 3-го числа. другие же особеный навык доставания не отрабатывали.