Все эти различалки различают "нечто", что в манере карго называют для понятности "эмоции".Иными словами, различалки калибруют всяческие экспрессивные (чаще) лицевые активности. Но, что эти активности на самом деле функционально означают есть отдельный вопрос. Между тем, полноценная калибровка требует точного определения что означает выявленная активность.Ещё за два-три года способность различалок несомненно увеличится. А вот, способность выдавать полноценную калибровку - увы. Всё останется как есть. Ну, или "от фонаря" произвольно назначат/припишут те или иные значения для выявляемых экспрессий.Т.е. кардинально задачу может решить только полноценная модель эмоций.Ну, а сейчас быстренько напомните мне про то как специальные нейронные сети в специальном очень глубоком обучении за астрономическое число попыток как-то сами по себе решат эту задачу модели эмоций. Ещё два три года и решат.
Нет, за два-три года будет решаться другая задача: как уйти от астрономического числа попыток в машинном обучении. А потом ещё года два-три для осознания новых возможностей в предметной области моделирования лица, позы и т.д.. Для распознавания лиц сначала использовали только собственно лицо. Потом начали использовать и позу, и характерные предметы одежды -- и сильно увеличили процент распознавания, даже "со спины" и перекрытыми наполовину лицами. Так и тут будет.При этом зададут вопрос "моделирования эмоций" -- получат эмоции на выходе. Зададут вопрос другим образом -- получат другое. Сейчас как раз обсуждается активно в сообществе deep learning тема правильной постановки задачи: сплошь и рядом задача ставится криво, а потом удивляются плохим результатам обучения. Ведь сетки уже распознают объекты лучше человека, но только в том случае, если задача поставлена корректно. Эту постановку задачи должен делать человек, тут никуда не денешься.
Правильная цель сеточного обучения: построение групп родственных моделей и обобщение их мета модельНет, за два-три года будет решаться другая задача: как уйти от астрономического числа попыток в машинном обучении.Т.е. за два-три года будет решаться задача запуска настоящего машинного обучения. Ибо, необходимое астрономическое количество попыток нынешнего «обучения» (а фактически, это некоторая «настройка») указывает на отсутствие реализации целевого процесса.Правда, это означает, что придётся решить задачу моделирования процесса «обучения». Ну, наверное, это придётся делать тёплыми ламповыми мозгами, ибо умных на такие задачи сеток к моменту «ч» не будет.А потом ещё года два-три для осознания новых возможностей в предметной области моделирования лица, позы и т.д…Да, вроде эти задачи решаются давно и вовсю и чисто аналитическими методами. Так и делают. Заряжают эту полуготовую аналитику в обучение сеток. Получают результат. А потом встают на месте методом тыка и ошибок.А, настоящее решение задач распознавания должно делаться/работать с нуля.Для распознавания лиц сначала использовали только собственно лицо. Потом начали использовать и позу, и характерные предметы одежды -- и сильно увеличили процент распознавания, даже "со спины" и перекрытыми наполовину лицами. Так и тут будет.Ну, для моделирования эмоций требуется калибровать в дополнение к нехитрым калибровкам лица невербальные проявления эмоциональных ощущений по всему телу.При этом зададут вопрос "моделирования эмоций" - получат эмоции на выходе. Это невозможно. Ибо, в культуре используют карго представления (сильно вырожденную) модель эмоций. В широком диапазоне вариации ощущений (+выражений лица), практически случайно, называют в широком диапазоне смыслов произвольными наименованиями.Т.е. одному названию эмоций у разных людей соответствуют значительно разные калибровочные эмоциональные ощущения. И наоборот.Поэтому, в отношении эмоций непонятно какой вопрос будут задавать непонятно кто.Зададут вопрос другим образом -- получат другое. Сейчас как раз обсуждается активно в сообществе deep learning тема правильной постановки задачи:Первый правильный вопрос: признать, что номинализация «deep learning» является вырожденной. И прекратить ей пользоваться. Ибо ни мелким, ни глубоким обучением по чётким алгоритмам никто заниматься не может.Как говорят мудрецы: первый шаг к истине есть признание существование «ложного» в качестве ложного.сплошь и рядом задача ставится криво, а потом удивляются плохим результатам обучения. Ведь сетки уже распознают объекты лучше человека, но только в том случае, если задача поставлена корректно. Сетки распознают объекты лучше только в том случае, ежели объекты уже имеют в контексте своего существования/определения приличную формализацию. Во всех остальных случаях приводимые примеры распознавания не убедительны. Либо даже, не достоверны.Эту постановку задачи должен делать человек, тут никуда не денешься.Если для задач распознавания их постановку должен делать человек, то за такими задачами нет никаких моделей распознавания. А без моделей и само распознавания это какие-то частные фокусы или что-то такое.Ибо утроенные контексты распознавания на основе частных моделей вполне результируют в мета модель распознавания, которая вполне может сама ставить себе задачи, оставаясь примитивным автоматом без даже следов и.и.
Большинство этих вопросов обсуждаются в сообществе машинного обучения (хотя и в совсем других формулировках).И всё верно, работа только-только началась -- массовые (тысячи исследователей) эксперименты по сути идут только всего год. До этого работало совсем немножко людей, никаких денег и интереса в этой сфере машинного обучения с использованием глубоких архитектур (то есть иерархии абстракций, иерархии представлений) не было.