альтернативная схема работы данного метода может быть следующей:допустим, есть фраза: Но, для ограниченного корпуса слов типа конкретного языкоида, кажется, это будет работатьи мы берём фрагменты этой фразы:* "Но" -- категория 1* "Но, для" -- категория 2* "Но, для ограниченного" -- категория 3* "Но, для ограниченного корпуса" -- категория 1* ...* "корпуса слов типа" -- категория 2Этого я пока не понимаю.
1. подпадает ли частная задача по языкоидам под рассмотренную выше схему (или схема немного другая)?Пока ответ на этот вопрос я не знаю. Кажется и да, и нет.фактически, какая на данный момент информация создаётся в разметке текстов? т.е. на каких данных можно будет базироваться.Эээ, если я правильно понял твой вопрос, то в тексте задаются признаки/разметка (а) языкоидных сигналов (б) языкоидных семантик (в) алгоритма, указывающего правила чередования (а) и (б) в тексте.2. какие есть предложения по организации интерфейса для просмотра/редактирования разметки текста, т.к. эта операция одна из наиболее трудозатратных и её нужно сделать оптимально с точки зрения затрат на использование интерфейсаНу, мне кажется, годится любой текстовый редактор.В нем разметка типа цветом.Возможность просмотра отдельно:--разметки--текста + разметки
Хм.В языкоиде мы различаем:(а) лингвистические (лексические и грамматические или же паралингвистические) "сигналы". Типичное число сигналов в конкретном языкоиде равно 2. В другом крайнем случае число сигналов около 10.(б) собственно конкретные "семантики" языкоида в ограниченном числе, типично равном 2 "семантикам". Ну, и "семантик" может быть до 10 штук.Получается, для установления/обучения нейросети на языкоид мы должны указать:--список и признаки языкоидных сигналов. Как они будут сделаны размеченными в виде категорий?--список и обучающие примеры семантик. Эти, вроде, маркируются категориями как указал тыТак?
альтернативная схема работы данного метода может быть следующей:допустим, есть фраза: Но, для ограниченного корпуса слов типа конкретного языкоида, кажется, это будет работатьи мы берём фрагменты этой фразы:* "Но" -- категория 1* "Но, для" -- категория 2* "Но, для ограниченного" -- категория 3* "Но, для ограниченного корпуса" -- категория 1* ...* "корпуса слов типа" -- категория 2...
теперь вопрос создания приложения для реализации данного метода.1) необходимо создавать приложение и пользовательский интерфейс для:1.1) создания категорий;1.2) просмотра/редактирования разметки текста, т.е. отнесения слов и групп слов к разным категориям;1.3) задания фразы, задания разбиения на дерево (или автоматическое разбиение) и просмотр категорий данной фразы;2) необходимо ядро, с которым бы мог бы работать неспециалист.вопросы:1. подпадает ли частная задача по языкоидам под рассмотренную выше схему (или схема немного другая)?фактически, какая на данный момент информация создаётся в разметке текстов? т.е. на каких данных можно будет базироваться.2. какие есть предложения по организации интерфейса для просмотра/редактирования разметки текста, т.к. эта операция одна из наиболее трудозатратных и её нужно сделать оптимально с точки зрения затрат на использование интерфейса
метод работает следующим образом:1. строим обучающий корпус. это фразы размеченные по категориям.категории формируем в виде списка ("А", "Б", "В", ...)далеевсем/части словам приписывается категориявсем/части группам слов приписывается категорияполучаем фразу в следующем виде:"мама"(категория 1) + "мыла"(категория 2) \ / * (категория 3) + "раму" (категория 1) \ / * (категория 4)т.е. по результату получаем некоторое дерево фразы с присвоенными категориями.(можно эксперементировать и смотреть, что будет если, только малому числу слов задавать категорию. были примеры за то, что и классифиация малой части должна работать, но ясно будет только по результатам экспериментов)2. провести обучение приложения на обучающем корпусе.3. предъявляем фразудалее приложение ищет наиболее возможное разбиение (для формирования дерева) и определяет категории на каждой из вершин полученного разбиения. также разбиение можно будет задавать.