Как стать автором
Обновить

Комментарии 33

Переопубликовал с доработками.

И в подтверждение слов про разницу буквенного восприятия очередной скрин из учебника для 3 класса с простенькой транскрипцией

"шлапты" как не вспомнить анекдот номер 647

"Пшолка"

/ Строго не к автору/

Делал себе приложением для изучения иностранных языков.

Делал себе приложением для изучения иностранных языков. Онлайн репетитора. Суть была в том, что можно было обращаться и на английском (несколько языков) при изучении и на русском как к репетитору. Перебить, чтобы уточнить, перевести, разъяснить и так далее.

У каждого сценария были свои голоса, характер, эмоции , стиль общения. Кто то жевал слова, кто то говорил с акцентом и так далее.

При этом это были живые диалоги для разного уровня. Можно было попросить говорить медленно или по словам (для разных уровней знаний) или сами диалоги зависит от уровня сложности и использовали словари для уплотнения слов (разного уровня подготовки) и сложности и длительности фраз.

Например, интервью где ты президент, тебя множество разных журналистов спрашивала о том что ты думаешь о событиях (они брались через rss с крупных новостных сайтов) и могли не ждать твой ответ а продолжить говорить. Или допрос психопата или человека с множеством личностей. Или когда ты знакомишься, но не знаешь обманывают тебя или нет (разные характеры, цели так далее).

Игровой сценарий очень любил. Там ты мог влиять на события попадая в разные локации и их выбор зависел от диалога. Где были множество персонажей, которые тебе помогали попасть куда то. У всех свои эмоции и характеры, свое эмоциональное состояние (через специально разработанную модель) зависящую от общения.

В процессе , велась статистика по всем проблемным местам. Можно было видеть прогресс и прорабатывать проблемные места. А так же они потом встречались завуалировано снова, чтобы закрепить их.

Даже просто мини игры были. Чтобы не было скучно изучать слова. Заодно, четко произносить их правильно на русском английском (или другом языке).

https://t.me/greenruff/1826?single

Главным, была разработанная модель эмоционального синтеза речи, которую пока ни кто не смог превзойти. Построенная на модели вдох-выдох. Которая передавала весь спектр эмоций (текущее эмоциональное состояние персонажа, его характер, эмоции меня как говорящего которые влияли на эмоции персонажа).

Но, пришлись свернуть. Это оказалось пипец как дорого держать сервера. В месяц 120-180 тыс руб. А делать публичным, я посчитал что не откупиться (нужны были подписки в месяц 3-5 т руб и 60-80 чел только для покрытия расходов серверов).

Но опыт от такого изучения нереальный. Ни с чем не сравниться. Так как ты можешь орать, материться, выражать все что думаешь и чувствуешь эмоции в ответ. У меня был психологический барьер с английским и это помогало его снять. Даже пока идёшь где то, запустил приложение и общаешься и тел в кармане. Это реально круто и будущее. При этом можешь спросить на русском, как при обращении к репетитору. Или остановить и разжевать по словам и дофига всего.

Жаль что пока такое слишком дорого содержать. А публично делать, я думаю не окупится.

Если это работает так, как вы описали, думаю, многие были бы готовы купить технологию за немалые деньги

Нет такой технологии

Раскроете мысль?

Краудфандинг или искать инвесторов. Идея очень интересная.

Фигасе! Нейросетевой генератор текста и звука в виде интерактивных диалогов? Это ж круто! И сколько времени ушло, чтобы это все закодить?

Там не только текста и звука. Некоторые игровые сценарии в рамках эксперимента сетка тоже генерировала сама, как и новые локации. В диалогах чтобы не было скучно, постоянно тоже генерировала содержимое сцены. Был отдельный режим, где в сцене происходила генерация , которая меняла только выражение лица. Так что визуальная часть делилась на разные режимы: в одних случайно выбиралось готовые изображения, а в других генерировались на лету.

Был тестовый режим видео звонка, как ещё один тип сценария. Где по сути в процессе генерации ответа, паралельно генерировались видео по частям с анимированные лицом говорящего с интерфейсом как у звонка. Но в итоге отказался, так как это требовало только под это развернуть ещё два GPU сервера на A100 по-моему, что слишком жирно и дорого. Увы, пока это все слишком дорого, хотя результат меня самого впечатлил.

Разработка заняла около 1,5 лет. База PG, основные сервера, микросервисная архитектура, redis и кучей остального на k8s, gpu сервера на ray serve (для масштабирования под нагрузку). В целом где то 6-8 машин. Из них 4 это GPU.

нужны были подписки в месяц 3-5 т руб и 60-80 чел только для покрытия расходов серверов

Вопрос наверное будет из разряда поднадоевших, но позвольте разок :)

А если стоимость подписки сделать 50-150 рублей с ориентацией на школьников/студентов с ихними финансами? У нас же в стране немало таких учат инглиш кому из целевых требований, кому just fo` fun) Я думаю у вас быстро наберётся аудитория с финансовой поддержкой

...ну и запустить в google play или rustore? Я бы в своё время если бы встретил такое приложение с предложенной ценой подписки - я бы оплачивал прям со степухи :D

Я конечно не вкурсе как у вас выстраивался бизнес-процесс и мог сказать что-то сильно расходящееся, но просто поделился своим видением

А с каких денег оплачивать аренду gpu? Дело в том, что все сервера gpu делают разные вещи и каждый может масштабирования по своему. Один gpu сервер, при одновременном использовании может выдержать определенную нагрузку. То есть фактически один gpu выдерживает нагрузку 40-80 чел одновременно (врать не буду, расчеты точные не помню). Дальше надо масштабировать автоматически и сворачивать когда нагрузки нет (балансировщик).

Например, при подписке 2000 руб. Налоги, банковские комиссии, что то ещё и остаётся по-моему 1400-1600 (не помню точно). Умножаем на 60 чел и это даже не покрывает аренду gpu серверов (чтобы они выдерживали нагрузку) или впритык. А это ещё бухгалтерия, разработка, прибыль какая то, и так далее.

А вы предлагаете 150 р. Такое окупается если у вас заранее все сгенерировано и лежит на дешёвом хосте на CPU или вообще не требует сервер (только обновить инфу с него). Тут при 5-6 тыс руб за подписку в месяц, только экономика начинает сходиться, чтобы развиваться.

А насколько допустимо убрать генерацию картинок/видео(если такое генерируются), ну или упростить до абстрактных рисунков в пару слоёв? Я не совсем хорошо разбираюсь в нейронках, но по интуиции кажется что это самое тяжёлое

Основная нагрузка приходится на llm и синтез речи (я его разрабатывал с нуля сам). LLM нагрузку не снизить , если только через api делать обращение к внешним LLM.

А убрать эмоциональный управляемый синтез речи, это значит потерять весь смысл приложения. Так как стандартные модели озвучки не дают управления эмоциями или скудные. Если совсем удешевить синтез, то придется отказаться от эмоций. А разница между общения с обычным синтезом и эмоциональным огромная. Все таки мозг быстро устает, когда чувствует что контекст речи не соответствует эмоциям.

Видео я и так убрал, с ним расходы ещё сильнее возрастали. Распознавание голоса и генерация изображений не сильно жрет на фоне остального.

Визуально ваш проект мне очень понравился. Сам жду, когда подобную идею тренировки разговорного английского с помощью ИИ доведут до ума.

Покупал подписку на приложение Praktika, но весь срок (3 мес) использовать не смог, бросил. Однотипные задания и диалоги.

Для вашего приложения советую искать инвестора, возможно, резать самый ресурсоёмкий функционал. Также смотрите на прогресс в нейронках, на более дешёвые (менее ресурсоёмкие) сети при не сильно худшем качестве генерации. Точно можно удешевить продукт в 10х.

Но есть риск, что скоро таких приложений-конкурентов будет очень много. Вон, Google уже потянулся в тему.

Удешевить до душманской реализации можно, но тогда теряется весь смысл. Здесь важную роль играл разработанный синтез управляемой эмоциональной речи. Без него это превращалось бесполезную поделку.

Задача была как раз учится разговорной речи, которая полна эмоций, когда голос может быть четкий или наоборот бормочущий что то под нос , с акцентом и так далее. Я делал для себя, поэтому цель была в нормальном обучении, а не продажа сухарей по цене батона.

Тема не новая и довольно подробно раскрыта в книге "Вас невозможно научить иностранному языку" в главе "напашехонисебылатиха". Там же и решение содержится, довольно простое и недорогое.

"Умник", поставивший мне минус, на чем основывается твоё мнение? Моё основывается на моем личном опыте и сдаче с первого раза двух экзаменов с разными правилами на B1 в Манхайме по немецкому языку. Я знаю о чем я написал, ибо прошёл честно этот путь без всякой вспомогательной ерунды. Я просто выполнял инструкции из книги, не прибавляя никаких своих улучшений. Но делал это ежедневно около 3 часов. Не отрываясь от работы и спортивной деятельности, которая была весьма активная в период освоения языка.

Значительно продвинуться в понимании речи на слух позволяет ее постоянное прослушивание, причем желательно внимательное и заинтересованное) Банально, но правдиво. Доступ к огромному количеству подкастов и видеобологов позволяет подобрать контент который не наскучит именно тебе, слушать его столько раз сколько нужно именно тебе, на всех возможных скоростях. Заданная тема и/или видеоряд, уже сами по себе являются подсказкой, и понять ситуации и фразы, когда они используются становится легче. Да и ИИ вполне может стать собеседником при котором не стыдно ошибаться и переспрашивать.

Без обратной связи - как понять правильно ли ты понимаешь? Блоги и подкасты это обычно не очень важная информация, нет заинтересованности проверять всё.

Заинтересованность - это единственный важный компонент. Это то же самое, что в спорте или любом другом занятии, которое меняет структуру мозга и тела на аппаратном уровне. Заинтересованность - это аппаратный ключ, который включает режим изменений. Если нет заинтересованности, выучить язык нельзя никак.

Если нет заинтересованности, выучить язык нельзя никак.

Открытый вопрос - как заменить заинтересованность стимулированием? И удавалось ли кому-то освоить на сносном уровне язык потому что без него просто жизнь станет тупо хуже, а не потому что нравится на нем говорить?

Тысячам детей, которых родители заставляют заниматься языком. А также музыкой, спортом и вообще чем угодно. Они выходят на неплохой уровень и потом ненавидят это занятие.

Стимулирование это обычно внешнее воздействие, метод "кнута и пряника". Если найти достаточно сладкий пряник и неприятный кнут, то метод работает) Нередко и "аппетит приходит во время еды", то есть значимые успехи повышают заинтересованность.

А чем плохо смотреть сериалы на иностранном? Там длительный контекст, слова и выражения многократно повторяются, чего нет в коротких подкастах.

Я вижу здесь контекст "в целях изучения языка". Сериалы имеют некоторую пользу, но это недостаточно самостоятельный и эффективный инструмент для повышения уровня владения английским. Так сказать, вам досуг или английский?

Как человек в это верил и пошёл по этому пути, скажу что всё не так прекрасно, как хотелось бы. Разумеется, это мой личный опыт и мои ощущения, у вас могут быть совсем другие.

Подобрать интересный контент, что бы он не был слишком простым и слишком сложным - сложно. В какой-то момент он перестанет приносить пользу, потому что ты привыкаешь к этому профессиональному ведущему и его лексикону. В жизни ты слышишь понемногу сотни разных голосов окружающих, здесь - в среднем чуть больше одного на каждый канал.

Что бы переслушивать отрывок, нужно нажимать на кнопки. Нужно слушать внимательно, каждое слово. Это значит что слушать на ходу, во время перерыва и в транспорте никак не получится.

ИИ плохо симулировал человека. Ему не хватает какой-то "самости". Сложно обьяснить, но "не верю!". Может, теперь ситуация уже изменилась.

Я не жалуюсь, я достиг определенного прогресса, а главное просто полюбил английскую речь и оригинальные озвучки фильмов. Но для достижения уровня B1 мне этого оказалось недостаточно.

Респект автору!
Со школы обратил внимание, что понимание на слух в объеме в котором хочется - это какая-то архитрудная задача.

Много текста, ноль тезисов. Понимаю, что у автора большие проблемы с языками, но зачем проецировать это на других?

Хотел бы заметить, что в жизни можно абсолютно правильно скомпоновать вопрос "на бумажке". И даже вполне понятно его произнести\прочитать. Но вот понять, что вам ответили без тренировки слуха - не удастся.

Я бы поставил тренировку слуха на второе место по важности. После минимальной грамматики. И перед словарным запасом. Толку знать значение слова, если вы не можете вычленить его в сказанном.

То, что здесь описано, конечно, верно. Если вам надо часами вести светскую беседу. На трезвую голову. В жизни, зачастую, всё проще.

Вообще природа устроила наоборот. Дети сначала слушают, потом повторяют, а грамматику .... , ну, а ее учат в школе, если есть возможность её посещать. Всеобщее образование ведь недавно появилось, а дети языком овладевали как-то и без знания грамматики.

Грамматику надо знать, чтобы каждый раз не дёргаться - "что это?", слыша её в предложении.

Большая статья... много слов... а конце просится: " Ну и ... ?"

"Ну и" бывает когда что-то продают. А статья (внезапно) просто описывает проблему. В любой непонятной ситуации я рекомендую другие статьи. Вот, например: https://habr.com/ru/articles/842924/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации