Комментарии / Профиль einhorn / Хабр

Челлендж: попробуйте перевести следующие термины на русский без заимствований, чтобы нормально звучало на русском, и чтобы хотя бы специалисту было понятно

Diffusion network
Chain-of-thought
Few-shot prompting
Encoder-decoder transformer
Retrieval augmented generation

Посмотреть

Как мы учили Yandex Code Assistant помогать разработчикам с написанием кода и делать их счастливыми

einhorn 23 сен в 12:11

Насколько знаю, слово sputnik они используют только для обозначение того первого спутника, запущенного Советским Союзом.

Да, слишком уж давно это было.

Однако, wiktionary дает более широкое значение слова sputnik в английском с пометкой dated, и в польском с пометкой colloquial: https://en.wiktionary.org/wiki/sputnik

Если следовать вашему подходу, тогда, получается, все языки в мире со временем должны перемешаться?

А они и перемешиваются в плане специфической терминологии. В русском терминология в IT взята из английского, в музыке из итальянского, а в навигации из немецкого и голландского.

Кроме того, ведь не США или Англия изобрели такие понятия, как «выражение», «помощник», «случай», «хранилище», «предложение» и т.д.

При заимствовании слово начинает указывать на контекст; это помогает лучше понимать текст.

"Помощник" может означать много разных вещей, а assistant - это чатбот.

Кроме того, разные переводчики переводят термины по-разному, и иногда реально трудно по переводу понять, что же там было в оригинале.

Посмотреть

Как мы учили Yandex Code Assistant помогать разработчикам с написанием кода и делать их счастливыми

einhorn 20 сен в 10:08

Зато пишут sputnik
Уважение сначала надо заслужить своими разработками и экономическим ростом. Тот, кто вещь изобретает, тот и решает, как она будет называться

Посмотреть

Больше не нужны: ChatGPT заменяет программиста

einhorn 19 сен в 12:28

С нуля писать гораздо проще, чем работать с существующим кодом.

LLM прекрасно справляются с мелкими изолированными задачами.

А вот когда есть куча кода, и в него нужно впилить новую фичу, то а) success rate гораздо ниже б) просто задолбаешься объяснять LLM контекст своего проекта

Посмотреть

Чат-бот с ИИ для тренировки английского произношения и грамматики

einhorn 7 сен в 03:27

можно использовать самую маленькую версию виспера - юзеру придется говорить более правильно, чтобы она его понимала: https://huggingface.co/openai/whisper-tiny
быстро, дешево, локально

Посмотреть

Чат-бот с ИИ для тренировки английского произношения и грамматики

einhorn 7 сен в 03:21

тем временем перевод от гугла с японского

Посмотреть

Чат-бот с ИИ для тренировки английского произношения и грамматики

einhorn 4 сен в 15:53

Всякая бюрократия при устройстве на работу или при получении граждаства все равно никуда не денется.

Мы скорее движемся к миру, когда нужно будет понимать только английский, потому что на него все будет переводиться быстро, точно и дешево; а вот на другие языки (особенно маленькие) - встаёт проблема с недостатком данных для обучения огромных нейронок. Если у меня родной язык, скажем, бенгальский, и я хочу что-то перевести на него с армянского, то современные нейронки будут выдавать лютую дичь (но перевод на английский решает все проблемы).

Посмотреть

Сравнение нейросетей для перевода

einhorn 21 авг в 17:40

Да не, в селф-хосте маленькой модели все равно смысла нет.

Маленькая модель все равно не сможет в правильную грамматику и адекватную стилистику, сколько ее не натаскивай. Доменные термины запомнить может, а нормально говорить - нет. Язык - сложная штука, тут даже миллиарда параметров никогда не хватит для профессионального качества.

Увы, приходится тюнить проприетарщину, типа gpt-4o-mini, вот эта идея вполне работает.

Посмотреть

Сравнение нейросетей для перевода

einhorn 21 авг в 17:28

Со скоростью есть проблемы, но вот GPT-4o уже довольно шустрая.

Что касается цены, то в профессиональном переводе себестоимость даже GPT-4o на пару порядков меньше стоимости труда кожаного мешка, так что гоняться за дешевизной никакого смысла нет. Если увеличение цены на порядок дает хотя бы мизерный прирост к качеству, то на такой трейдофф надо идти.

Посмотреть

Сравнение нейросетей для перевода

einhorn 21 авг в 17:08

С интересом бы прочитал что-то похожее от автора но на тему сравнения перевода в конкретном домене (или доменах)

Этим я как раз и занимаюсь на работе (и эта статья поспособствовала моему переходу в NLP из generic DS), так что, увы, не имею права.

Посмотреть

Сравнение нейросетей для перевода

einhorn 21 авг в 17:00

Спустя год и 3 месяца понимаю, насколько же статья устарела.

Сейчас рулит Claude 3.5 Sonnet и GPT-4o (в целом Sonnet немного лучше). Чаще всего они лучше DeepL, но не всегда. Gemini с правильным промтом на нескольких самых крупных языках тоже конкурентособна, но быстро скатывается с падением популярности языка + нереально зацензурена.

Посмотреть

Особенности фонетики якутского языка для синтеза речи

einhorn 21 авг в 12:19

Наоборот, получится.

Алфавит древний, но современная орфография еще более фонетическая, чем русская. Там только нужно запомнить, что диграф ու - это у; ե, ո и և в начале слова произносятся по-другому; ну и есть редкие исключения. Ударение слабое и всегда на последний слог. В общем, рабочий переводчик текста в список фонем пишется элементарно.

У меня была идея обучить легкую модель (список фонем -> аудио) для отдельных слов для одного языка [датасет можно с проприетарного TTS собрать, что не всегда легально, но для себя можно]. Я не очень знаю, как такие модели скейлятся, и сколько нужно компьюта.

Посмотреть

Особенности фонетики якутского языка для синтеза речи

einhorn 21 авг в 07:17

Впереди нас ждёт ещё 8 языков, но там, к сожалению, так "просто" уже не будет ...

Армянского там случайно не будет?
Я ищу модельку для озвучки армянского (с целью аудиоподкрепления при изучении языка), и в опенсорсе вообще ничего нет.

Посмотреть

Анализ 153 млн строк позволяет обвинить Copilot в снижении качества кода разработчиков

einhorn 29 янв в 07:01

Я DS питонист-рисерчер, и у меня всё ровно наоборот - копайлот и ChatGPT дают огромный буст к продуктивности:

Нужно писать много кода, бОльшая часть которого не для прода
Относительно много математики и алгоритмов
Утечек памяти и UB не существует
Я пробовал копайлот на питоне, JS и C#. На питоне он показался самым умным, далее идет JS, потом C#

Посмотреть

Сравнение нейросетей для перевода

einhorn 13 дек 2023 в 11:46

Яндекс не сравнивал - не знаю, можно ли получить доступ к API с армянской картой. Но вообще он неплох, в 2021 он обгонял гугл на некоторых языках.

Майкрософт не смотрел. По отзывам - он довольно дерьмовый.

Посмотреть

OpenAI: «сохраняем оптимизм» по поводу возвращения Сэма Альтмана. Экс-глава: люблю команду OpenAI

einhorn 20 ноя 2023 в 03:28

а точно Goliath будет работать нормально на всех возможных языках, а не только на английском (не просто болтать, а качественно выполнять практические задачи вроде пруфридинга или перевода)? Это вообще проблема практически всех LLM - некоторые люди не в курсе, что в мире есть больше одного языка. у OpenAI есть огромное преимущество в этом плане - их модели всегда были максимально мультиязычны. Claude зацензурен еще больше, чем GPT-4 - даже переводить отказывается, потому что Antropic получился в свое время путем откалывания от OpenAI консервативного крыла
они решили проблему дешевого мультиязычного TTS для чатботов - их TTS по цене в 10 раз дешевле ElevenLabs, по качеству - примерно так же (зависит от языка), плюс поддерживает все возможные языки
у них в API есть файнтюнинг на свою задачу. это крайне недооцененная вещь, она открывает нереальные возможности
DALLE-3 - вещь прикольная, но это не прорыв - диффузным нейронкам уже больше полутора лет (и придумали их изначально опять-таки в OpenAI - см. GLIDE); а вот альтернативы GPT4-V пока что даже и близко нет (LLAVA годится только для того, чтобы "пощупать технологию", реально применять ее в проде для чего-либо весьма неразумно)

Посмотреть

Хронология отставки Альтмана за 20 минут в Google Meet из OpenAI

einhorn 19 ноя 2023 в 15:45

Не согласен
Они не за открытость, они за "EA" - "Мы тут небожители-ресерчеры, вот вам paper, а саму модель мы вам, плебеям, потыкать не дадим, даже за бабло. Это для вашей же пользы - вас допускать к модели слишком опасно"

GPT-4 в оперсорс точно не выложат

Может получиться так, что просто все закроют, включая API - будут там "ресерчить" себе как гугл. а у людей уже бизнесы на это API завязаны

Или вариант получше, но тоже дерьмовый - зацензурируют по самые яйца, как YandexGPT

Конечные пользователи выиграют, если Альтман вернется и продолжит в своем духе - выкатываем все наработки как можно быстрее за деньги, минимизируем цензуру

Посмотреть

2 3 4

Информация

Специализация