Как стать автором
Обновить
36
0
Дмитрий Лукьянов @einhorn

Data scientist

Отправить сообщение

OpenAI также представили функцию тонкой настройки зрения в своём API

Я завис на пару секунд, прежде чем понял, что это "vision fine-tuning"

Надо писать нормально: в fine-tune API теперь можно использовать картинки в качестве input-а

ваша статья

статья не моя

ни у кого никакого недопонимания не возникло бы

это если читать статью целиком. сегодня много информации люди получают фрагментарно, чтобы экономить время

какие-то терминологические советы

а не проще ли оставлять иностранный термин в оригинальном виде? зачем тратить деньги налогоплательщиков на всякие советы?

прокси-метрика — упрощённая метрика

подмена смысла. да, она в данном контексте и вправду упрощенная, но так будет не всегда

прокси — прокладка, посредник

посредник звучит как будто это человек. с прокладкой еще веселее по ассоциациям

асессор — оценщик

оценщик - это может быть алгоритм оценки

ассистент — помощник

помощник - это может быть какой-нибудь wizard

контекст — окружение

окружение - это почти всегда environment

пул — набор

набор - это скорее set

продакшн — бой, боевая среда

это просто забавно

репозиторий — хранилище

хранилище гораздо чаще storage

файнтюнить — тонко настраивать

тонко настраивать - это скорее подбирать гиперпараметры

target — цель

"сначала нам нужно нормализовать цель". "целевое значение" хотя бы, но это громоздко

Челлендж: попробуйте перевести следующие термины на русский без заимствований, чтобы нормально звучало на русском, и чтобы хотя бы специалисту было понятно

  1. Diffusion network

  2. Chain-of-thought

  3. Few-shot prompting

  4. Encoder-decoder transformer

  5. Retrieval augmented generation

Насколько знаю, слово sputnik они используют только для обозначение того первого спутника, запущенного Советским Союзом.

Да, слишком уж давно это было.

Однако, wiktionary дает более широкое значение слова sputnik в английском с пометкой dated, и в польском с пометкой colloquial: https://en.wiktionary.org/wiki/sputnik

Если следовать вашему подходу, тогда, получается, все языки в мире со временем должны перемешаться?

А они и перемешиваются в плане специфической терминологии. В русском терминология в IT взята из английского, в музыке из итальянского, а в навигации из немецкого и голландского.

Кроме того, ведь не США или Англия изобрели такие понятия, как «выражение», «помощник», «случай», «хранилище», «предложение» и т.д.

При заимствовании слово начинает указывать на контекст; это помогает лучше понимать текст.

"Помощник" может означать много разных вещей, а assistant - это чатбот.

Кроме того, разные переводчики переводят термины по-разному, и иногда реально трудно по переводу понять, что же там было в оригинале.

Зато пишут sputnik
Уважение сначала надо заслужить своими разработками и экономическим ростом. Тот, кто вещь изобретает, тот и решает, как она будет называться

С нуля писать гораздо проще, чем работать с существующим кодом.

LLM прекрасно справляются с мелкими изолированными задачами.

А вот когда есть куча кода, и в него нужно впилить новую фичу, то а) success rate гораздо ниже б) просто задолбаешься объяснять LLM контекст своего проекта

можно использовать самую маленькую версию виспера - юзеру придется говорить более правильно, чтобы она его понимала: https://huggingface.co/openai/whisper-tiny
быстро, дешево, локально

тем временем перевод от гугла с японского

Всякая бюрократия при устройстве на работу или при получении граждаства все равно никуда не денется.

Мы скорее движемся к миру, когда нужно будет понимать только английский, потому что на него все будет переводиться быстро, точно и дешево; а вот на другие языки (особенно маленькие) - встаёт проблема с недостатком данных для обучения огромных нейронок. Если у меня родной язык, скажем, бенгальский, и я хочу что-то перевести на него с армянского, то современные нейронки будут выдавать лютую дичь (но перевод на английский решает все проблемы).

Да не, в селф-хосте маленькой модели все равно смысла нет.

Маленькая модель все равно не сможет в правильную грамматику и адекватную стилистику, сколько ее не натаскивай. Доменные термины запомнить может, а нормально говорить - нет. Язык - сложная штука, тут даже миллиарда параметров никогда не хватит для профессионального качества.

Увы, приходится тюнить проприетарщину, типа gpt-4o-mini, вот эта идея вполне работает.

Со скоростью есть проблемы, но вот GPT-4o уже довольно шустрая.

Что касается цены, то в профессиональном переводе себестоимость даже GPT-4o на пару порядков меньше стоимости труда кожаного мешка, так что гоняться за дешевизной никакого смысла нет. Если увеличение цены на порядок дает хотя бы мизерный прирост к качеству, то на такой трейдофф надо идти.

С интересом бы прочитал что-то похожее от автора но на тему сравнения перевода в конкретном домене (или доменах)

Этим я как раз и занимаюсь на работе (и эта статья поспособствовала моему переходу в NLP из generic DS), так что, увы, не имею права.

Спустя год и 3 месяца понимаю, насколько же статья устарела.

Сейчас рулит Claude 3.5 Sonnet и GPT-4o (в целом Sonnet немного лучше). Чаще всего они лучше DeepL, но не всегда. Gemini с правильным промтом на нескольких самых крупных языках тоже конкурентособна, но быстро скатывается с падением популярности языка + нереально зацензурена.

Наоборот, получится.

Алфавит древний, но современная орфография еще более фонетическая, чем русская. Там только нужно запомнить, что диграф ու - это у; ե, ո и և в начале слова произносятся по-другому; ну и есть редкие исключения. Ударение слабое и всегда на последний слог. В общем, рабочий переводчик текста в список фонем пишется элементарно.

У меня была идея обучить легкую модель (список фонем -> аудио) для отдельных слов для одного языка [датасет можно с проприетарного TTS собрать, что не всегда легально, но для себя можно]. Я не очень знаю, как такие модели скейлятся, и сколько нужно компьюта.

Впереди нас ждёт ещё 8 языков, но там, к сожалению, так "просто" уже не будет ...

Армянского там случайно не будет?
Я ищу модельку для озвучки армянского (с целью аудиоподкрепления при изучении языка), и в опенсорсе вообще ничего нет.

Я DS питонист-рисерчер, и у меня всё ровно наоборот - копайлот и ChatGPT дают огромный буст к продуктивности:

  1. Нужно писать много кода, бОльшая часть которого не для прода

  2. Относительно много математики и алгоритмов

  3. Утечек памяти и UB не существует

  4. Я пробовал копайлот на питоне, JS и C#. На питоне он показался самым умным, далее идет JS, потом C#

Яндекс не сравнивал - не знаю, можно ли получить доступ к API с армянской картой. Но вообще он неплох, в 2021 он обгонял гугл на некоторых языках.

Майкрософт не смотрел. По отзывам - он довольно дерьмовый.

  1. а точно Goliath будет работать нормально на всех возможных языках, а не только на английском (не просто болтать, а качественно выполнять практические задачи вроде пруфридинга или перевода)? Это вообще проблема практически всех LLM - некоторые люди не в курсе, что в мире есть больше одного языка. у OpenAI есть огромное преимущество в этом плане - их модели всегда были максимально мультиязычны. Claude зацензурен еще больше, чем GPT-4 - даже переводить отказывается, потому что Antropic получился в свое время путем откалывания от OpenAI консервативного крыла

  2. они решили проблему дешевого мультиязычного TTS для чатботов - их TTS по цене в 10 раз дешевле ElevenLabs, по качеству - примерно так же (зависит от языка), плюс поддерживает все возможные языки

  3. у них в API есть файнтюнинг на свою задачу. это крайне недооцененная вещь, она открывает нереальные возможности

  4. DALLE-3 - вещь прикольная, но это не прорыв - диффузным нейронкам уже больше полутора лет (и придумали их изначально опять-таки в OpenAI - см. GLIDE); а вот альтернативы GPT4-V пока что даже и близко нет (LLAVA годится только для того, чтобы "пощупать технологию", реально применять ее в проде для чего-либо весьма неразумно)

Не согласен
Они не за открытость, они за "EA" - "Мы тут небожители-ресерчеры, вот вам paper, а саму модель мы вам, плебеям, потыкать не дадим, даже за бабло. Это для вашей же пользы - вас допускать к модели слишком опасно"

GPT-4 в оперсорс точно не выложат

Может получиться так, что просто все закроют, включая API - будут там "ресерчить" себе как гугл. а у людей уже бизнесы на это API завязаны

Или вариант получше, но тоже дерьмовый - зацензурируют по самые яйца, как YandexGPT

Конечные пользователи выиграют, если Альтман вернется и продолжит в своем духе - выкатываем все наработки как можно быстрее за деньги, минимизируем цензуру

Информация

В рейтинге
Не участвует
Откуда
Yerevan, Yerevan, Армения
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist
Senior