Как стать автором
Обновить
34
-10
Дмитрий Лукьянов @einhorn

Data scientist

Я DS питонист-рисерчер, и у меня всё ровно наоборот - копайлот и ChatGPT дают огромный буст к продуктивности:

  1. Нужно писать много кода, бОльшая часть которого не для прода

  2. Относительно много математики и алгоритмов

  3. Утечек памяти и UB не существует

  4. Я пробовал копайлот на питоне, JS и C#. На питоне он показался самым умным, далее идет JS, потом C#

Яндекс не сравнивал - не знаю, можно ли получить доступ к API с армянской картой. Но вообще он неплох, в 2021 он обгонял гугл на некоторых языках.

Майкрософт не смотрел. По отзывам - он довольно дерьмовый.

  1. а точно Goliath будет работать нормально на всех возможных языках, а не только на английском (не просто болтать, а качественно выполнять практические задачи вроде пруфридинга или перевода)? Это вообще проблема практически всех LLM - некоторые люди не в курсе, что в мире есть больше одного языка. у OpenAI есть огромное преимущество в этом плане - их модели всегда были максимально мультиязычны. Claude зацензурен еще больше, чем GPT-4 - даже переводить отказывается, потому что Antropic получился в свое время путем откалывания от OpenAI консервативного крыла

  2. они решили проблему дешевого мультиязычного TTS для чатботов - их TTS по цене в 10 раз дешевле ElevenLabs, по качеству - примерно так же (зависит от языка), плюс поддерживает все возможные языки

  3. у них в API есть файнтюнинг на свою задачу. это крайне недооцененная вещь, она открывает нереальные возможности

  4. DALLE-3 - вещь прикольная, но это не прорыв - диффузным нейронкам уже больше полутора лет (и придумали их изначально опять-таки в OpenAI - см. GLIDE); а вот альтернативы GPT4-V пока что даже и близко нет (LLAVA годится только для того, чтобы "пощупать технологию", реально применять ее в проде для чего-либо весьма неразумно)

Не согласен
Они не за открытость, они за "EA" - "Мы тут небожители-ресерчеры, вот вам paper, а саму модель мы вам, плебеям, потыкать не дадим, даже за бабло. Это для вашей же пользы - вас допускать к модели слишком опасно"

GPT-4 в оперсорс точно не выложат

Может получиться так, что просто все закроют, включая API - будут там "ресерчить" себе как гугл. а у людей уже бизнесы на это API завязаны

Или вариант получше, но тоже дерьмовый - зацензурируют по самые яйца, как YandexGPT

Конечные пользователи выиграют, если Альтман вернется и продолжит в своем духе - выкатываем все наработки как можно быстрее за деньги, минимизируем цензуру

Потому что если власть захватят "сейфтисты", они сделают из ChatGPT неюзабельную какашку (as a AI language model...) или вообще закроют API и будут как гугл
Ну уж нет, пусть лучше они выкатывают все наработки как можно скорее, пусть и не в опенсорс

Все работает.
Я решил отказаться от идеи, что юзер вводит свой ключ и добавил авторизацию. Теперь все происходит с моего ключа. Чтобы не истратить все деньги, я добавил внутреннюю валюту, за которую идет использование сервиса. При регистрации дается небольшое количество этой валюты. Механизм пополнения я еще не реализовал.

Сейчас DALL·E 3 находится на стадии исследовательской предварительной версии и будет доступна подписчикам ChatGPT Plus и Enterprise в октябре через API. 
DALL·E 3 is now in research preview, and will be available to ChatGPT Plus and Enterprise customers in October, via the API and in Labs later this fall.

ошибка в переводе
ChatGPT и API - совершенно разные вещи
через ChatGPT будет в октябре, а по API - "позже осенью"

Обновил torch -> получилось

При загрузке модели падает с exit code -1073740791

language = 'cyrillic'
model_id = 'v4_cyrillic'
sample_rate = 48000
speaker = 'cv_ekaterina'
device = torch.device('cpu')

model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                     model='silero_tts',
                                     language=language,
                                     speaker=model_id)

v4_ru тоже

Формально таки обезьяны

Обезья́ны — группа млекопитающих из отряда приматов. В биологической систематике название «обезьяны» может применяться по отношению ко всем представителям инфраотряда Simiiformes[1] или подотряда Haplorhini[2][3][4] (оба таксона включают человека, который не является обезьяной в обиходном смысле слова; второй таксон, помимо представителей Simiiformes, включает также долгопятов).

Общий предок человека и других человекообразных обезьян тоже был обезьяной.

Можно посмотреть быстрые модели для распознавания языка (например, lid.176), и пихать туда фрагменты текста

Можно спарсить английский и грузинский словари и классифицировать каждое слово в один из языков; затем нормализировать только грузинские слова

  1. Не нужно мешать перевод и транслитерацию. Зачем нейронка для нормализации? Нормализуйте алгоритмом, переводите с нормального грузинского.

  2. У вас мегасложный и архидлинный промт, GPT-3.5 на таких плохо справляется. Возьмите мой (+ можно сказать, что сообщение - это SMS).

Translate the message below from English to Russian. Make the translation sound as natural as possible.

---

The data collection frontend now lives here. Log in and start taking on tasks. We want to collect a high volume of quality data. By submitting, ranking and labelling model prompts and responses you will be directly helping to improve the capabilities of Open Assistant.
---

(+ температуру выставил в 0)
Получилось

Сбор данных фронтенд теперь здесь. Войдите и начните выполнять задания. Мы хотим собрать высокую скорость качественных данных. Определяя, ранжируя и описывая запросы модели ответов вы непосредственно поможете улучшить возможности Открытого помощника.

У вас лучше по смыслу, у меня - правильнее по грамматике.
Согласен, OpenAssistant пока слабоват для перевода.

Смысл в том, что за всякие допсимволы BLEU сильно наказывает, в то время как пользователем они не особо замечаются.

Нет, дело не в этом. Я при измерении BLEU вообще удаляю почти всю пунктуацию. Я думаю, там причина в том, что ChatGPT более "дикая", она более машинно переводит (зато более правильно). Плюс data contamination у Google Translate (не знаю как с этим у DeepL), плюс оптимизация других моделей на BLEU.

Не всегда BLEU корректирует с качеством

да, вот в этом большая проблема
у меня появилась идея, как еще можно измерить качество - что если попросить GPT-4 покритиковать перевод, а потом на основании ее критики попросить оценить численно (chain of thoughts)

Раньше да, раньше у Гугла все работало через английский.

Сейчас, скорее всего, это уже не так - для каких-то языковых пар есть прямые модели, для каких-то через английский.

Да, я тоже пришел к выводу, что "make the translation sound as natural as possible" сильно бустит BLEU.

Не поделитесь своим промтом?

Кстати, в подобном приложении я бы добавил опцию: переводить на русский или на английский, на английский будет поточнее.

Я бы сказал, что 2-3% BLEU в подобных тестах - это уже заметный выигрыш.

Я тестил GPT-4 на латыни - нормально и переводит, и общается :)

Но санскрит хардкорнее.

Информация

В рейтинге
Не участвует
Откуда
Yerevan, Yerevan, Армения
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist
Senior