Несколько месяцев назад у небольшого провайдера домашнего интернета сломался магистральный кабель. Сутки с лишним чинили. После починки несколько часов работали только сайты из "белого списка". Потом заработали и все остальные (ну, кроме тех, что в "черном списке"). Так что технически все уже и так настроено, просто пока что рубильник не включают.
Предположу, что стиль подачи, информативность или наличие фактических ошибок не понравилось читателям. Можете, кстати, пояснить, что вот это за зверь (или что было в оригинале на английском)?
Валидация тонкозернистой параллелизации экспертов на NVIDIA H100/A100
Ну что вы придираетесь? Вон, на reddit же написано про два 3090, значит, два 3090 хватит:
BestGirlAhagonUmiko: But if you have like 128GB RAM + a couple of RTX 3090, quantize it down to IQ4XS or Q3KXL and it'll fit with a pretty usable context size. Am I wrong?
Vaguswarrior: Right, just a couple 3090s lol
IrisColt: heh
А сарказм нейросеть пока что определять не научилась.
И вот на такое допиливание уходит довольно много времени. Вот пример из жизни, прямо сейчас этим занимаюсь: - Есть папка с исходниками. - Есть файл с описанием coding standards, типа "названия переменных должны быть с маленькой буквы", "все параметры функций должны быть const / final" и т.п.
Хочется дать нейронке этот файл, натравить ее на папку и уйти спать, а проснувшись увидеть, что все исправлено. Уже второй день бьюсь с Qwen 3.5, Qwen 3.6, MiniMax 2.7, GLM 5.1, Kimi K 2.6 и прочими NVIDIA Nemotron 3 Super, пытаясь:
заставить обрабатывать каждый файл по отдельности (она все норовит "ой, файлов очень много, запущу-ка я grep, чтоб отфиьтровал ненужное", после чего пишет grep с неправильной регуляркой, он ничего не находит, и нейронка радостно рапортует "все сделано").
не уходить в сторону, пытаясь поправить то, что ее не просили ("ой, а у вас ус отклеился опечатка в комментарии, вот, я его поправила, правда пока правила, забыла, что надо названия переменных проверять").
не врать прям так нагло "в объявлении функции doSomething(String url) у всех трех аргументов есть модификатор final".
не останавливаться на полпути ни с того ни с сего, заканчивая обработку с сообщениями вида "Perfect! I processed all 3 files out 47, task complete!".
не выдавать пустые ответы, из-за чего та штуковина, которой запускаю нейронку, падает с ошибками вроде "ACP server returned invalid response".
не действовать как портной в том анекдоте: "— Вы зачем мне третий рукав-то пришили?! Я ж вас дырку в подкладке просил зашить! — Ой, а что ж вы сразу-то не сказали?"
В результате приходится сочинять (с помощью той же самой нейронки) вместо "вот файл с правилами, вот папка с исходниками, проверь и исправь где надо" подробнейший prompt, фактически программируя в Markdown, как когда-то в школе на первых уроках информатики составляли словесное описание алгоритма "как на лифте спуститься с 8 этажа шестнадцатиэтажки и выйти на улицу". И перебирать ворох всяких xxx-code-yyy-программ и расширений к Visual Studio Code (половина которых написана маководами и не работают на Windows, спотыкаясь в слешах в пути).
Можно поподробнее? К примеру, есть у меня 250 лямов баксов. И мне не нужно обрабатывать миллиарды запросов пользователей в секунду, нет. Я просто хочу запустить "адвоката" локально. Ну купил я два вагона оборудования, подключил, поставил Ubuntu, самые последние драйверы NVIDIA и прочие CUDA Toolkit с vLLM.
Где модель-то взять, чтоб на всем этом оборудовании запустить? Я, чай, не Apple, мне Google свою Gemini не даст, чтоб я вместо Siri на своем оборудовании мог запустить. А MiniMax, Qwen, GLM и прочие Kimi K2.6, какими бы большими они ни были (полтора терабайта BF16-весов аж) до всех этих Опусов, Gemini и ChatGPT не дотягивают.
Замените "роботы" на "богачи" и получится то, что происходит сегодня. На всякий случай: речь о том, где оседают 99.995% расходов после того, как пройдут по всей цепочке потребления.
Можете ткнуть ссылкой? Речь именно про 35B (dense-модель) или 35B-A3B (35 миллиардов всего, 3 миллиарда активных на токен)? Второе по возможностям должно довольно сильно уступать первому.
35B-A3B маловато будет. Ждем, когда 120B или 400B-варианты выложат. 3.5 выкладывали сначала самую большую, а среднюю и маленькие попозже. Здесь, похоже, в обратном порядке выкладывать решили.
Учитывая, что нового оборудования в ближайшие года 2-3 обычный (не корпоративный) покупатель больше не увидит (ибо все мощности на датацентры ушли), текущее поколение будет более-менее рабочим еще долго. Где-то читал, что и Amazon, и Azure увеличили в своих регламентах время до замены предыдущих серверных ускорителей облачных вычислений с 5 до 7 лет.
Правда? Читал, что разработчики Qwen ушли после выпуска 3.5, когда начальство решило, что всё, хватит, все следующие версии нейросети будут проприетарными.
Проблема только заставить пользовательский браузер принять наш сертификат
Это вот самое странное будет, ведь браузер покажет страницу, на которой белым по красному будет написано "КТО-ТО ПЫТАЕТСЯ УКРАСТЬ ДАННЫЕ ВАШЕЙ КРЕДИТКИ" и ссылка (не кнопка) "больше", которую надо нажать, чтобы увидеть кнопку "Я осознаю все риски, нет у меня кредитки".
многие сайты просят поставить какой-то сертификат
Первый раз об этом слышу (ну то есть читаю). Мне ни разу такие не попадались. Даже Госуслуги, кабинет налогоплательщика и какие-то там сайты увдомлений от управляющих компаний многоквартирных домов, насколько бы они ни были отечественными, работают в обычном браузере без установки сертификатов. Причем кабинет налогоплательщика работает только через VPN через США, из РФ падает на этапе подключения. Можете привести пример пары таких сайтов?
заставив браузер работать по HTTP в то время, пока юзер думает, что работает по HTTPS
Как это выглядит? Браузер будет слать HTTP-запросы на 443-й порт сервера и тот не выдаст ошибку "HTTP request on HTTPS port"? Ведь на серверах сейчас поголовно все ставят правило "на любой HTTP-запрос на 80-й порт редирект 301 на https://сайт/тот-же-самый-путь".
Все разговоры зашифрованы, данные пользователей «надёжно защищены».
Представители платформы отметили, что использование ИИ нужно только для повышения качества звонков, а сам инструмент работает обезличенно.
Кто-нибудь может объяснить, как эти два взаимоисключающих пункта работают одновременно? Они ИИ используют для повышения качества зашифрованных звонков? Там какое-то гомоморфное шифрование, что ли?
Бонусные программы вроде лотереи от Озона только в мобильном приложении. Так что если хотите призрачный шанс выиграть квартиру в Москве40 лямов на руки 100 баллов на покупки, ставьте приложение.
А со всеми этими Shelter'ами и т.п. есть же возможность ввести разблокировать разные пространства разными кодами? Ну то есть вводишь 1234, и тебе открывается одно "пространство" с одним набором приложений. Вводишь на экране разблокировки 5678, и открывается другое "пространство" с совершенно другим набором приложений.
Несколько месяцев назад у небольшого провайдера домашнего интернета сломался магистральный кабель. Сутки с лишним чинили. После починки несколько часов работали только сайты из "белого списка". Потом заработали и все остальные (ну, кроме тех, что в "черном списке"). Так что технически все уже и так настроено, просто пока что рубильник не включают.
Это такое "сперва добейся"?
Предположу, что стиль подачи, информативность или наличие фактических ошибок не понравилось читателям. Можете, кстати, пояснить, что вот это за зверь (или что было в оригинале на английском)?
А на что переехали (и какие задачи), если не секрет?
Ну что вы придираетесь? Вон, на reddit же написано про два 3090, значит, два 3090 хватит:
А сарказм нейросеть пока что определять не научилась.
f95 тоже неплох, мне друг рассказывал.
И вот на такое допиливание уходит довольно много времени. Вот пример из жизни, прямо сейчас этим занимаюсь:
- Есть папка с исходниками.
- Есть файл с описанием coding standards, типа "названия переменных должны быть с маленькой буквы", "все параметры функций должны быть const / final" и т.п.
Хочется дать нейронке этот файл, натравить ее на папку и уйти спать, а проснувшись увидеть, что все исправлено. Уже второй день бьюсь с Qwen 3.5, Qwen 3.6, MiniMax 2.7, GLM 5.1, Kimi K 2.6 и прочими NVIDIA Nemotron 3 Super, пытаясь:
заставить обрабатывать каждый файл по отдельности (она все норовит "ой, файлов очень много, запущу-ка я grep, чтоб отфиьтровал ненужное", после чего пишет grep с неправильной регуляркой, он ничего не находит, и нейронка радостно рапортует "все сделано").
не уходить в сторону, пытаясь поправить то, что ее не просили ("ой, а у вас
ус отклеилсяопечатка в комментарии, вот, я его поправила, правда пока правила, забыла, что надо названия переменных проверять").не врать прям так нагло "в объявлении функции doSomething(String url) у всех трех аргументов есть модификатор final".
не останавливаться на полпути ни с того ни с сего, заканчивая обработку с сообщениями вида "Perfect! I processed all 3 files out 47, task complete!".
не выдавать пустые ответы, из-за чего та штуковина, которой запускаю нейронку, падает с ошибками вроде "ACP server returned invalid response".
не действовать как портной в том анекдоте: "— Вы зачем мне третий рукав-то пришили?! Я ж вас дырку в подкладке просил зашить! — Ой, а что ж вы сразу-то не сказали?"
В результате приходится сочинять (с помощью той же самой нейронки) вместо "вот файл с правилами, вот папка с исходниками, проверь и исправь где надо" подробнейший prompt, фактически программируя в Markdown, как когда-то в школе на первых уроках информатики составляли словесное описание алгоритма "как на лифте спуститься с 8 этажа шестнадцатиэтажки и выйти на улицу". И перебирать ворох всяких xxx-code-yyy-программ и расширений к Visual Studio Code (половина которых написана маководами и не работают на Windows, спотыкаясь в слешах в пути).
Можно поподробнее? К примеру, есть у меня 250 лямов баксов. И мне не нужно обрабатывать миллиарды запросов пользователей в секунду, нет. Я просто хочу запустить "адвоката" локально. Ну купил я два вагона оборудования, подключил, поставил Ubuntu, самые последние драйверы NVIDIA и прочие CUDA Toolkit с vLLM.
Где модель-то взять, чтоб на всем этом оборудовании запустить? Я, чай, не Apple, мне Google свою Gemini не даст, чтоб я вместо Siri на своем оборудовании мог запустить. А MiniMax, Qwen, GLM и прочие Kimi K2.6, какими бы большими они ни были (полтора терабайта BF16-весов аж) до всех этих Опусов, Gemini и ChatGPT не дотягивают.
Замените "роботы" на "богачи" и получится то, что происходит сегодня. На всякий случай: речь о том, где оседают 99.995% расходов после того, как пройдут по всей цепочке потребления.
Можете ткнуть ссылкой? Речь именно про 35B (dense-модель) или 35B-A3B (35 миллиардов всего, 3 миллиарда активных на токен)? Второе по возможностям должно довольно сильно уступать первому.
35B-A3B маловато будет. Ждем, когда 120B или 400B-варианты выложат. 3.5 выкладывали сначала самую большую, а среднюю и маленькие попозже. Здесь, похоже, в обратном порядке выкладывать решили.
Учитывая, что нового оборудования в ближайшие года 2-3 обычный (не корпоративный) покупатель больше не увидит (ибо все мощности на датацентры ушли), текущее поколение будет более-менее рабочим еще долго. Где-то читал, что и Amazon, и Azure увеличили в своих регламентах время до замены предыдущих серверных ускорителей облачных вычислений с 5 до 7 лет.
Правда? Читал, что разработчики Qwen ушли после выпуска 3.5, когда начальство решило, что всё, хватит, все следующие версии нейросети будут проприетарными.
Это вот самое странное будет, ведь браузер покажет страницу, на которой белым по красному будет написано "КТО-ТО ПЫТАЕТСЯ УКРАСТЬ ДАННЫЕ ВАШЕЙ КРЕДИТКИ" и ссылка (не кнопка) "больше", которую надо нажать, чтобы увидеть кнопку "Я осознаю все риски, нет у меня кредитки".
Первый раз об этом слышу (ну то есть читаю). Мне ни разу такие не попадались. Даже Госуслуги, кабинет налогоплательщика и какие-то там сайты увдомлений от управляющих компаний многоквартирных домов, насколько бы они ни были отечественными, работают в обычном браузере без установки сертификатов. Причем кабинет налогоплательщика работает только через VPN через США, из РФ падает на этапе подключения. Можете привести пример пары таких сайтов?
Как это выглядит? Браузер будет слать HTTP-запросы на 443-й порт сервера и тот не выдаст ошибку "HTTP request on HTTPS port"? Ведь на серверах сейчас поголовно все ставят правило "на любой HTTP-запрос на 80-й порт редирект 301 на https://сайт/тот-же-самый-путь".
75 рублей аж! Минута в день уходит, чтобы 6 кнопок в приложении протыкать.
То есть если отключить VPN-приложение в "Mainland", и только после этого запустить приложение из "Island", то оно все равно увидит VPN?
Кто-нибудь может объяснить, как эти два взаимоисключающих пункта работают одновременно? Они ИИ используют для повышения качества зашифрованных звонков? Там какое-то гомоморфное шифрование, что ли?
Бонусные программы вроде лотереи от Озона только в мобильном приложении. Так что если хотите
призрачныйшанс выигратьквартиру в Москве40 лямов на руки100 баллов на покупки, ставьте приложение.Ну так понятно, контроль за распространением новостей нынче жесткий.
А со всеми этими Shelter'ами и т.п. есть же возможность ввести разблокировать разные пространства разными кодами? Ну то есть вводишь 1234, и тебе открывается одно "пространство" с одним набором приложений. Вводишь на экране разблокировки 5678, и открывается другое "пространство" с совершенно другим набором приложений.
Речь про Android-смартфоны (про iOS не в курсе).