All streams
Search
Write a publication
Pull to refresh
-7
0
Send message
Да все ж просто. Кто-то верит в гороскопы, кто-то — в честность политиков, кто-то — в хиромантию, ну а кто-то — в провода из бескислородной меди и в то, что ламповые усилители воспроизводят звук по определению лучше «бездушных» транзисторных.

Хороший аудиотракт — это тот, который воспроизводит исходный сигнал с минимальными искажениями. Задранные басы тоже отнесем к искажениям.

Пример из немного другой оперы. Профессиональные фотографы никогда не будут портить свои работы фильтрами Инстаграмма, разве что шутки ради, и то — один раз (ведь рассказанная дважды шутка — это уже баян). Измененная цветопередача — это как задранные басы. Профессионалам же важен именно качественный исходник — поэтому создаются фотоаппараты с HDR, огромными матрицами и т.д.
Я сейчас рискую сорвать гнев хабрасообщества, но даже любящие хвастаться своей якобы повышенной рациональностью айтишники — на самом деле «в среднем по больнице» не более рациональны, чем, скажем, юристы. Да, айтишники иногда любят прицепиться к чему-то и проявить дотошность и критичность, но в большинстве случаев все-равно решения отдать деньги принимаются полуосознанно. Более того, IT people «ведутся» на некоторые приемы еще сильнее, чем представители других профессий. Скажем, симпатичная особь женского пола — это +100500 к продажам, думаю, понятно почему. Заплюсованные комментарии выше в духе «все дело в снегурочке» — косвенное доказательство; на эту снегурочку на форуме (к примеру) врачей, возможно, никто не обратил бы внимания. А раз обратили внимание — значит первая буква A из пресловутой AIDA уже отработала.
Сотни терабайт? Российские компании? Пожалуйста: ahrefs.com. И еще вот эти ребята есть (не уверен насчет сотен ТБ, но десятки там точно есть): wordstat.io. Опять же, всяческие крупные мониторинги соцсетей. Возможно, научные\промышленные центры еще.
Технически все верно. Мы например используем Хадуп только на 10-20 процентах всего data pipeline, остальное прекрасно обрабатывается куда более простыми и приятными инструментами. Я не люблю монструозный Хадуп с огромными, но непонятными трэйсбэками ошибок, с убогой инсталляцией и зашкаливающим уровнем недружественности к пользователю. Но мои предпочтения чаще всего мало что значат, когда я только-только ищу вакансию.

На практике в половине (если не больше) вакансий по Big Data были требования — Hadoop и\или его экосистема. Мои попытки объяснить, что 1) иногда Хадуп это overkill, 2) помимо Хадупа есть намного более приятный Disco — ни к чему не привели. Хэдхантеры на «западе» работают по тегам — видят в резюме ключевое слово — пропускают вакансию, не видят — сразу отфильтровывают. Не знаю, может в пост-СССР как-то все иначе стало, но насколько я помню все было примерно так же.

Иными словами — все-таки да, искать работу в Big Data без знания Hadoop — еще тяжелее.
Давайте я расскажу немного о рынке. На своем опыте. Специалист по Big Data — это нынче любой, кто просмотрел пару видеокурсов. Заказчик не понимает, как оценивать эффективность и профессионализм работника в этой сфере — что дает огромный простор для всяких «индусов» (собирательное слово, к национальности отношения имеет мало). Любой, кто ставил ту-самую-виртуалку от Hortonworks, уже считает себя специалистом. Т.е. конкуренция есть, критериев оценки профессионализма очень мало, область новая и непонятно что с ней будет через 10 лет. Заказчиков на oDesk — полтора человека, просто потому, что big data = big money и городить кластер из 100 машин может себе позволить только ничтожно малая часть бизнесов, представленных там. Выход? Bloody Enterprise, продаться в Гугл, Яндекс, Facebook или подобную большую компанию. Если это читает программист, подумывающий и походе в Big Data — оценивайте трезво перспективы развития, шума сейчас много и кажется, что на рынке огромный спрос и все компании бросились возиться с большими данными. Так вот это заблуждение. Профильную работу будет найти намного тяжелее, чем по специализации «web development», ну а конкуренция от «индусов» никуда не исчезла. Еще один плохой момент — везде свои требования, типовых Big Data задач очень мало. Поэтому в одной компании нужен будет BigData-сисадмин, в другой — «настройщик» Хадупа, в третьей — неспешная Data Science на 100 гигабайтах, в четвертой — отмасштабировать кластер Postgres. Иными словами, специалист по BigData должен быть как шампунь — «три в одном». Иначе шансы найти работу падают еще ниже.
Вы определитесь, что Вы таки хотите сказать. Big Data цепляет Data Science, а уж там алгоритмов, терминов и прочего — немеряно. Вы хотите сказать, что любой адекватный программист может стать специалистом в Big Data? Тогда это примерно то же самое, что сказать «любой человек с IQ не ниже 80 может стать адекватным программистом».

Выучиться можно любой профессии, другое дело, что бизнесу не нужно учить кого-то чему-то — бизнесу нужен результат здесь и сейчас, а не выращивание птенцов в инкубаторе, которые потом подрастут и улетят в другую компанию.

Ну а насчет Вашего заблуждения, что там «все просто»… Поработайте с объемами хотя бы в несколько сотен терабайт и зоопарком разнообразного железа, настройте там резервирование, визуализацию, мониторинг состояния кластера и организуйте административное взаимодействие с админами в датацентрах (при таких объемах жесткие диски статистически будут у вас сыпаться с завидной регулярностью). После этого (то есть через год-полтора как минимум) можно уже нырять в глубину — то есть в алгоритмы.
Давно так не смеялся, спасибо за перевод! =)

Иллюстрации отличные, все прям в точку!

Ну а некоторые комментаторы выше просто не поняли всех нюансов общения, ведь настоящий юмор открывается вместе с умением видеть нюансы оттенков, а не просто черно-белый мир в стиле «Hello\Hi».
Судя по Вашему сообщению, вы с низкоуровневыми языками на «ты». У нас все было не так радужно, были кодеры только на скриптовых языках, с некоторым Java-опытом — им было тяжко =)
Уже честно сказать не вспомню, дело было полгода назад. Выбирали язык, уж больно понравился D, но все-таки показался сыроватым. Там еще на этапе компиляции вылезали какие-то малоинформативные ошибки, мы побороли часть, потом поняли, что дальше так разработку вести нельзя — к сожалению или счастью, тот проект надо было делать быстро и нужен был «реальный результат» (как любит говорить один знакомый PM), а не игры с языками.
Мне синтаксис D нравится больше всего, но использовать его в real-world проектах сложно: сырой компилятор (одни только невнятные ошибки чего стоят), обширная, но бесполезная документация, мало примеров кода. Жаль, что гугл с его административным ресурсом пиарит свой убогий Go (язык без классов и с обработкой ошибок по значению функции), а не интересный D =)
1) Действительно ли inclusion tags работают быстрее {% include %}?
2) Beautiful soup адово течет, лучше использовать lxml

Дополню пост: есть замечательный апп django-devserver
Где-то видел график (от разработчиков Кассандры, кажется) — после 8ГБ задержки растут экспоненциально, в связи с этим общая производительность падает.
Опаньки, не буду обновляться — как раз сейчас много кода рефакторим
В Django экранирование по-умолчанию вообще-то =)
Вы все-таки оценивали работу одного из сервисов. Если Вы сядете в неисправный автомобиль и он не поедет, это же не будет значить, что все автомобили неисправны? Публичные сервисы накрутки ПФ — это тот самый неисправный автомобиль. Манипуляция ПФ работает, и работает хорошо, и судя по всему будет работать хорошо еще достаточно долго.
Автор, вы оценивали не накрутку поведенческих факторов — вы оценивали работу одного из сервисов по накрутке поведенческих. Это совсем не одно и то же. С таким же успехом можно написать статью под названием «как я хостингом пользовался», в которой вы выбираете какого-то ужасного хостинг-провайдера и вся статья в итоге становится пропитана метасообщением «хостинг — отстой».

Да, у вас там в первом абзаце есть куча «а точнее», но общее впечатление от статьи именно такое.

Накрутка поведенческих работает и работает хорошо. Кто «в теме» (а таких людей очень немного), давно и успешно пользуются. Наши конкуренты так «взлетели» по позициям и трафику и так и продолжают там сидеть уже больше полугода, с незначительным падением (может процентов 10%, взлет был примерно на 50%). По собственным каналам, так сказать, мы узнали, что они накручивали именно поведенческие, и даже примерно поняли как они это делали. В детали вдаваться не хочется, но там не использовался ни один из публичных сервисов (поэтому те, кто считает мой пост рекламой или скрытым пиаром других сервисов — можете проходить мимо).

Для всех интересующихся — я не предлагаю никаких услуг подобного рода, не даю консультаций и т.п. Думайте как работают поисковики, как они могут отличить «подозрительного» посетителя от нормального (или кажущегося таковым). Никакой там магии нет, все на самом деле достаточно очевидно и все необходимые технологии уже существуют довольно давно.
Еще есть Cloudera Impala. Не сравнивали ее с этими двумя?
Как будете бороться с накруткой отзывов и черным PR?

Information

Rating
Does not participate
Registered
Activity