Я был на защите наверное 5-7 «наших» и 10 «ненаших» диссеров.
У «наших» был намного больший размах в диссертантах: половина была крута, половине диссер написал наукрук.
В Германии, где я был на «ненаших» защитах, уровень был всегда хороший и лучше. Не все были звезды, но один-два были точно (теперь они в Кэмбридже и Оксфорде соответственно)…
Так что не стал бы я так обобщать…
Ага, то есть если я правильно понимаю, у Вас на входе N страниц, каждую из которых вы разбиваете на блоки и потом ранжируете эти блоки по их повторяемости. Более-менее очевидные повторы, близкие к N Вы вырезаете с каждой страницы. Так?
Тут самый ключевой момент — как правильно резать по блокам. Что Вы называете «законченным куском html»?
Заранее спасибо за статью, будет интересно почитать!
А, если не секрет, что за алгоритм «похожи на поиск спама» Вы используете? Какой-то само-обучающийся фильтр или что-то вроде TF-IDF для текстовых блоков?
Простите, а что Вы называете в данном случае паттерном: сам алгоритм выделения блоков на странице или алгоритм анализа (выделенного) блока на предмет рекламы или навигации?
Вы используете, как и Infanty, лексический анализ блока для того, чтобы определить является он рекламой или контентом?
Значит что-то в фоне работает тяжелое.
Обычо студия через 10-15 секунд выдает сообщение о загрузке.
Если этого нет, то это может быть ReSharper что-то там большое индексирует.
Проблема с «задержкой» у меня появляется только при добавлении к проекту больших (больше 3-5 Мб) XML файлов данных, которые почему-то начинает ииндексировать ReSharper. Но это всегда можно увидеть по индикатору в левом нижнем углу и там же остановить.
Смешно? А ведь насколько часто я в больших проектах вижу что-то типа button.onclick += ..., и никаких "-=". Особенно весело когда добавляют лямбду к другому объекту с замыканием на какое-то свойство первого объекта.
А зачем резрегистрировать обработчик, если не «особенно весело»?
Я часто добавляю динамически обработчики при динамическом создании контролов внутри формы (или веб-страницы): тут нет внешних привязок и нет проблем для сборщика мусора.
Это не новое поведение, оно для Вас является новым.
Я вообще не использую мыши при работе с IDE и мне вот очень удобно именно такой способ брать строку в буфер, не пытаясь наживать всякие Ctrl-Home + Shift-End.
> Есть конечно :) Напирмер такая мелочь: не все окна свойств растягиваются. Двадцать первый век блин!
Хм, приведите пример, если можно.
— Как эту проблему решили в MS: они сделали настройку(!)* «Не копировать пустую строчку» — это вместо того чтобы сделать сразу нормально
А Вам не кажется, что стоило бы потратить пару-тройку часов на изучение IDE в которой Вы работаете, прежде чем предъявлять такие претензии.
Я регулярно веду курсы по Visual Studio и в течение первых полутора-двух часов прохожу все основные комбинации клавиш и базовые настройки. И после этого у большинства не возникает никаких вопросов.
Это не баг, это фича!!! :)
Пишу с нетбука и Студии нет под рукой, но в Options -> Text Editor есть настройка «Do not copy empty text into clipboard» (как-то так примерно), включив которую Вы больше не сможете скопировать пустой текст в буфер обмена.
Причем эта настройка еще с 2005 студии есть :)
Не скажу про Россию, а в Германии MSP — это возможность прямого контакта с людьми вокруг MS. Я лично хорошо знаю (и меня знают, соответственно) практически всех Developer Evangelists и больше половины немецких MVP. И это все очень интересные люди, с которыми приятно и так пообщаться, и с вопросом по их теме, если что, всегда можно обратиться.
> Да и честно говоря за 2 года в программе ничего секретного не узнал
Кому как везет.
А после моего неосторожного вопроса вице-президенту Майкрософта на конференции, MS потребовал, чтобы видеозапись была отредактирована :(
И это все тоже во время MSP.
Так Вы будете в Редмонде?
Вот у меня собеседование тоже было в Редмонде (точнее, в Беллевуе), но позиция сама только в MSVC. Немного жалко, у MS больше бенефитов для тех, кто работает в Редмонде. Но с другой стороны, Калифорния тоже прикольно.
Я прочитал Ваше описание интервью, может быть, как освобожусь, напишу о себе. Я ездил специально на интервью и только ради него, и мне оплатили всю дорогу и проживание в гостинице (это на Ваш вопрос о том, что было бы если бы у Вас не было уже билета на MVP саммит).
Если не секрет, в какую группу Вы подавали резюме и в какую прошли. Если не хотите публично, пишите сообщением. Я, также как и Вы, уже подписал Employee NDA, если что :)
Эх, люди — 26 лет и уже аспирантура за плечами :)
А я вот — 32, и все еще студент. :)
Правда, встретимся мы, скорее всего, где-нибудь в MSVC ;-) По крайней мере там я буду работать в ближайшее время.
У «наших» был намного больший размах в диссертантах: половина была крута, половине диссер написал наукрук.
В Германии, где я был на «ненаших» защитах, уровень был всегда хороший и лучше. Не все были звезды, но один-два были точно (теперь они в Кэмбридже и Оксфорде соответственно)…
Так что не стал бы я так обобщать…
Тут самый ключевой момент — как правильно резать по блокам. Что Вы называете «законченным куском html»?
Заранее спасибо за статью, будет интересно почитать!
Вы используете, как и Infanty, лексический анализ блока для того, чтобы определить является он рекламой или контентом?
Обычо студия через 10-15 секунд выдает сообщение о загрузке.
Если этого нет, то это может быть ReSharper что-то там большое индексирует.
Проблема с «задержкой» у меня появляется только при добавлении к проекту больших (больше 3-5 Мб) XML файлов данных, которые почему-то начинает ииндексировать ReSharper. Но это всегда можно увидеть по индикатору в левом нижнем углу и там же остановить.
visualstudiogallery.msdn.microsoft.com/59ca71b3-a4a3-46ca-8fe1-0e90e3f79329/
У меня он, например, стоит :)
что-то типа button.onclick += ...
В случае:
Public Form frm = new Form();
void AddControl() {
Button b = new Button();
b.OnClick += new MouseClickEvent(a, e => MsgBox.Show(a.Text));
frm.Controls.Add(b);
}
void DeleteControl (Button c) {
frm.Controls.Remove©);
}
… вроде бы проблем быть не должно.
А зачем резрегистрировать обработчик, если не «особенно весело»?
Я часто добавляю динамически обработчики при динамическом создании контролов внутри формы (или веб-страницы): тут нет внешних привязок и нет проблем для сборщика мусора.
Я вообще не использую мыши при работе с IDE и мне вот очень удобно именно такой способ брать строку в буфер, не пытаясь наживать всякие Ctrl-Home + Shift-End.
Хм, приведите пример, если можно.
— Как эту проблему решили в MS: они сделали настройку(!)* «Не копировать пустую строчку» — это вместо того чтобы сделать сразу нормально
А Вам не кажется, что стоило бы потратить пару-тройку часов на изучение IDE в которой Вы работаете, прежде чем предъявлять такие претензии.
Я регулярно веду курсы по Visual Studio и в течение первых полутора-двух часов прохожу все основные комбинации клавиш и базовые настройки. И после этого у большинства не возникает никаких вопросов.
Пишу с нетбука и Студии нет под рукой, но в Options -> Text Editor есть настройка «Do not copy empty text into clipboard» (как-то так примерно), включив которую Вы больше не сможете скопировать пустой текст в буфер обмена.
Причем эта настройка еще с 2005 студии есть :)
Кому как везет.
А после моего неосторожного вопроса вице-президенту Майкрософта на конференции, MS потребовал, чтобы видеозапись была отредактирована :(
И это все тоже во время MSP.
Вот у меня собеседование тоже было в Редмонде (точнее, в Беллевуе), но позиция сама только в MSVC. Немного жалко, у MS больше бенефитов для тех, кто работает в Редмонде. Но с другой стороны, Калифорния тоже прикольно.
Я прочитал Ваше описание интервью, может быть, как освобожусь, напишу о себе. Я ездил специально на интервью и только ради него, и мне оплатили всю дорогу и проживание в гостинице (это на Ваш вопрос о том, что было бы если бы у Вас не было уже билета на MVP саммит).
Если не секрет, в какую группу Вы подавали резюме и в какую прошли. Если не хотите публично, пишите сообщением. Я, также как и Вы, уже подписал Employee NDA, если что :)
Я сам в Гамбурге, в Мюнхене бываю только постолько поскольку, поэтому мы не пересекались.
А я вот — 32, и все еще студент. :)
Правда, встретимся мы, скорее всего, где-нибудь в MSVC ;-) По крайней мере там я буду работать в ближайшее время.
А мы должны быть знакомы?