
Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в
Если вам интересны актуальные ML-технологии, их применение и реальные кейсы, регистрируйтесь на митап «MLечный путь — 2025: знания, опыт, комьюнити». Будем не только слушать, но и обмениваться мнениями в дискуссиях, челленджах и на питчах проектов. Каждый участник сможет напрямую поговорить с экспертами, задать вопросы и получить подробную обратную связь. Мероприятие бесплатное — нужно только зарегистрироваться. Задайте вопрос спикерам и получите шанс выиграть подарок от Selectel.
📅 23 апреля, 18:00
📍 Формат участия — онлайн и оффлайн в Санкт-Петербурге.
Николенко С. И., Кадурин А. А., Архангельская Е. О.
Я думаю, многие слышали о книге «Глубокое обучение». Оно и понятно — книга круто написана, снабжена богатым техническим материалом.

В числе прочего есть и вполне себе самостоятельный раздел об истории глубокого обучения. Глянем, что там:

Надо полагать, что Юрген Шмидхубер может с этим не согласиться. Он написал статью «How 3 Turing Awardees Republished Key Methods and Ideas Whose Creators They Failed to Credit», в которой есть фрагмент:
«…At least until 2019, LBH's web site deeplearning.net advertised deep learning as «moving beyond shallow machine learning since 2006»,[DL7] referring to Hinton's[UN4] and Bengio's[UN5] unsupervised layer-wise pre-training for deep NNs (2006), as if deep learning had started with this work. However, we had this type of deep learning already in 1991.[UN][UN1-2] Hinton & Bengio did not mention the prior work, not even in later surveys.[DL3,DL3a][T22] More on this below».
И далее, собственно, он очень подробно разбирает хронологию событий и в конце формулирует претензию:
More than a decade after this work,[UN1] Hinton published a similar unsupervised method for more limited feedforward NNs (FNNs), facilitating supervised learning by unsupervised pre-training of stacks of FNNs called Deep Belief Networks (DBNs).[UN4] The 2006 justification was essentially the one I used in the early 1990s for my RNN stack: each higher level tries to reduce the description length (or negative log probability) of the data representation in the level below.[HIN][T22][MIR] Hinton did not mention the 1991 work, not even in later surveys.[T22]
Bengio also published similar work (2006) without citing the original method,[UN5] not even in LBH's much later surveys (2015-2021),[DL3,DL3a][DLC] although both Hinton and Bengio knew it well (also from discussions by email). Even LBH's 2021 Turing Lecture[DL3a] dedicates an extra section to their unsupervised pre-training of deep neural networks (NNs) around 2006, without mentioning that I pioneered this class of methods in 1991.[UN-UN2]
Remarkably, no fewer than four of our priority disputes with LBH (H1, H2, B7, L2) are related to this work of 1991-92.[UN0-1][UN] Today, self-supervised pre-training is heavily used for famous applications such as Chat-GPT—the «P» stands for «pre-trained,» and the «T» for «Transformer.» Note that my first Transformer variant (the unnormalised linear Transformer) also dates back to 1991;[FWP0-1,6][TR1-7][DLH] see disputes H4, B4.
В чем же претензия? Ну, собственно, в том, что господа LBH в своих работах не удосуживаются процитировать исследования, в которых уже описывались и проверялись похожие идеи, — так, словно и не было их.
Представьте, что вы проделали исследовательскую работу, вложили в это массу сил, времени, ресурсов (в первую очередь финансовых, на аренду вычислительных ресурсов, сбор данных и вот это все), опубликовали результаты, получили по итогам какой-то отклик от научного сообщества. Представили?
А теперь представьте, что годы спустя вы обнаруживаете, что некто «H» («B» или может даже «L») выпускает исследование. В нем описываются похожие, а может даже и ровно те же идеи, в которые вы когда-то верили, по отношению к которым чувствуете причастность и которые были выстраданы вами в ходе долгих и порой мучительных проб и ошибок. Представили?
А теперь представьте, что эти некто не просто ничего про вас не сказали в своих исследованиях, не просто описали ваши идеи, как свои, но продолжили продвигать «свою истину» даже после того, как вы им несколько раз недвусмысленно намекнули, что так делать нехорошо! Представили?
А теперь задайтесь вопросом: какие эмоции вы будете испытывать по поводу таких людей? Здесь, конечно, уже становится немного сложнее понять, кто прав, поскольку разбор даже последней цитаты и анализ того, имеет ли она право на жизнь, требует внимательного прочтения упомянутых работ. Сам факт наличия подобных претензий и возникающей на этой почве полемики говорит о том, что что-то в этом вопросе есть неладное. Точки над «и» не расставлены. Но идем дальше.

А у кого именно появилась идея? И тут опять же открываем другую статью Шмидхубера и видим следующий фрагмент:
Around 2006, in the context of unsupervised pre-training for less general feedforward networks [15,A8], a Deep Learner reached 1.2% error rate [15] on the MNIST handwritten digits [16], back then the most famous benchmark of Machine Learning. Our team then showed that good old backpropagation [A1] on GPUs (with training pattern distortions [42,43] but without any unsupervised pre-training) can actually achieve a three times better result of 0.35% [17,A10] — back then, a world record (a previous standard net achieved 0.7% [43].
Это просто к слову о том, что, по выражению Дэниела Кревьера из предыдущей статьи, «most pioneering AI research occured in America». Ну разумеется, а как же иначе.
Далее по тексту авторы перечисляют литературу, которую рекомендуют к ознакомлению, включая обзор Юргена Шмидхубера:

Все так, полностью согласен. Я уже ранее упоминал данный обзор и уж в чем в чем, а в дотошности и подробности Юргену отказать невозможно. Но идем дальше:

И снова согласимся. Что там дальше:


Могу лишь от себя скромно присоединиться к рекомендации и дополнительно порекомендовать к прочтению рассмотренную книгу.
Строго говоря, я не нашел здесь исчерпывающего рассказа об истории появления именно термина «глубокое обучение». Но, безусловно, я рекомендую эту книгу, поскольку в ней ярко читается голос автора, который от всей души старается рассказать о глубоком обучении понятно и интересно!

Михаил Лысачев, Александр Прохоров, Денис Ларионов
На книгу «Искусственный интеллект. Анализ. Тренды. Мировой опыт» я, как это уже бывало много раз, наткнулся случайно. Ее легко можно найти в свободном доступе. Привлекло в ней, пожалуй, то, что я ничего о ней не знал. Ни разу не видел ее на полках в книжных, особо ничего про нее не слышал. Книжка при этом всем еще и довольно объемная. Точно надо почитать!

Итак, что же можно полезного извлечь по теме происхождения термина «deep learning»? В целом, данная книга во многом повторяет мейнстримное изложение истории развития глубокого обучения в частности и искусственного интеллекта в целом. Есть здесь, например, и вот такая временная диаграмма:

Разумеется, тут будет рассказ и про наших супергероев из предыдущей статьи — Мак-Каллока и Питтса:

И про Розенблатта:

И про Джона МакКарти:


И много еще про кого.
Есть также и попытка объяснить, почему обучение именно глубокое. Чем больше слоев, тем глубже сеть, потому и «глубокое». Изящно.


Нет при этом ни единого упоминания, ни словечка про вклад Рашевского, Ивахненко, Линнаинмаа, Шмидхубера, затронутого здесь разок Хохрайтера и многих-многих других.
Спасибо, хоть про Владимира Вапника и Алексеем Червоненкиса сказали:

Как-то так вышло, что в примерно 80-90 упоминаниях словосочетания «глубокое обучение» не нашлось места для исследователей в области искусственного интеллекта, которые бы работали не в США или Западной Европе. Может потому, что — как нам уже дали понять — «most pioneering AI research occured in America»? Может быть и так. Ну скажите, разве есть хоть какой-то смысл в этом сомневаться?
Из всех упоминаний термина «глубокое обучение», к сожалению, нет ни одного, что могло бы прояснить происхождение этого самого термина. Поэтому более данная книга нам в поисках помочь не сможет. Тем не менее, она будет вполне полезна, если нужно посмотреть на область искусственного с точки зрения экономики и бизнеса, т. к. там на эту тему довольно много разделов и ссылок на внешние источники. Мы же тем временем двинемся дальше.
О книгах, кофе и искусственном интеллекте я также пишу в своем Telegram-канале.
Леонид Черняк
В очередной раз рыская по интернету, наткнулся на эту книгу:

Одно только оглавление уже заинтриговало:

Как вы думаете, о какой же мафии идет речь? Но идем дальше:

Очень интересно. Один вопрос: а где конкретно Юрген так считает? Дело просто в том, что есть у Юргена в его официальном блоге довольно интересная статья. Что же там Юрген пишет? А вот что:

Говорит ли Юрген что-то об Алексее Григорьевиче? Что же, это довольно просто выяснить. Юрген упоминает Алексея Григорьевича шесть раз. И каждое такое упоминание — это ссылка на его совместную работу с Лапой Валентином Григорьевичем в контексте метода группового учета аргументов.
Это не очень похоже на то, что «Юрген Шмидхубер… считает Ивахненко не только отцом глубокого обучения, но и метода обратного распространения ошибки». Откуда Леонид Черняк это взял, не совсем понятно.
Тем не менее, другая часть этой фразы, а именно «Юрген Шмидхубер … считает Ивахненко … отцом глубокого обучения» подтверждается вполне легко:

Кстати говоря, вот мы и выяснили, кто считает Ивахненко отцом глубокого обучения.
В целом, данную книгу можно еще очень долго разбирать. В ней много интересных разделов, касающихся истории развития интересующего нас термина и соответствующей области исследований. Есть там, например, вот такой абзац:

Сложилось, ну да. Само по себе взяло и сложилось… И да, кстати, про швейцарца Юргена Шмидхубера Леонид Черняк тоже написал:

Много всяких мыслей возникает при прочтении… «Одиозных доказательств российского приоритета»? Предположу, что под одиозностью понимается вот это:

Разумеется, я понимаю, что этот пример полностью подпадает под сказанное мной же в предыдущей статье, а именно:
«…когда речь заходит о том, что «X является первооткрывателем Y», надо делить эту фразу на десять с половиной…»
Тут, очевидно, на десять с половиной надо делить слово «впервые», поскольку есть как минимум версия Юргена Шмидхубера, согласно которой современная версия метода обратного распространения ошибки была опубликована в 1970 году в магистерской работе Сеппо Линнаинмаа.
Чтобы проверить, что общего между работами Галушкина и Линнаинмаа, нужно довольно внимательно вчитываться в обе. Делать я этого не буду, поскольку кажется, что это может занять существенное время, а также это немного выходит за рамки темы статьи. Тем не менее, один момент все же хочется подсветить.
Поверхностное прочитывание оригинальной работы Галушкина позволяет понять, что «алгоритм поиска экстремума функции многих переменных» описывается им именно для того, чтобы построить то, что у него называется «многослойная система распознавания».
Оригинальная же работа Сеппо Линнаинмаа написана на финском, так что анализировать ее чуть сложнее. Есть еще, конечно, более поздняя его статья от 1976 года. В ней говорится в более общих терминах о том, что некий вычислительный процесс в общем случае сопровождается ошибками, возникающими в силу того, что вычисления производятся с конечной точностью. В статье Сеппо Линнаинмаа утверждает, ссылаясь на работу Петера Хенричи, что данную накопленную ошибку округления можно представить через разложение Тейлора и через это понять, каков был вклад каждой локальной ошибки на каждом промежуточном шаге вычислительного процесса.
В упомянутом уже разборе Юргена имеется на эту тему вот такой абзац:

Похоже, Александр Иванович Галушкин и Сеппо Линнаинмаа писали плюс-минус об одном и том же. Но Сеппо Линнаинмаа сделал это в более общих терминах, не прикладывая метод к нейронным сетям, и сделал это, увы, раньше.
Получается, опрометчиво говорить, что впервые метод был описан в 1974 году А. И. Галушкиным. Но является ли это утверждение одиозным? Так ли уж далеко это ушло от того, как к подобным фактам относятся зарубежные писатели? Реально ли допустить, что авторы этого утверждения попросту добросовестно заблуждались?
Другая фраза, которая сбила с толку:
«…скандала, устроенного Шмидхубером, то, скорее всего, поводом для него стал тот факт, что его обошли при награждении Тьюринговской премией 2018 за достижения в области глубокого обучения».

С какой стати критика несправедливого присуждения людям незаслуженных заслуг является скандалом? С чего автор взял, что причина в том, что Юргена обошли при награждении? Не очень понятно.
Впрочем, на все это лично я могу закрыть глаза, имея в виду следующее обстоятельство:

Ура! Наконец-то хоть кто-то уделил данному гражданину должное внимание. Далее по тексту можно встретить больше:

Далее идет довольно подробное описание того, как Уолтер Питтс через Рассела, Карнапа, Литтвина и некоторых других действующих лиц познакомился непосредственно с Николаем Петровичем. И хоть на этом описание вклада Рашевского в книге по большому счету заканчивается, надо отдать должное автору: он один из очень немногих (по крайней мере, из тех, кого мы успели рассмотреть), кто постарался приблизиться к объективному описанию истории возникновения нейронных сетей, а следовательно и глубокого обучения.
Впрочем, мы немного отвлеклись, пойдем дальше по книге:

Мы уже натолкнулись на упоминание данных граждан при разборе книги Аггарвала и поиске информации по книге Минского и Пейперта. В принципе тут несложно догадаться, на что ссылается автор.
В целом, прочтение отдельных фрагментов данной книги безусловно помогло мне построить более полную картинку о том, откуда произошел термин «deep learning». Как говорится, дело ясное, что дело темное.
Разумеется, я рекомендую данную книгу для ознакомления, поскольку автор, на мой взгляд, честно пытается рассматривать историческое развитие глубокого обучения непредвзято, хоть и допускает некоторые неточности. Например, вот такие:

При этом у самого Шмидхубера по поводу отношений с Хохрайтером немного другое мнение:

Я не в курсе, бывает ли такое, чтобы один и тот же человек был у другого человека и студентом, и научным руководителем. Наверное, гипотетически такое возможно. Что думаете?
Сергей Марков
И вот мы добрались до чертовски интересной работы Сергея Маркова:


Но прежде хочу сказать пару слов о том, как я узнал об этих книгах.
Итак, конференция PyCon, Москва, 26-27 июля 2024 года. Мы с моим коллегой, Антоном Алексеевым, поехали с докладами об инфраструктурных нюансах ML-проектов. Я рассказывал об инструментах профилировки ML-кода, а Антон — о том, как заюзать GPU в Kubernetes без боли и страданий. Антон еще по итогу написал статью. Я тоже до своей статьи по профилировке доберусь, но попозже. 😉
Так вот, на этой же конференции были ребята из SberAutoTech. В частности, выступал Алексей Воропаев с рассказом о том, как писать CUDA-кернелы с использованием Taichi-lang. Я выступил 27-го и, посидев немного на пуфике и передохнув, подошел к стенду SberAutoTech поболтать с ребятами об ML. Было круто, мы разговорились и обменялись контактами.
Я позже сообщил Алексею, что пишу статью об истории DL и хочу его немного расспросить по этой теме, если у него будет время. И вот тут Алексей мне и написал, что недавно вышла большая энциклопедия по истории ML, а на сайте Сергея Маркова, где, собственно, в открытом доступе лежат две части книги «Охота на электроовец. Большая книга искусственного интеллекта».
Сказать, что я «обалдел», — ничего не сказать. Две массивные книги, обе в открытом доступе, гигантский объем ссылок на различные источники, касающиеся не только искусственного интеллекта или глубокого обучения, но и всей истории вычислительной техники в целом. Ух, забористо!
О самой книге, думаю, лучше всего бы рассказал сам Сергей Марков. Впрочем, он так и сделал. Я же просто попробую пошариться по книге в поисках всего, что позволило бы пролить больше света на исходный вопрос о происхождении глубокого обучения.
Итак, приступим:

Как вы думаете, насколько подробно будет описана история этих двух полюбившихся нам граждан? Правильно, очень подробно! Безусловно, глупо было бы не признать, что работа МакКаллока и Питтса — важнейшая веха в истории развития нейронных сетей, поэтому логично ожидать, что поголовно все авторы книг по истории ИИ разбирают данный период и данную работу. Тем не менее, в случае с книгой Сергея Маркова (как и Леонида Черняка) есть одно существенное отличие, а именно:


Итак, это третья книга, которая упоминает Рашевского в контексте работы МакКаллока и Питтса. При этом, если Саймон Хайкин лишь мельком его упомянул, а Леонид Черняк чуть более подробно рассказал о его вкладе, то Марков пошел сильно дальше и снабдил книгу подробнейшим описанием жизненных этапов биографии Николая Петровича. Здесь, думаю, излишне делать какие-то врезки, книги находятся в открытом доступе — настоятельно рекомендую с ними ознакомиться!
Мы же, тем временем, попробуем заглянуть во вторую часть книги:

Что же нас ждет здесь? Правильно, подробнейший рассказ о том, как проводились исследования по так называемым «самонастраивающимся системам» и о ком бы вы думали? Правильно:


И снова приходит на ум вопрос: много ли авторов текстов по истории ИИ об этом говорят? Но идем дальше:

И действительно, где же все-таки начинается глубокое обучение?

Какие вопросы? А вот если вы откроете вторую часть книги, то как раз и узнаете:

А вот уже и знакомая нам по первой части статьи Рина Дехтер! И да, остается только согласиться с автором в том, что знание факта упоминания ей термина «deep learning» в контексте своей работы не добавляет ясности. Но идем дальше:


И далее Сергей Марков приводит пример пример такой архитектуры:

Чуть дальше мы, наконец, приходим к выводу:


И действительно, кто? Что по этому поводу думает автор? А вот что:

Ну что же, тут, как говорится, finita la commedia. Признаться, я ждал какой-то сенсации, но ее не случилось. Тем не менее, очень любопытно, что с очень сильно похожим термином в тот же год вышла статья от других авторов.
Да и вообще, сегодня это самый подробный разбор истории возникновения термина «глубокое обучение». Сомневаюсь, что где-то вы найдете лучше. Я попробовал, сами видите, книжки всякие полистал.
Книгу всячески рекомендую, поскольку из того, что я просмотрел, данные две части — это наиболее подробное описание исторического развития искусственного интеллекта, включая происхождение термина «глубокое обучение».
Итого
Ну и что же мы можем сказать по итогу всего увиденного? Понятно только одно: дело ясно, что дело темное.
Пожалуй наиболее обстоятельно к вопросу, которым мы задались в рамках этих двух статей, подошел Сергей Марков в упомянутом выше двухтомнике.
Действительно, работа Рины Дехтер не вводит термин «глубокое обучение» в том смысле, в котором он понимается сейчас. Я даже вполне соглашусь с тем, что этого не делают Игорь Айзенберг, Наум Айзенберг и Йос Вандевалле в своей работе «Многоуровневые и универсальные бинарные нейроны», которая уже упоминалась нами в первой статье. Но если внимательно прочитать то, что написал Сергей Марков, то получается, что и господа LBH тоже этот термин не вводят!
Если прочитать фрагмент, где Сергей Марков говорит о том, что «первенство здесь принадлежит Джеффри Хинтону и его коллегам», и заодно посмотреть статьи, на которые ссылается автор (а именно, «Reducing the Dimensionality of Data with Neural Networks» и «A Fast Learning Algorithm for Deep Belief Nets»), то выяснится, что Хинтон с коллегами вводят термины «глубокий автокодировщик», «глубокая сеть», «глубокие сети доверия», но не «глубокое обучение»! В данных статьях нет ни одного упоминания термина «deep learning».
Зато этот термин действительно неоднократно упоминается в статье «A Multiple-Weight-and-Neuron-Fault Tolerant Digital Multilayer Neural Network» — и уже именно в том смысле, в котором мы привыкли!
Так что выходит, что впервые термин «deep learning» в том смысле, в котором он применяется сейчас, употребили три человека: Тадаёси Хорита, Такуроу Мурата и Ицуо Таканами!

Да, разумеется, можно придраться к тому, что они ввели не совсем этот термин. Можно сказать что-нибудь в стиле: «Ну они же пишут про deep learning method, а не про deep learning».
И вообще, если почитать их работу, то выяснится, что они работают с нейронками, в которых аж целых… один скрытый слой.
И тем не менее, это они в своей статье пишут про «extended back propagation learning algorithm called the deep learning method». Это уже потом, в 2015 году, господа LBH напишут статью под названием «Deep learning», в которой данный термин будет использован аж 21 раз.
При этом если посмотреть на источники, на которые данная статья ссылается, то и там обнаружится, что термин фигурировал в разных работах и раньше. Например, в статье «Deep learning of the tissue regulated splicing code».
Возможно, у вас возникнет вопрос о том, почему тут не рассмотрены труды советских исследователей ИИ (Поспелова, Глушкова, Галушкина, Ивахненко и т. д.), но история советских исследований в этой области заслуживает отдельного цикла статей. Да и кроме того, на эту тему уже есть отличная публикация.
Впрочем, если вам любопытно, рекомендую обратиться к книге Якова Ильича Фета «Рассказы о кибернетике», а затем заглянуть в «Очерки ИСТОРИИ КИБЕРНЕТИКИ в СССР» Василия Дмитриевича Пихоровича.
Финальное определение термина «deep learning»
Ну наконец-то! Нет сил терпеть, каково же определение? Может, что-нибудь такое:
Deep learning, или глубокое обучение — это обучение глубоких нейронных сетей.
Краткость — сестра таланта! Хотя бьюсь об заклад, что у кого-нибудь в голове возникла эта картинка:

Ну ладно-ладно, пошутили и будет. Может возьмем за основу определение, сформулированное для термина «machine learning» и скажем, что:
«A computer program is said to use deep learning from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T (solved solely with deep artificial neural networks), as measured by P, improves with experience E».
Вроде бы даже неплохо выглядит. Только есть проблема: следом за этим определением придется дать определение термина «deep artificial neural networks». И тут мы попадаем в ту самую ловушку, о которой писал Сергей Марков:
«… весьма сложно провести четкую формальную границу, отделяющую глубокие сети от неглубоких».
Разумеется, об этом писал не только он. Вот, например, что говорит по этой теме Стьюарт Рассел:

Это, на секундочку, соавтор трехтомника «Искусственный интеллект: современный подход», так что понимаем и запоминаем. Сам же фрагмент был взят из книги «Архитекторы ИИ». К ней мы еще чуть ниже вернемся.
К слову о глубине. Одной из самых амбициозных попыток поставить в этом вопросе точку является раздел монографии Шмидхубера:

Описав очень строго с добрых пару десятков терминов, Юрген ниже пишет следующее:


Вот так вот. Как вы видите, даже Юрген, при всей своей строгости и дотошности, все равно приходит к весьма условному отделению глубоких сетей от неглубоких, так что данный вопрос действительно нетривиальный.
Кстати, а как вам идея воспользоваться понятием «предиктивного телеологического целенаправленного поведения» по Винеру? Допустим, что-нибудь из разряда:
«… глубокое обучение — это раздел кибернетики, направленный на изучение методов использования данных для создания механизмов, основанных на нейронных сетях и обладающих предиктивным телеологическим целенаправленным поведением».
Как вам такое? Можно ли так определить термин «глубокое обучение»? Если бы можно было, то мы были бы уже сильно за порогом восстания искусственного интеллекта, поскольку «целенаправленное поведение» по Винеру — это, в первую очередь, «активное поведение»:

Пока что (опять же, насколько мне известно) любая программа, так или иначе использующая нейронную сеть, обладает все же пассивным поведением, не ставит свои собственные цели и не действует в своих собственных интересах. Поправьте меня, если я ошибаюсь.
И кроме этого, хочется подчеркнуть еще один малюсенький, но все же проблемный аспект касательно определений: за одним и тем же термином вполне себе неплохо уживаются разные понятия!
К чему я это все? К тому, что термин «глубокое обучение» можно определять множеством различных способов, они все будут делать упор на каком-то из аспектов, поставленных во главу угла и все будут что-то упускать из виду. На ум приходит притча о слепых и слоне:

Вот, допустим, что говорит Мартин Форд:

А вот что думает мистер «B» (взято из той же книги «Архитекторы ИИ»:


И таких вот вырезок и определений можно найти еще уйму.
Вместо заключения, или кто же все-таки пишет историю
В первой части мы мельком упоминали одну замечательную статью о том, кто пишет историю. Есть там вот такой замечательный фрагмент:
Эту фразу, в том или ином виде, несколько раз повторял известный британский писатель Джордж Оруэлл. О том, что история пишется победителями, он записал в своем эссе «As I Please» в 1944 году, а также в своем популярном романе «1984». Там она звучала куда более радикально, но смысл был приблизительно такой же: «Тот, кто управляет прошлым, управляет будущим. Тот, кто управляет настоящим, управляет прошлым».
Я бы, пожалуй, несколько перефразировал ее конец, сказав, что тот, кто не знает прошлого, не понимает настоящего, а значит не имеет будущего.
Тут можно сломать не одну охапку копий и в итоге так ни к чему и не прийти. Я лишь надеюсь, что мы сойдемся хотя бы в том, что, так или иначе, изучая прошлое, становление настоящего в прошлом, фантазируя на тему будущего, мы лбом упираемся в одно словосочетание: источник информации. Точнее даже будет сказать не источник, а источники.
Вот мы с вами в данных двух частях посмотрели на ряд книг, так или иначе затрагивающих вопросы истории возникновения термина «глубокое обучение» и в целом истории ИИ. Изложенные соображения — результат целенаправленного поиска источников по очень конкретной теме. Активного поиска. Поиска, нацеленного на то, чтобы сформировать по возможности наиболее полное представление о том, как оно на самом деле было.
А теперь внимание, вопрос: характерен ли активный целенаправленный поиск для сегодняшнего дня? Типична ли ситуация, в которой мы запускаем по любому вопросу мини-исследование с присущей ему работой над сбором и анализом источников информации? Очевидно, нет.
Очевидно, что в этом дивном новом мире, напичканом социальными сетями, новостными лентами, стриминговыми платформами, чат-ботами, рассылками, подкастами, дайджестами, блогами, пуш-уведомлениями, мини-приложениями, приложениями внутри приложений и т. д. и т. п. практически не осталось места для активного поиска. Его стремительно вытесняет подход, в котором мы лишь говорим о том, что нам хочется потреблять (здесь было важно не ошибиться буковкой), а всю остальную работу проделают за нас средства доставки информации.
Средства, оснащенные мощной рекомендательной системой. Средства, доставляющие информацию в промышленных масштабах, массово. Средства массовой доставки информации.
И по сути, тот, кто владеет этими самыми средствами массовой доставки информации, тот и управляет настоящим, а значит, по Оруэллу, прошлым и будущим. А теперь осталось задать один малюсенький вопрос: кто же этими средствами массовой доставки информации владеет?
Ответив на этот вопрос, вы уже можете задаваться другими вопросами о том, кто/что влияет на представление о первенстве и приоритете, о заслугах и роли кого бы то ни было в чем бы то ни было, о позитивном или негативном образе кого бы то ни было и чего бы то ни было в чем бы то ни было.
И на этом мы, пожалуй, поставим в поднятом вопросе точку, а сами двинемся дальше, ведь глубокое обучение, это не просто термин, история которого, как мы убедились, не вполне тривиальна. Это еще и бурно развивающаяся область исследований, являющаяся частью более общей сферы — машинного обучения.
Что это за сфера? Из чего она состоит? Где применяется? Где и в чем у данной сферы есть границы применимости? Интересные вопросы? Я считаю, да.
Вот этими вопросами мы, возможно, в следующих статьях и займемся. А пока всем хорошего времени суток!