Молодые ученые: математик Илья Толстихин

,

Tolstihin586

© Федор Ратников

Новый герой в рубрике «Молодые ученые»: Илья Толстихин учит компьютеры решать задачи за человека, рассматривает науку как способ найти смысл в жизни, не собирается уезжать на Запад и восхищается физиком Ричардом Фейнманом.

Образование: кафедра математических методов прогнозирования факультета Вычислительной математики и кибернетики МГУ им. Ломоносова в 2010 году.

Что исследует: относительно молодое направление математики (на фоне прочих фундаментальных разделов), которое называется теория машинного обучения (machine learning), а конкретнее — теория вычислительного обучения (computational learning theory или просто COLT). Это наиболее математизированный подраздел того, что в совокупности принято называть «искусственным интеллектом».

Особые приметы: читает Пруста и Керуака, увлекается электронной музыкой, гордится своими родителями, любит объяснять своей девушке, зачем обучать машины, жил 6 лет в Японии.

  • Tolstihin1

    «Раньше дырки в стенке моей ячейки не было. В один день я вдруг захотел вздохнуть полной грудью — взял и снял кусок».

  • Tolstihin2

    «На мониторе — плоды проекта, над которым я работаю. Он должен помочь быстрее обнаруживать новые зловредные семейства».

  • Tolstihin4

    «Мужик на фотографии —Ричард Фейнман. Очень меня вдохновляет и воодушевляет его лицо».

  • Tolstihin3

    «На столе — классический сборник трудов по Semi-Supervised Learning (обучение с частичным привлечением учителя)».

Работать первый раз я начал летом после третьего курса — устроился в Лабораторию Касперского через сервис отправки резюме. График рабочий был удобный (с ночными сменами) и позволял не пропускать много занятий в университете — так что это был удачный вариант, ну и платили хорошо. Тогда я работал в смене вирусных аналитиков, так благополучно прошел 4 курс. В университете я особо инициатив не проявлял, правда, учился на 5 (в итоге закончил с красным дипломом).

В какой-то момент (примерно через полтора года после начала работы) я почувствовал, что сложившийся ритм жизни не приносит мне никакого творческого удовлетворения. Я почувствовал, что я попал на автопилот и если что-то не поменять — так и проживу всю жизнь в рутине повседневности. Я принял решение уволиться с работы и поступить в аспирантуру. Главной целью было загрузить свой мозг, который простаивал без дела и стимулов. До того момента наукой я не занимался совершенно. Стоит отметить, что мои родители — физики-теоретики. Папа — доктор физико-математических наук, преподает на Физтехе и работает в Курчатовском институте. Мама — кандидат, работает в Физическом институте РАН. Так что «что такое наука», «как ей занимаются» и «как все это происходит» я наблюдал ежедневно. Я горжусь своими родителями: всегда очень приятно, когда я говорю, что мама — кандидат, папа — доктор, а люди в ответ: «Нормальная семейка...»

22836
15 декабря Илья Толстихин и его коллега Борис Янгель расскажут и покажут, чем они занимаются в своих лабораториях в ходе лекции, которую «Теории и практики» устраивают в Библиотеке-читальне имени Тургенева.

В процессе увольнения из Лаборатории Касперского я начал активно общаться с научным руководителем и проситься в аспирантуру. Сначала мне отказали. Потом было дано тестовое задание — разобраться в некой математической теории из нашей области. Я справился — и в результате написал хороший диплом. В 2010 году, после выпуска, я поступил таким образом в аспирантуру Вычислительного центра РАН в отдел Интеллектуальных систем. Помимо этого там же я являюсь инженером-исследователем.

В свете колоссального роста объемов информации, с которыми сегодня экспертам приходится работать практически во всех областях, их работа усложняется. Людям вручную становится очень сложно управляться с кучей данных. В то же время ежедневно во всевозможных областях эксперты занимаются анализом огромных объемов информации и поиском в них закономерностей — или «извлечением из них знаний». Подобные задачи встречаются повсеместно — в банковском деле, в медицине, в компьютерном зрении.

Машинное обучение изучает способы «научить» компьютер выполнять такие задачи за человека. Компьютер обладает огромной вычислительной способностью — он может просмотреть гигабайты данных. Если его «научить», как это делать, он может обнаружить в данных такие закономерности, которые пропустит или не заметит даже самый высококлассный эксперт в этой области. Весь вопрос в том, как «научить» его выискивать в данных действительно хорошие закономерности. При этом хотелось бы, чтобы ему для этого требовалось как можно меньше данных.

Сначала (когда я решил поступать в аспирантуру) наука была для меня эдаким авантюрным способом придать жизни какой-то смысл, интерес и краски. Когда я доказал свою первую теорему в дипломе — я загорелся. Сложно описать это чувство: я недели три ходил и все время крутил в голове одну задачку. И в один день вдруг ее решил. Это было не в точности как у Менделеева — но что-то подобное. Я думал на автомате над задачей и вдруг что-то выстрелило. С тех пор я начал читать много статей, учебников по математике. Выступил на одной международной конференции со своими исследованиями. Короче — начал серьезно изучать математику — по крайней мере, те ее области, которые «выстреливают» в теории машинного обучения.

Когда я окончил университет, деньги, отложенные перед уходом с работы, закончились, и стало ясно, что надо искать работу. Я связался с ЛК и предложил им нанять меня заниматься наукоемкими задачами. В итоге все устроилось чудесно — я попал в маленькую группу, которая занимается решением различных задач, связанных, так или иначе, с автоматизацией обработки информации. Ровно по моему профилю. Изучение теории в аспирантуре идеально совместилось с применением ее на практике на работе.

Существенная часть работы антивируса заключается в пополнении антивирусных баз — это как аптечка с таблетками от разных болезней. Если в аптечке есть таблетка от нового вируса — то пользователи в безопасности. Если появляется новый вирус — то надо как можно быстрее сделать под него новое лекарство, а то пользователи будут болеть. В «Касперском» созданием таких «таблеток» занимаются целые отделы. Но вирусов новых выходит очень много и, более того, часто оказывается, что создание новой таблетки — достаточно рутинный и однотипный процесс. Почему бы не научить делать это компьютер? Хотелось бы дать роботу кучку похожих болезней и попросить его создать такую «комплексную» таблетку, которая лечила бы от всех подвидов одной и той же болезни. Когда я только попал в эту группу, мы как раз начали заниматься созданием такого робота. В результате нам это удалось, и он в неплохом темпе набирает сейчас обороты.

Слушать лекции Ричарда Фейнмана — удовольствие отдельного порядка.

При написании «таблеток» экспертам в ЛК приходится обрабатывать и просматривать огромное количество разных файлов. Какие-то из них чистые (не заразные), другие — вредоносные. Таким образом, помимо создания таблетки, надо еще эффективно и быстро обнаружить новую болезнь (желательно перед тем, как она успеет заразить наших пользователей). Сейчас я занимаюсь несколькими проектами: один из них — разработка нового метода, который бы позволил быстро и эффективно обнаруживать зловредные и еще не детектируемые нами файлы, чтобы как можно быстрее создать новую таблетку. Во всех этих задачах я очень активно использую теорию машинного обучения. И не без плодов — ведь она такими задачами и занимается.

У меня отличный научный руководитель — он не дает мне скучать. Постоянно подбрасывает новые задачи, предложения — например, 3 месяца назад я устроился на кафедру алгоритмов и технологий программирования факультета инноваций и высоких технологий Московского физико-технического института ассистентом. Я там веду и одновременно разрабатываю семинары по курсу машинного обучения. Параллельно я вынашиваю идею подготовить свой спецкурс на родном ВМиК МГУ и дописываю с товарищем препринт (это такая маленькая книжечка, выходящая маленьким тиражом в институте, в которой собраны последние результаты более или менее законченного исследования).

Так сложилось, что мы с родителями жили в Японии 6 лет. Там они работали в институте. Условия были просто чудесными, мы очень полюбили тамошний образ жизни. Я ходил там в садик, потом в школу. Но когда мне исполнилось 10, родители приняли решение вернуться. Они хотели, чтобы я получил образование в России.

Опыт жизни за границей и решение моих родителей вернуться сильно повлияло на мое видение этого вопроса. Объективно я вижу много преимуществ в занятии наукой за границей — например, в Штатах. Там отличные условия для исследований, очень сильные научные группы. Там фактически бурлит область, которой я занимаюсь. Да и платят за границей, конечно, не так, как тут.

Но пока что я не вижу для себя непреодолимых преград для продолжения занятий наукой у нас в России. Здесь у меня есть очень хорошие и сильные учителя, к которым я всегда могу обратиться за знаниями. Есть доступ ко всем статьям, я могу ездить на конференции, читать книги, разбираться со всем самостоятельно. Да и с деньгами пока что проблем нет — вместе со всех моих деятельностей набегает нормально (правда, чувствую, они возникнут, как только появится семья). А ехать на Запад (или еще куда-то) без строгой мотивации не вижу абсолютно никакого смысла.

Единственное, над чем думаю последнее время — съездить на непродолжительную стажировку в институт к какому-то из известных специалистов нашей области, понабраться опыта и непосредственно «повариться» в тамошнем котле. Я искренне верю в силу отечественной науки. Рассмотрим хотя бы мою область. Всемирно признанная классическая серия работ, положившая начало теории вычислительного обучения (чрезвычайно развитой и популярной сейчас во всем мире), была написана в конце шестидесятых здесь нашими соотечественниками — Вапником и Червоненкисом.

У нас в стране есть чрезвычайно сильные научные школы, основанные классиками мирового уровня. Это очень важно — кто и как воспитывает молодое поколение. Я очень благодарен своим родителям, а также МГУ и научному руководителю за то, что мне достаточно рано привили культуру мышления. Именно благодаря им я чувствую внутри себя острую потребность новых знаний и саморазвития, которая буквально движет мной последние годы во всех начинаниях. Хочется не подвести всех, кто был до нас, и тех, кто будет после, и совместными усилиями не дать исчезнуть или ослабнуть богатым научным традициям нашей страны.

В русской науке есть, конечно, ряд проблем. Например — финансирование. Хотя в моей области в меньшей степени нужны лаборатории, реактивы разные, приборы, агрегаты или установки, чем, например, в химии или физике. Мне достаточно иметь компьютер, ручку и тетрадку. Но есть исследования и в моей области, которые в России провести сложно. Например — приложения в медицине или нейробиологии. Там нужны ЭКГ и прочие дорогие и большие агрегаты. Моя область крайне популярна сейчас на Западе. У нас она почему-то в меньшей степени развивается — а там находятся главные очаги, исследовательские центры, конференции и журналы. Все стараются пробиться туда, публиковаться и выступать там. Но и у нас постепенно все разгоняется: например, набирают обороты наши конференции — международная «Интеллектуализация обработки информации» и всероссийская «Математические методы распознавания образов». Кстати, последние 2 года я корректировал сборники обеих конференций.

Приложения для машинного обучения в медицине и нейробиологии связаны с интерфейсами, которые считывают различные измерения головного мозга и позволяют пользователю управлять виртуальными объектами и даже физической электроникой посредством лишь мыслей (и небольшой концентрации).

Я всеми силами стремлюсь достичь состояния, когда я сам честно смогу назвать себя ученым. Для этого, по-моему, недостаточно полистывать время от времени статьи, читать книжки и размышлять над задачами. Это определенный образ жизни — достаточно сложный, активный и занятой. Нужно вести исследования, получать результаты и публиковать их. Нужно обязательно читать в университете (или институте) свой курс — я считаю, это очень важный опыт и, может быть, даже долг ученого — передавать свои знания новым поколениям. Для меня еще важно пытаться популяризировать науку, показывать ее пользу, давать людям понять, зачем все это вообще нужно. Уметь объяснить, чем же ты там занимаешься в институте, неподготовленному слушателю — это тоже очень важный навык. Когда я рассказываю своей девушке, зачем и как компьютер нужно учить думать, вскрывается куча вопросов, над которыми я раньше не задумывался или которые я не до конца понимал.

Ssp
Магазин Shakespeare and Co, который существует с 1951 года, специализируется на англоязычной литературе и устраивает книжный фестиваль раз в 2 года. Молодым писателям разрешают работать и, если нужно, даже жить. Именно для этого на последнем этаже стоят 13 кроватей. Еще 9 магазинов, в которые должен зайти каждый, кто умеет читать, — в специальном обзоре T&P.

Кроме науки и работы я стараюсь посвящать достаточно времени чему-то из области искусства и творчества. Я очень люблю музыку: ездил осенью на большой фестиваль электронной музыки в Польшу. Страшно понравилось — следующим летом обязательно поеду в Барселону — там один из самых крупных фестивалей современной электронной музыки проходит. Пытаюсь сам сочинять, записывать.

Я очень полюбил читать. Почему-то раньше без особого удовольствия проглатывал книги, а сейчас читаю много и разной литературы. Очень воодушевляют книги больших ученых или книги о них. Люблю читать мысли людей, которые открыли что-то большое и новое. Особенно люблю все связанное с физиком Ричардом Фейнманом. Есть такая отличная книга — «Вы, конечно, шутите, мистер Фейнман». Потрясающий был человек и ученый. Играл на бразильских барабанах, получил Нобелевскую премию по физике, много путешествовал, откалывал отличные шуточки. Почитайте книгу — будете громко смеяться. Еще у него есть отличный курс лекций по теоретической физике для «чайников» (написанного Фейнманом по мотивам его настоящего большого полноценного курса).

Сейчас я читаю Марселя Пруста «В поисках утраченного времени». Параллельно читаю «Одинокий странник» Керуака на английском — купил в отличном книжном магазине Shakespeare&Co в Париже. Будете неподалеку — обязательно зайдите!

Комментарии

Илья,я учусь на втором курсе Физтеха,меня во всю захватили AI и machine learning,прохожу Стэнфордские курсы по ним, и меня,конечно же,интересует ваш предстоящий курс на Физтехе.Когда вы планируете его проаести?будет в виде техкурса по выбору?
Можно как-то выйти с вами на связь?Есть очень много вопросов и совсем мало людей вокруг,с которыми можно о них поговорить)

Никита, со мной можно легко выйти на связь - я пошлю сейчас вам свое мыло в личке. По поводу курса, о котором вы говорите - вы, видимо, что-то не так поняли. Я вот прямо сейчас веду семинары на физтехе. На кафедре АТП ФИВТ МФТИ. Готовлю я курс на ВМиК - но он еще в далеких планах.
Зря вы считаете, что не с кем поговорить и обсудить - у нас в городе (да и в стране) много специалистов. На физтехе есть кафедра «Интеллектуальные системы», на ВМиК - «Математические Методы Прогнозирования». На двух этих кафедрах сильно пересекается преподавательский состав, а курс Машинного обучения (если я не ошибаюсь и это все еще так) ведет один и тот же человек - по совместительству он же мой научный руководитель - Воронцов Константин Вячеславович.
Очень рекомендую сайт machinelearning.ru - найдете много полезного, если интересуетесь.

Никита, напишите мне через www.MachineLearning.ru (Участник:Vokov), хотели бы вы перевестись на нашу кафедру «Интеллектуальные системы» ФУПМ МФТИ, и какие у Вас есть успехи в учёбе.

Здравствуйте. Мне интересна рассматриваемая тема и у меня много вопросов, но возможности посетить ваши лекции нет - далеко. В предложенном сайте machinelearning.ru, несколько растерялась не могли бы вы скорректировать мои действия.

Здравствуйте, а вы прочитали/посмотрели все, что висит в качестве допматериалов в анонсе? Прочитайте их сначала, потом мы вам еще пару статей пришлем.

сайт machinelearning.ru - это как википедийного вида ресурс о машинном обучении. Так что, видимо, надо знать, что искать. Вообще - вот самый полный (на мой взгляд) и глубокий курс машинного обучения на русском языке: http://tinyurl.com/bm7sr2f
НО: там Математика, математика и много математики.

Я люблю грибы кушать и лес рядом. Но, человек я не решительный и, найдя гриб, очень мучаюсь и сомневаюсь - не отравлюсь ли?!
Илья! Когда же на ВМиК МГУ будет сделана программа, которая обучается узнавать грибы?! Ведь очень актуально для России!
Мечтается так - поднес к камере ноута с десяток грибов каждого вида и с помощью опытного грибника дал указания – этот десяток кушать можно, это опятки, а вот этот десяток – все поганки, их кушать нельзя.
Компьютер бы обучился на этих то пресидентах, и когда б ему поднесли грибок, в котором ежели сомневаются, он бы предостерег скушать ядовитый.
Я часто с надеждой захожу на сайт machinelearning.ru. Однако, совершенно не могу понять – где ж там толкуют про то, как устроить такое то вот обучение?
Математики на том сайте, конечно грамотные, и к ним не придерешься. Они хорошо (и чувствуется не без удовольствия) решают задачи про обучение, но в заранее удобном для красивых рассуждений пространстве, и теоремки доказывают о том, как в оном пространстве параметры пооптимальней вычислисляются. Безусловно, всё исключительно в рамках, освещенного авторитетом заведующего кафедрой, набора моделей и эвристик.
Только как от картинок с грибками добраться до точек в тех чудных пространствах? Про то не пишут.
Грустно.
Кажется, что последние три поколения (я Вас посчитал) создателей обучающихся машин дружно бросили делать какие либо попытки оторваться от собственных фантазий и, наконец, спуститься в «пространство среднерусской возвышенности». Последнею попытку, не особо впечатляющую, но, по крайней мере, честную, думается, сделал Бонгард в 1967-м?

Toss, пора прощаться со стереотипом, что математики - замшелые личности, оторвавшиеся от жизни. Задачи типа вашей, от распознавания личности по фотографии до понимания естественного языка, во всём мире пытаются решать десятки тысяч людей. Вашу задачу точно решают (за полчаса вполне реально загуглить статьи об этом с самых последних конференций, если знать правильную английскую терминологию). Увы, нужного качества добиться очень трудно в таких сложных задачках... А в случае с грибами риск очень велик. Кто будет нести отвественность за отравление — разработчик системы или пользователь? Захочет ли хоть кто-то пользоваться такой системой, если ему честно скажут, что вероятность ошибки 1%? Это, между прочим, довольно оптимистичная оценка качества распознавания для данной задачи. Представляете: Вы нашли 100 грибов, из них почти с гарантией один ядовитый... будете суп варить? или с лучком да с картошечкой...

Не буду лукавить, в обиде я на Вас Константин Вячеславович.
Я считаю, что есть грех недосказанности за Вами, а для учителя это не малый грех.
Но, в начале, скажу, что читаемые Вами курсы, на мой взгляд, Великолепны.
Давно, так же, слежу за Вашими научными трудами. И думаю, в области осмысления проблемы «предрассудков» Вы впереди планеты всей.
Но, как мне кажется, есть одна однобокость!
И эта однобокость, кажется какой-то «родовой», исторически сложившейся.
Лукавство в терминах.
В машинном обучении и алгоритм не алгоритм и обучение, на самом деле, не обучение!
Мы, конечно, математики, как определим, так и поплывем.
Но, с Таким (http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5) определением, изначально акватория очень ограничена.
Молодежь, же в просторы рвется.
И, как оно со стороны выглядит?
Вы очень не акцентируете внимание, что курс Ваш, не совсем про обучение, он про «машинное обучение». И для основной массы жизненных применений, следовало приложить бы иную теорию, которой Вы не касаетесь. Понятно почему, на самом деле, такой теории пока нет, и, вроде, чего её касаться то? Эту отсутствующею теорию «настоящего обучения» (один умный дядька недавно назвал её «сильным обучением») Вы, особо пытливых, призываете заменить своей фантазией, знаниями прикладной области, эвристиками и пр. шаманством. Но, кто-то мудрый сказал - настоящий учитель должен начинать обучение с того, чтобы дать представление ученику о ещё нерешенных проблемах.
На самом деле, всё что вы сваливаете в кучу «шаманства», прежде всего, отражение неразвитости теории обучения, причем, эта теория чисто математическая.

Уважаемый Toss, не хотелось бы тратить время и энергию на схоластику и терминологические споры. Можете ли Вы дать конструктивное определение «настоящего» или „сильного“ обучения? „Конструктивное“ — означает пригодное для инженерного воплощения. Обучается всё-таки вычислительная машина, а не человек, и требовать от компьютера чего-либо кроме вычислений, нельзя (на текущем уровне развития технологий). Как бы Вы предложили свести «настоящее» обучение к вычислению? Возможно ли дать компьютеру представление о нерешённых проблемах? Это ровно тот барьер, о который разбились мечты об искусственном интеллекте. Чтобы машина приблизилась к человеку по способности понимать окружающий мир, в неё надо загрузить море информации в виде, удобном для формальной обработки (хотя бы для логического вывода). Этой задачей занимаются во всём мире, но налёт романтизма с неё сошёл. Это годы кропотливого труда миллионов исследователей. Типа как до альфы-Центавры долететь. Мечтать и словеса говорить легко, а технологию построить пока не получается.

Если бы я мог дать «конструктивное» определение обучения, я бы не призывал о нем задуматься, молодых людей, описывая «проблему грибника».
Но, при этом я очень далек от призывов заниматься Искусственным Интеллектом. Достижение интеллекта курицы было бы, на мой взгляд, впечатляющим результатом. Ставить цель приблизится к способностям человека, загружать море информации и пр., честно говоря, в голову никогда не приходило!
Есть нерешенные задачи, относящиеся к «сильному обучению», которые могут показаться «схематичными», не имеющими связи с практикой и миром. Например, Тесты Бонгарда. Можно, наверное, придумать, «суперпримитивные» тесты в стиле Бонгарда, решение которых, тем не менее, на нынешнем этапе «машинного обучения», придется долго вручную программировать.
Молодым людям, как мне кажется, вполне можно указать, что есть вероятность существования теории обучения, которая исключает такой «ручной труд». И если кто создаст такую теорию, то, оное юное создание наверняка cможет победить в конкурсе на взлом «капчей» :).

Вся прелесть тестов Бонгарда в том, что они кажутся простыми и естественными, но чтобы их разгадывать, нужно то самое море информации об окружающем мире, которое есть в наших мозгах, но мы к нему привыкли и потому не замечаем.

Можно научить программу выделять и различать геометрические фигуры, распознавать заранее заданные формы, отличать левее-правее, выше-ниже, больше-меньше. В некоторых вузах студенты программируют такие учебные задачки в курсах вычислительной геометрии или распознавания образов. После того, как изображение описано в терминах фигур и отношений между ними, можно применить методы машинного обучения (т.н. синтез логических правил или Rule Induction) и найти закономерности. Однако это не решает задачу, т.к. тут же приходит человек и рисует тест, в котором надо отличить мальчика от девочки, а о таких геометрических фигурах программа ничего не знала. Более того, это не просто фигуры, а легко узнаваемые схематичные изображения — карикатуры мальчика и девочки, и программа должна знать, как их обычно рисуют в детских книжках... Или пример попроще: надо отличить штриховку от просто линий. Мы знаем, что такое «штриховка», а компьютеру откуда знать?

Построить „сильное обучение“, наверное, можно. Но это не теория, а тяжёлый инженерный труд многих специалистов. Говорят, что когда число нейронов в искусственных нейронных сетях смогут довести до человеческой величины (100 миллиардов), эта штуковина сможет обучаться чему угодно. Подключаем к ней побольше видеокамер, микрофонов, тактильных датчиков, ставим для простоты на колёса, делам побольше манипуляторов — пусть ездит, хватает всё подряд, разглядывает, изучает. Цель познания надо задать, иначе будет стоять на месте. Инстинкт самосохранения и некоторый аналог боли тоже необходим. Да, и ограничения какие-то — чтобы оно не разнесло всё вокруг... Воспитывать такое дитя — задача гораздо более сложная, чем весёлая.

Правильно ли я понял Вашу идею «сильного обучения»?
Кстати, в этом направлении движутся и в робототехнике, и в машинном обучении. Есть направления Active Learning и Reinforcement Learning, которыми много занимаются в мире, и очень мало в России.

Спасибо огромное, за Ваше внимание к моим текстам здесь.
Я очень польщён. Но, я должным образом смогу обдумать и написать ответ только в понедельник. Извините.

да, и

«Сильное обучение» – это тяжелый инженерный труд.
Было время, я тоже так думал. Молодой был, горячий, всё по плечу.
Вот именно в такой период надо чтобы учитель хороший попался.
Мой учитель, Петров А.П., учил - «Допустим, в списке навигационных команд роботу (мы тогда делали наш очередной советский робот) есть такая – объедешь стул справа. Чтобы её исполнить, робот должен узнать стул. Ты, думаешь, что можешь запрограммировать отличение стула, например, от табуретки, сначала узнавая ножки, сиденье и пр., затем проверяя целостность конструкции. Так вот, я попытаюсь тебя предостеречь. Многие понятия - стул, тарелка, повар (разговор был в столовой) и пр., по большей части связаны с определенным способом удовлетворения, какого либо базового человеческого «хочу». Например, у человека есть желание отдохнуть. Есть несколько способов сделать это с разной степенью эффективности – полежать, посидеть и пр.. Посидеть можно опять же по-разному – опираясь спиной и не опираясь спиной. Так вот, стул, это всё то, на чём один человек может посидеть, опираясь спиной и не рискуя свалиться. И тот объект не стул, который не обеспечивает удовлетворения этой потребности. А теперь подумай, как можно запрограммировать распознавание стула?»
После долгих раздумий, я пришел к мысли, что распознавание стула никак нельзя запрограммировать! Ибо такое программирование - это не инженерный труд, это мазохизм.
А по тому, вернёмся к тестам Бонгарда.
Вы, конечно, правы, писать программу-разгадывалку большинства тестов Бодгарда, по большей части колоссальный труд. Разгадывание некоторых тестов предполагает огромный объем знаний о мире. Хороший пример с мальчиком и девочкой. Мальчики носят короткие штанишки, а девочки юбки, у девочек есть косички с бантиками и манжетки на рукавах и пр. и пр., а чтобы найти все эти элементы на изображении, необходимо научится сначала находить голову, руки, ноги. И это всё, желательно, во всех ракурсах. Текст такой программы, если взяться за её написание, будет невероятной длинны, и распознавание, никогда не приблизится по качеству к человеческому.
Но, бывают и другие тесты Бонгарда.
Допустим, на изображении есть всего три точки. К одному классу мы отнесём изображения, где точки лежат на одной прямой, к другому классу – изображения с тремя точками не лежащими на одной прямой. Обучение компьютера узнаванию этих двух классов задача для восьмиклассника. Программа будет короткой и совершенно точной.
Но, будет ли это программистское творчество иметь отношение к обучению?
Конечно, нет! Ведь не были применены методы «машинного обучения»! ( Простите не удержался)
Под термином «сильное обучение», я, скорее, понимаю этакое «даосское недеяние». Ничего не программировать (кроме, собственно, алгоритма обучения), а только примеры демонстрировать, чего надемонстрируешь тому и обучится. И бог с ними, с мальчиками, девочками.
С тремя пятнышками бы разобраться!

Путь в тысячу ли начинается с первого шага.
И под первым шагом, возможно, следует понимать, куда как более простые структуры, чем изображения с тремя пятнами.
А неудовлетворенные инстинкты, радости или боли, это всего лишь пиксели в уголочке изображения.

и

В лекции было упомянуто deep learning. Общие слова из беглого ознакомления показались интересными.
Не могли бы Вы сказать пару слов об этом направлении?

Спасибо, интересная статья!
«Вы, конечно, шутите, мистер Фейнман» - как раз читаю её сейчас на английском! “Surely you are joking mister Feynman”. приду к вам завтра на лекцию! предвкушаю что-то очень интересное.

Илья, я с группой единомышленников буквально на этой неделе открыл вики для создания концепции open source поисковика - yoopus.com.
Суть в том, чтобы сделать нечто среднее между google и wikipedia для выдачи наиболее актуальной и интересной информации.
Из-за сложности задачи было решено привлечь как можно больше интересующихся людей и получить обсуждение методов которыми можно поднять такой проект. А в последствии и реализовать общими силами.
Было бы очень интересно послушать ваш комментарий на тему такой затеи и получить наводки на соответствующую литературу.

Послал вам адрес моего ящика.

To Toss
Это как раз, наверное, легко - обучить машину спектральному анализу(спектру) запаха от грибов ))) Тупой перебор из имеющегося и сравниваемого. Достаточно иметь хороший анализатор воздуха ;)))

P.S.
А вообще, интересный сайт. Зарегился.

P.P.S.
Буду следить за работами Ильи - интересная и нужная тема. Только, сдается мне, Илья, что современными методами подхода к проблеме - вы долго будете идти к идеалу обучающихся систем - самообучающимся..

а так же

To Toss
Это как раз, наверное, легко - обучить машину спектральному анализу(спектру) запаха от грибов ))) Тупой перебор из имеющегося и сравниваемого. Достаточно иметь хороший анализатор воздуха ;)))

P.S.
А вообще, интересный сайт. Зарегился.

P.P.S.
Буду следить за работами Ильи - интересная и нужная тема. Только, сдается мне, Илья, что современными методами подхода к проблеме - вы долго будете идти к идеалу обучающихся систем - самообучающимся..

спасибо за рекомендацию книги Фейнмана, читаю сейчас и очень нравится.
Купила ее в бумажном варианте для дедушки, надеюсь и ему понравится.

ага, Фейнман крут.. веет позитивом, радостью жизни... класс.

To vokov

А я с вами не соглашусь ))
Обучаться - даже люди толком не способны. Как вы собираетесь придумывать алгоритм обучения машины, если сами люди толком на это не способны ? ))

К тому же, природа человека такова, что быстрее машина научится думать, чем люди научатся.

И наконец, на современном этапе, по способности понимать окружающий мир люди не далеко ушли от машин. Оба пока что - туповаты )))

А если серьезно, создание ИИ, или, как вариант, экспертных систем ( ЭС ) более-менее приличного уровня, это проблема не только математики. И даже не столько математики.
Вы исходите из того что уже все знаете о человеке. С чем я не могу согласится. Мы даже не знаем как проиходит процесс мышления.
Поэтому система обучения как таковая, в том числе обучение машин, - это не только задачи математики. Я бы сказал что более значимым в этом деле будут философы и психологи.
В современном мире очень много информации/знаний. Но людьми оно не осознано. Мы похожи на студентов во времена союза на картошке - собрали картошку и сдали. А дальше не наше дело.
А дело - наше. И то что мы собрали - надо исследовать, понять.

и еще

и вообще, создание ИИ - это коллективная работа и математиков, и физиков, и психологов, и философов, и биологов, и еще кучи других специальностей.
самое интересное - всегда находится на стыках наук.
а мы самонадеянно думаем что сможем в одиночку(в одной профессии) придумать что-то толковое.
Голем поддастся либо одному человеку-одиночке, либо всем сразу )))

OpenVMS:
А я с Вами во многом согласен.

Я и не говорил, что люди идеально обучаются. Но как-то ведь обучаются, в меру сил, решая ограниченный круг задач, и допуская кучу ошибок.
Также и компьютеры способны обучаться, но другому узкому кругу задач, и также делают ошибки. У компьютера есть преимущества перед человеком - большая точная память и способность вычислять, преимущества человека - большая неточная память и способность находить аналогии. Отсюда и различия в сферах применимости. Человек лучше ориентируется в пространстве с огромным количество разных предметов, а для машины это пока как до альфы-Центавры долететь. Зато линейный классификатор, обученный за секунду по многотысячной выборке, решает задачу о выдаче кредитов лучше (и главное быстрее), чем кредитный аналитик, которого учили несколько лет.

Я и не говорил, что всё знаю о человеке. Уверяю, ни один учёный не позволит себе такого высказывания. Задача воспроизведения мышления человека в вычислительной машине на сегодня — это тема фундаментальных исследований, пока что с весьма неясными перспективами. Кстати, очень здорово, что есть энтузиасты, согласные положить на это свою жизнь. А пока нет конкретных результатов, проблему много обсуждают те, кому проще слова говорить, чем роботов конструировать.

В то же время, есть тысячи профессиональных проблем в самых разных областях человеческой деятельности, которые успешно решаются математическими методами. Эти методы принято называть «обучением машин» (Machine Learning). Действительно, алгоритму обучения показывают наблюдавшиеся прецеденты, он по ним строит правило принятия решений. Если Вам кажется, что это на самом деле никакое не обучение, и сам термин оскорбителен для человечества, то... остаётся только научиться быть терпимее к сложившейся в мире терминологии. Суть-то не в терминах, а в конкретной работе.

Про картошку — тоже с Вами согласен. Эти беды — от невежества и лени, с ними надо бороться, каждому — начиная с себя.

да нет, я не оскорбляюсь )) я могу понять что это - терминология )) нет проблем, как говорится.
я хотел сместить немного подход. подход к самому процессу обучения.
я хотел сказать, что если чистая математика может привести только к такой же чистой математике, то не стоит ли нам привлечь/использовать/дополнить парадигму обучения такими дисциплинами как философия/психология/психоанализ.
я могу ошибаться, но мне неизвестны математические модели мышления в психологии и философии.
так как мы можем сделать обратное ? )) на основе чего ?
я сам ITшник, сисадмин. и интереса ради набросал небольшую блок-схему, эскиз к алгоритму ИИ. даже беглый анализ этой простой схемы привел к пессимистичным результатам.
во-первых, чтобы система стала хоть как-то корректно обрабатывать входные данные, необходимо громадное количество информации на предварительное обучение. обратное следствие этого - какой объем информации способен хранить человек ? даже трудно представить..
во-вторых, сам алгоритм поиска информации. один из ключевых вопросов.
небольшое отступление.
вы никогда не общались с программами-поделками ИИ, которые есть в интернете ? или с ботами в чатах ? а я общался )) и заметил одно важное, на мой взгляд, свойство всех этих ботов - они теряют «нить разговора». по прошествии времени, причем, небольшого, разговор невозможно вернуть к какому-то этапу. потому что боты этого не умеют.
для этого надо, во-первых, ПОМНИТЬ об этом; во-вторых, НАДО УМЕТЬ вернуться.
как-то столкнулся в литературе про лабиринтную можель Соболева. Мне кажется это именно то, что нужно.
А вот самалгоритм - это аналогии.
Вот вы говорите, что используется прецедент, и на основе этого строится правило принятия решений.
Но ведь решение можно принять и без прецедентов. Прецедент - это прецедент для машины. Но он не обязательно может быть таковым для человека. И тем не менее, используя, сподручные, как говрится, материалы (информацию, методы) - тоже можно прийти к интересным результатам.

Я бы выделил два подхода, в связи с этим:
1. математическая. мне кажется этот путь длиннее. ибо чисто математически +/- трудно будет получить что-то анализирующее.
чтобы этот метод работал нужны будут и не менее производительные вычислительные мощности. которых можети не хватить.
2. комплексный. не ограничиваясь математикой, включить в исследования другие дисциплины, особенно психологию, биологию, динамику больших систем. и еще кучу других.
этот подход быстрее и проще(как не покажется). потому что в плане реализации, несклько больших кусков смогут эффективнее использовать аппаратуру, чем один здоровый и однобокий.
поясню, на примере одной компьютерной архитектуры. Amiga.
разделение видео, звука и системы по отдельным платам привело к тому 14ти мегагерцовый мотороловский процессор был по ПРОИЗВОДИТЕЛЬНОСТИ равен 600-МГц селерону.
может и не совсем корректный пример )))
но не проще ли подходить к обучению с разных сторон одновременно, чем пытаться все восстоновить путем математическим «обсчетом» ?

*восстановить путем математического «обсчета»*

очепятки, очепятки ))

Может пригодится?

Название: Encyclopedia of Machine Learning
Издательство: Springеr
Автор: Claude Sammut, Geoffrey I. Webb
Год: 2011
Количество страниц: 1032

свободно скачивается отсюда:
mirknig.com/knigi/nauka_ucheba/118136963...achine-learning.html

Комментировать