Хотя ни один подобный список не может быть исчерпывающим, за последний год редакторы журнала Nature опросили десятки исследователей, чтобы составить разнообразный список из десяти программных инструментов, которые оказали наибольшее влияние на мир науки. Публикуем перевод большой статьи, посвященной этим открытиям.

В 2019 году команда проекта «Телескоп горизонта событий» (англ. Event Horizon Telescope) впервые дала миру представление о том, как на самом деле выглядит черная дыра. Но изображение светящегося объекта в форме кольца, которое представила группа исследователей, не было обычной фотографией: оно было вычислено с помощью математического преобразования данных, полученных радиотелескопами в США, Мексике, Чили, Испании и на Южном полюсе.The Event Horizon Telescope Collaboration et al. Astrophys. J. Lett. 875, L1 (2019). Команда выпустила использованный ими программный код вместе со статьями, в которых были задокументированы их результаты, чтобы научное сообщество могло изучить (и развить дальше) то, что уже было сделано.

От астрономии до зоологии, за всеми великими научными открытиями современности стоит компьютер. Майкл Левитт, биофизик из Стэнфордского университета в Калифорнии, получивший часть Нобелевской премии по химии 2013 года за свою работу над вычислительными стратегиями моделирования химической структуры, отмечает, что современные ноутбуки имеют примерно в 10 000 раз больше памяти и более высокую тактовую частоту, чем имел его лабораторный компьютер в далеком 1967 году, когда Майкл только начал свою работу, впоследствии отмеченную наградами. «Сегодня в наших руках находится действительно феноменальное количество вычислительной мощности, — говорит он. — Проблема в том, что она все еще требует размышлений».

Мощный компьютер бесполезен без программного обеспечения, способного решать исследовательские вопросы, и без исследователей, которые знают, как его писать и использовать. «В настоящее время исследования фундаментально связаны с программным обеспечением, — говорит Нил Чу Хонг, директор Института устойчивого развития программного обеспечения в Великобритании, организации, занимающейся улучшением его разработки и использования в науке. — Оно пронизывает каждый их аспект».

Научные открытия по праву занимают верхние строчки в СМИ, но на этот раз мы заглянем за кулисы и посмотрим на ключевые фрагменты кодов, которые изменили исследования в последние несколько десятилетий. […]

Пионер языка: компилятор Фортрана (1957 г.)

Первые современные компьютеры не были удобными для пользователя: программирование осуществлялось фактически вручную, путем соединения групп схем с помощью проводов. Появившиеся впоследствии машинные языки и языки ассемблера позволили пользователям программировать с помощью кода, но и те и другие по-прежнему требовали глубокого знания архитектуры компьютера, что делало их недоступными для многих ученых.

Ситуация изменилась в 1950-х годах одновременно с развитием символических языков — в частности, языка Фортран, разработанного Джоном Бэкусом и его командой в IBM в Сан-Хосе (Калифорния). Используя Фортран, пользователи могли программировать компьютеры с помощью удобочитаемых инструкций вроде x = 3 + 5, после чего компилятор превращал эти указания в быстрый и эффективный машинный код.

Этот компьютер CDC 3600, доставленный в 19...

Этот компьютер CDC 3600, доставленный в 1963 году в Национальный центр атмосферных исследований в Боулдере (штат Колорадо), был запрограммирован с помощью компилятора Фортран. Источник фото: University Corporation for Atmospheric Research / Science Photo Library

Конечно, такое программирование все еще не было простым: тогда программисты использовали для ввода кода перфокарты, а сложное моделирование могло требовать их в количестве десятков тысяч. Тем не менее, говорит Сюкуро Манабе, климатолог из Принстонского университета в Нью-Джерси, Фортран сделал программирование доступным для исследователей, которые не были компьютерными специалистами. «Впервые мы смогли самостоятельно запрограммировать [компьютер]», — говорит Манабе. Он и его коллеги использовали этот язык для разработки одной из первых успешных моделей климата.

Сейчас, на восьмом десятилетии своего существования, Фортран по-прежнему широко используется в моделировании климата, гидродинамике, вычислительной химии — любой дисциплине, которая включает сложную линейную алгебру и требует мощных компьютеров для быстрого извлечения чисел. […] Базы старого кода Фортран все еще живы и работают в лабораториях и на суперкомпьютерах по всему миру. «Программисты того времени знали, что они делают, — говорит Фрэнк Хиральдо, прикладной математик и разработчик климатических моделей из Военно-морской аспирантуры в Монтерее, Калифорния. — Они очень внимательно относились к памяти, потому что ее было крайне мало».

Обработчик сигналов: быстрое преобразование Фурье (1965 г.)

Когда радиоастрономы изучают небо, они улавливают какофонию сложных сигналов, меняющихся со временем. Чтобы понять природу этих радиоволн, им нужно видеть, как эти сигналы выглядят в зависимости от их частоты. Математический процесс, называемый преобразованием Фурье, позволяет исследователям делать это — проблема в том, что он неэффективен и требует N2 вычислений для сбора данных размера N.

В 1965 году американские математики Джеймс Кули и Джон Тьюки разработали способ ускорить этот процесс. Используя рекурсию (подход к программированию, при котором алгоритм многократно применяется повторно), быстрое преобразование Фурье (БПФ) упрощает задачу обычного вычисления преобразования Фурье до всего лишь N log2(N) шагов. Скорость увеличивается с ростом N: для 1000 единиц скорость увеличивается примерно в 100 раз; для 1 миллиона — в 50 000 раз.

Данное открытие на самом деле было повторным: немецкий математик Карл Фридрих Гаусс разработал его еще в 1805 году, но так и не опубликовал, говорит Ник Трефетен, математик из Оксфордского университета (Великобритания). Но Кули и Тьюки сделали это, открыв новые возможности в области цифровой обработки сигналов, анализа изображений, структурной биологии и многих других. «Это, действительно, одно из величайших событий в прикладной математике и инженерии», — говорит Трефетен. […]

Ночной вид части Murchison Widefield Array, рад...

Ночной вид части Murchison Widefield Array, радиотелескопа в Западной Австралии, который использует быстрые преобразования Фурье для сбора данных. Источник фото: John Goldsmith / Celestial Visions

Пол Адамс, который руководит отделом молекулярной биофизики и комплексной биовизуализации в Национальной лаборатории Лоуренса Беркли в Калифорнии, вспоминает, что, когда он уточнил структуру бактериального белка GroEL в 1995 году,Braig, K., Adams, P. D. & Brünger, A.T. Nature Struct. Biol. 2, 1083–1094 (1995). расчет занял «много-много часов, если не дней», даже с БПФ и суперкомпьютером. «Попытайся мы сделать это без БПФ, это заняло бы вечность», — говорит он.

Молекулярные каталогизаторы: биологические базы данных (1965 г.)

Сегодня базы данных являются настолько неотъемлемым компонентом научных исследований, что можно легко упустить из виду тот факт, что они управляются программным обеспечением. За последние несколько десятилетий эти ресурсы резко увеличились в размерах и сформировали многие области исследований, но, возможно, нигде эта трансформация не была более драматичной, чем в биологии.

Сегодняшние огромные базы данных по геномам и белкам уходят своими корнями в работу Маргарет Дейхофф, пионера биоинформатики из Национального фонда биомедицинских исследований в Силвер-Спринг (штат Мэриленд). В начале 1960-х, когда биологи пытались разобрать аминокислотные последовательности белков, Дейхофф начала собирать эту информацию в поисках ключей к разгадке эволюционных отношений между различными видами. Ее «Атлас последовательности и структуры белков», впервые опубликованный в 1965 году вместе с тремя соавторами, описывает все то, что на тот момент было известно о последовательностях, структурах и сходствах 65 белков. Эта работа была первым сборником, который «не был привязан к конкретному исследовательскому вопросу», писал историк Бруно Штрассер в 2010 году.Strasser, B. J.J. Hist. Biol. 43, 623–660 (2010). Данные этого сборника были закодированы в перфокартах, что позволило расширять базу в дальнейшем и выполнять поиск по ней.

Затем последовали другие компьютеризированные биологические базы данных: так, Protein Data Bank, PDB, который сегодня содержит более 170 000 макромолекулярных структур, был запущен в 1971 году. Рассел Дулиттл, биолог-эволюционист из Калифорнийского университета в Сан-Диего, в 1981 году создал еще одну базу данных белков под названием Newat, а в 1982 году свет увидела база данных, которая впоследствии превратится в GenBank, архив ДНК, поддерживаемый Национальным институтом здравоохранения США.

Protein Data Bank — это архив более 170 00...

Protein Data Bank — это архив более 170 000 молекулярных структур, включая эту, которая объединяет процессы синтеза РНК и белка. Источник изображения: David S. Goodsell и RCSB PDB (CC BY 4.0)

Подобные ресурсы доказали свою ценность в июле 1983 года, когда отдельные группы (одна — под руководством Майкла Уотерфилда, белкового биохимика из Имперского фонда исследований рака в Лондоне, и вторая — под руководством Дулиттла) независимо друг от друга сообщили о сходстве между последовательностями конкретного фактора роста человека и белка в вирусе, вызывающем рак у обезьян. Наблюдение позволило предположить вирусный механизм онкогенеза, который, имитируя фактор роста, вызывает неконтролируемый рост клеток.Newmark, P. Nature 304, 108 (1983). «Это вызвало интерес некоторых биологов, которые до тех пор не интересовались компьютерами и статистикой, — говорит Джеймс Остелл, бывший директор Национального центра биотехнологической информации США (NCBI). — Оказывается, мы можем кое-что понять о раке, сравнив последовательности».

Помимо этого, по словам Остелла, открытие ознаменовало «появление объективной биологии». Кроме разработки экспериментов для проверки конкретных гипотез, исследователи получили возможность анализировать общедоступные наборы данных для поиска связей, которые могли и вовсе не возникать у тех, кто действительно собирал эти данные изначально. Возможности резко возрастают, когда различные наборы данных связываются воедино, чего программисты NCBI достигли в 1991 году с помощью Entrez, инструмента, который позволяет исследователям легко переключаться между ДНК, белком и научной литературой.

Стивен Шерри, нынешний исполняющий обязанности директора NCBI в Бетесде (штат Мэриленд), использовал Entrez как аспиранта. «Помню, в то время я думал, что это волшебство», — говорит он.

Лидер прогнозов: модель общей циркуляции (1969 г.)

В конце Второй мировой войны компьютерный пионер Джон фон Нейман начал преобразовывать компьютеры, которые несколькими годами ранее вычисляли баллистические траектории и конструкции оружия, для решения проблемы предсказания погоды. До этого момента, объясняет Манабе, «прогноз погоды был эмпирическим»: ученые использовали опыт и догадки, чтобы предсказать, что будет дальше. Команда фон Неймана, напротив, «пыталась сформировать численные прогнозы погоды, опираясь на законы физики».

Используемые ими уравнения «были известны в течение десятилетий», говорит Венкатрамани Баладжи, руководитель отдела систем моделирования в лаборатории геофизической гидродинамики Национального управления океанографии и атмосферы в Принстоне (штат Нью-Джерси). Но первые метеорологи не могли решить их практически: для этого требовалось ввести текущие условия, рассчитать, как они будут меняться за короткий период времени, и повторить процесс — дело настолько трудоемкое, что математические вычисления не могли быть выполнены к моменту непосредственного наступления той самой погоды, которая предсказывалась. В 1922 году математик Льюис Фрай Ричардсон потратил месяцы на создание шестичасового прогноза для Мюнхена (Германия). Согласно одной из историй, его результат оказался «совершенно неточным» и включал предсказания, которые «не могли бы произойти ни при каких известных земных условиях». Компьютеры сделали эту проблему решаемой.

В конце 1940-х фон Нейман основал свою группу прогнозирования погоды в Институте перспективных исследований в Принстоне. В 1955 году вторая группа — лаборатория геофизической гидродинамики — начала работу над тем, что он назвал «бесконечным прогнозом», то есть моделированием климата. Манабе, который присоединился к группе моделирования климата в 1958 году, приступил к работе над атмосферными моделями; его коллега Кирк Брайан разрабатывал их для океана. В 1969 году они успешно объединили результаты своей работы, создав то, что в 2006 году Nature назвал «крупной вехой» в научных вычислениях.

Современные модели могут разделить поверхность планеты на квадраты размером 25 × 25 километров, а атмосферу — на десятки уровней. В комбинированной модели океана и атмосферы Манабе и БрайанаManabe, S. & Bryan, K.J. Atmos. Sci. 26, 786–789 (1969). использовались квадраты площадью 500 км и 9 уровней, и она покрывала только одну шестую часть земного шара. Тем не менее, по словам Баладжи, «эта модель прекрасно выполнила свою работу», позволив команде впервые испытать влияние повышения уровня двуокиси углерода с помощью компьютерной симуляции.

Обработчик чисел: BLAS (1979 г.)

Научные вычисления обычно включают относительно простые математические операции с использованием векторов и матриц. Просто их много, и еще в 1970-х годах не существовало универсально согласованного набора вычислительных инструментов для выполнения таких операций. В результате программисты, работающие в сфере науки, тратили свое время на разработку эффективного кода для выполнения основных математических задач, а не на то, чтобы сосредоточиться на научных вопросах.

Мир программирования нуждался в появлении стандарта, и в 1979 году он его получил — базовые подпрограммы линейной алгебры, или BLAS.Lawson, C. L., Hanson, R. J., Kincaid, D. R. & Krogh, F. T. ACM Trans. Math. Software 5, 308–323 (1979). Этот стандарт, который продолжал развиваться до 1990 года, определил десятки фундаментальных процедур для векторной, а затем и матричной математики. Фактически BLAS свел матричную и векторную математику к базовой единице вычислений, «столь же фундаментальной, как сложение и вычитание», говорит Джек Донгарра, компьютерный ученый из Университета Теннесси в Ноксвилле, который был членом группы разработчиков BLAS.

Суперкомпьютер Cray-1: до того, как в...

Суперкомпьютер Cray-1: до того, как в 1979 году был представлен инструмент программирования BLAS, стандарта линейной алгебры для исследователей, работающих с такими машинами, как суперкомпьютер Cray-1 в Ливерморской национальной лаборатории Лоуренса в Калифорнии, просто не существовало. Источник фото: Science History Images / Alamy

По словам Роберта ван де Гейна, специалиста по информатике из Техасского университета в Остине, BLAS был, «вероятно, наиболее важным интерфейсом научных вычислений». Помимо предоставления стандартных имен для общих функций, теперь исследователи могли быть уверены, что код на основе BLAS будет одинаково работать на любом компьютере. Стандарт также позволил производителям компьютеров оптимизировать реализации BLAS для быстрой работы на своем оборудовании.

Спустя более 40 лет BLAS представляет собой сердце научного вычислительного стека — это код, который заставляет научное программное обеспечение работать. Лорена Барба, инженер-механик и аэрокосмический инженер из Университета Джорджа Вашингтона в Вашингтоне (округ Колумбия), называет его «механизмом внутри пяти слоев кода». По словам Донгарры, «он обеспечивает основу, на которой мы выполняем вычисления».

Must-have микроскопии: NIH Image (1987 г.)

В начале 1980-х программист Уэйн Расбанд работал с лабораторией визуализации мозга в Национальном институте здравоохранения США в Бетесде (штат Мэриленд). У команды был сканер для оцифровки рентгеновских снимков, но не было возможности отобразить или проанализировать их на компьютере. Расбанд написал соответствующую программу.

Программа была специально разработана для миникомпьютера PDP-11 стоимостью 150 000 долларов США — монтируемого в специальную стойку, явно неперсонального компьютера. Затем, в 1987 году, Apple выпустила свой Macintosh II, более удобный и гораздо более доступный вариант. «Мне казалось очевидным, что как своего рода лабораторная система анализа изображений это будет работать намного лучше», — говорит Расбанд. В итоге он перенес свое программное обеспечение на новую платформу и провел ребрендинг, заложив экосистему анализа изображений.

NIH Image и его потомки предоставили исследователям возможность просматривать и количественно оценивать практически любое изображение на любом компьютере. Это семейство программного обеспечения включает ImageJ, версию на основе Java, которую Расбанд написал для пользователей Windows и Linux, а также Fiji, дистрибутив ImageJ, разработанный группой Павла Томанчака из Института молекулярной клеточной биологии и генетики им. Макса Планка в Дрездене (Германия), который включает все ключевые плагины. «ImageJ, безусловно, является самым основополагающим инструментом, который у нас есть, — говорит Бет Чимини, вычислительный биолог, работающий над платформой визуализации в Институте Броуда в Кембридже (штат Массачусетс). — Фактически я никогда не разговаривала с биологом, который использовал бы микроскоп, но не работал бы с ImageJ или его ответвлением Fiji».

C помощью подключаемого модуля инструмент Image...

C помощью подключаемого модуля инструмент ImageJ может автоматически идентифицировать ядра клеток на изображениях микроскопа, как здесь. Источник изображения: Ignacio Arganda-Carreras / ImageJ

«Отчасти это потому, что инструменты бесплатны», — говорит Расбанд. Но еще и потому, что «пользователям легко настроить инструмент под свои нужды», дополняет Кевин Элицири, инженер биомедицины из Университета Висконсин-Мэдисон, чья команда возглавляла разработку ImageJ с момента выхода Расбанда на пенсию. ImageJ имеет обманчиво простой и минималистичный пользовательский интерфейс, который с 1990-х годов практически не изменился. Тем не менее этот инструмент можно бесконечно расширять благодаря встроенному устройству записи макросов (которые позволяют пользователю сохранять рабочие процессы, записывая последовательности щелчков мыши и выборов в меню), обширной совместимости с разными форматами файлов и гибкой архитектуре подключаемых модулей. «Сотни людей предоставили свои плагины», — говорит Кертис Рюден, руководитель отдела программирования в группе Элицири. Эти дополнения значительно расширили набор инструментов для исследователей, например функциями отслеживания объектов в видео или автоматической идентификации клеток.

«Суть программы не в том, чтобы быть универсальной и конечной, — говорит Элицири, — а в том, чтобы служить целям своих пользователей. В отличие от Photoshop и других программ, ImageJ может быть тем, чем вы хотите».

Поисковик последовательности: BLAST (1990 г.)

Возможно, нет лучшего индикатора культурной значимости, чем превращение названия программы в глагол. Говоря о поиске, вы наверняка подумаете о Google. В случае с генетикой подумаете о BLAST.

Эволюционные изменения запечатлеваются в молекулярных последовательностях в виде замен, делеций (хромосомных перестроек), пропусков и перегруппировок. В ходе поиска сходства между последовательностями — особенно среди белков — исследователи могут обнаружить эволюционные отношения и получить представление о функциях генов. Проблема в том, чтобы сделать это достаточно быстро и всесторонне через регулярно и быстро растущие базы данных молекулярной информации.

Дейхофф предоставила один важный фрагмент этой головоломки в 1978 году. Она разработала матрицу «точечно принятых мутаций», которая позволила исследователям оценить степень родства двух белков, основываясь не только на том, насколько похожи их последовательности, но и на эволюционной пропасти между ними. В 1985 году Уильям Пирсон из Университета Вирджинии в Шарлоттсвилле и Дэвид Липман из NCBI представили FASTP — алгоритм, сочетающий матрицу Дейхофф с возможностью быстрого поиска.

Спустя годы Липман вместе с Уорреном Гишем и Стивеном Альтшулом из NCBI, Уэббом Миллером из Университета штата Пенсильвания в Юниверсити-парке и Джином Майерсом из Университета Аризоны в Тусоне разработали еще более мощное усовершенствование —- инструмент поиска базового местного выравнивания (англ. Basic Local Alignment Search Tool, или BLAST). Выпущенный в 1990 году, BLAST сочетал в себе скорость поиска, необходимую для работы с быстрорастущими базами данных, с возможностью подбирать совпадения, которые были более эволюционно далеки. В то же время инструмент может рассчитать, насколько вероятно, что эти совпадения произошли случайно.

По словам Альтшула, полученный результат был невероятно быстрым. «Вы можете ввести запрос для вашего поиска, сделать один глоток кофе, и поиск будет завершен». Но что более важно, им было легко пользоваться. В эпоху, когда базы данных обновлялись по почте, Гиш создал систему электронной почты, а затем и веб-архитектуру, которая позволяла пользователям выполнять поиск на компьютерах NCBI удаленно, обеспечивая таким образом актуальность результатов.

По словам Шона Эдди, вычислительного биолога из Гарвардского университета в Кембридже (штат Массачусетс), система дала зарождающейся области геномной биологии инструмент преобразования — способ выяснить, что неизвестные гены могут делать на основе других генов, с которыми они связаны. […]

Источник препринтов: arXiv.org (1991 г.)

В конце 1980-х физики высоких энергий обычно отправляли своим коллегам физические копии рукописей для комментариев и в качестве любезности (но только избранным) по почте. «Те, кто были ниже в пищевой цепочке, полагались на благосклонность тех, кто попал в топовый список, а начинающие исследователи в неэлитных учреждениях часто полностью выпадали из привилегированного цикла», — писал физик Пол Гинспарг в 2011 году.Ginsparg, P. Preprint (2011).

В 1991 году Гинспарг, работавший тогда в Лос-Аламосской национальной лаборатории в Нью-Мексико, написал автоответчик для электронной почты, чтобы уравнять правила игры. Его подписчики получали ежедневные списки препринтов, каждый из которых был связан с тем или иным идентификатором статьи. С помощью одного электронного письма пользователи со всего мира могли отправлять или извлекать статьи из компьютерной системы лаборатории, получать списки новых статей или выполнять поиск по автору или заголовку. План Гинспарга состоял в том, чтобы хранить статьи в течение трех месяцев и ограничить их сообществом физиков высоких энергий. Но коллега убедил его сохранить статьи на неопределенный срок. «Это был момент перехода от доски объявлений к архиву», — говорит он. И статьи наводнили гораздо больше областей, чем в дисциплине самого Гинспарга. В 1993 году Гинспарг перенес эту систему во всемирную паутину, а в 1998 году дал ей название, которое она носит по сей день: arXiv.org.

Сейчас, на тридцатом году своего существования, arXiv содержит около 1,8 миллиона препринтов (все они доступны бесплатно) и привлекает более 15 000 заявок и около 30 миллионов загрузок в месяц. «Нетрудно понять, почему arXiv стал таким популярным сервисом, — писали 10 лет назад редакторы Nature PhotonicsNature Photon. 6, 1 (2012). по случаю двадцатой годовщины сайта. — Система предоставляет исследователям быстрый и удобный способ установить отметку, которая показывает, что они делали и когда, избежав хлопот и траты времени, необходимых для рецензирования в обычном журнале».

Источник изображения: arXiv.org

Источник изображения: arXiv.org

Успех сайта стал катализатором роста количества сестринских архивов по биологии, медицине, социологии и другим дисциплинам. Его влияние сегодня можно увидеть в десятках тысяч препринтов, опубликованных о вирусе SARS-CoV-2.

«Приятно видеть методологию, которая 30 лет назад за пределами сообщества физиков элементарных частиц считалась неортодоксальной, а теперь рассматривается как очевидная и естественная, — говорит Гинспарг. — В этом смысле все это похоже на успешный исследовательский проект».

Проводник данных: IPython Notebook (2011 г.)

В 2001 году, когда он решил заняться основным компонентом Python, Фернандо Перес был аспирантом «под воздействием прокрастинации».

Python — это интерпретируемый язык, а это значит, что написанные на нем программы выполняются построчно. Программисты могут использовать своего рода вычислительный инструмент вызова и ответа, называемый циклом чтения — оценки — печати (REPL), в котором они вводят код, а программа, называемая интерпретатором, выполняет его. REPL позволяет быстро исследовать и повторять части кода, но Перес отметил, что Python точно не был создан для науки: его особенности не позволяли пользователям, например, легко предварительно загружать модули кода или держать визуализации данных открытыми. Поэтому Перес написал свою версию.

Результатом его работы стал IPython, «интерактивный» интерпретатор Python, который Перес представил в декабре 2001 года — все 259 строк. Десять лет спустя Перес, работая с физиком Брайаном Грейнджером и математиком Эваном Паттерсоном, перенес этот инструмент в веб-браузер, запустив IPython Notebook, положив начало революции в области науки о данных.

Как и другие похожие вычислительные инструменты, IPython Notebook объединил код, результаты, графику и текст в рамках одного документа. Но в отличие от других подобных проектов, IPython Notebook имел открытый исходный код, что привлекло обширное сообщество разработчиков. А еще он поддерживает Python, популярный язык программирования среди ученых. В 2014 году IPython превратился в Project Jupyter, поддерживающий около 100 языков и позволяющий пользователям просматривать данные на удаленных суперкомпьютерах так же легко, как на своих ноутбуках.

«Для исследователей данных Jupyter де-факто стал стандартом», — писал Nature в 2018 году.Nature 563, 145–146 (2018). В то время на платформе совместного использования кода GitHub было представлено 2,5 миллиона записных книжек Jupyter; сегодня их около 10 миллионов, включая те, которые документируют открытие гравитационных волн в 2016 году и изображение черной дыры в 2019-м. «То, что мы внесли небольшой вклад в эти проекты, крайне приятно», — говорит Перес.

Быстрое обучение: AlexNet (2012 г.)

Искусственный интеллект (ИИ) бывает двух видов: один использует кодифицированные правила, другой позволяет компьютеру «учиться», имитируя нейронную структуру мозга. «На протяжении десятилетий, — говорит Джеффри Хинтон, специалист по информатике из Университета Торонто (Канада), — исследователи искусственного интеллекта отвергали последний подход как „нонсенс“». В 2012 году аспиранты Хинтона Алекс Крижевский и Илья Суцкевер доказали обратное.

Сделали они это в рамках ImageNet, ежегодного конкурса, на котором исследователям предлагается обучить ИИ на базе данных с миллионом изображений повседневных объектов, а затем протестировать полученный алгоритм на отдельном наборе изображений. По словам Хинтона, в то время лучшие алгоритмы неправильно классифицировали около четверти изображений. AlexNet Крижевского и Суцкевера, алгоритм «глубокого обучения», основанный на нейронных сетях, снизил частоту ошибок до 16.Krizhevsky, A., Sutskever, I. & Hinton, G. E. in Proc. 25th Int. Conf. Neural Information Processing Systems (eds Pereira, F., Burges, C. J. C., Bottou, L. & Weinberger, K. O.) 1097–1105 (Curran Associates, 2012). «Мы практически вдвое снизили количество ошибок», — отмечает Хинтон.

Хинтон говорит, что успех команды в 2012 году отражал комбинацию достаточно большого набора обучающих данных, отличных навыков программирования и недавно появившихся мощных графических процессоров, которые изначально были разработаны для повышения производительности компьютерного видео. «Внезапно мы смогли запускать [алгоритм] в 30 раз быстрее, — говорит он, — или учиться на в 30 раз большем объеме данных». Настоящий прорыв в алгоритмах, по словам Хинтона, в действительности произошел тремя годами ранее, когда его лаборатория создала нейронную сеть, которая могла распознавать речь более точно, чем традиционный ИИ, совершенствующийся десятилетиями. […]

Эти победы ознаменовали рост важности и использования глубокого обучения в лабораториях, клиниках и многих других местах. Именно поэтому сегодня мобильные телефоны могут понимать голосовые запросы, а инструменты анализа изображений — легко выделять клетки на микрофотографиях. И именно поэтому AlexNet занимает свое заслуженное место среди многих инструментов, которые коренным образом изменили науку, а вместе с ней и весь мир.