Машинное обучение в бизнесе: ретроспектива, современное состояние и перспективы использования

В последние десятилетия мировое научное сообщество проявляет особый интерес к наукам о данных и их прикладной эффективности, сравнительно недавно этот интерес обрёл выражение в концепции машинного обучения. Вместе с наукой, в развитии перспективной дисциплины принимает участие и бизнес-сектор, который вкладывает не только свои средства, но и что более важно - свои данные. Экспоненциальный рост объёма данных влечёт за собой рост сложности их анализа, устоявшиеся подходы в такой ситуации требуют повышения либо длительности, либо мощностей вычислений, а скорее и того, и другого. Поэтому машинное обучение, которое предлагает новый способ взаимодействия с вычислительными машинами, находится на пике своего развития.

Цель работы заключается в освещении исторических этапов развития машинного обучения, анализе используемых на данный момент подходов, и попытке обрисовать будущее состояние дисциплины в контексте эффективности для бизнеса.

Машинное обучение представляет собой подраздел искусственного интеллекта, в рамках которого изучают алгоритмы, способные к обобщению и изучению. В 1959 году Артур Самуэль определил машинное обучение как «процесс, в результате которого машина способна показывать поведение, которое в нее не было явно заложено (запрограммировано)» [1]. На современном этапе развития уже созданы алгоритмы для распознавания речи, медицинской и технической диагностики, рубрикации текстов, компьютерной лингвистики и обработке естественных языков. Обучаемые алгоритмы определяют спам в почтовых сервисах, подбирают рекомендации на основе истории активности пользователя в интернетмагазинах, пишут статьи о спорте и экономике, проводят эксперименты, выдвигают гипотезы и делают научные открытия, и многое другое.

История машинного обучения начинается в 1936 году, когда Алан Тьюринг предложил модель машины, способной имитировать всех исполнителей определённого набора действий. Аналогично была предложена модель универсальной машины, которая может симулировать любую другую машину Тьюринга.

В 1946 году была разработана компьютерная система ENIAC. Это - первый электронный цифровой вычислитель общего назначения, который можно было перепрограммировать для решения широкого спектра задач. Однако “переобучением” машины занимался человек, который вручную подключал друг к другу разные компоненты.

Компьютерная программа ELIZA, представляющая собой виртуального собеседника- психотерапевта, была написана в 1966 году Джозефом Вейценбаумом. Она использовала подстановку слов и заготовленные ответы в качестве реакции на определённые ключевые слова пользователя. Программа стала прообразом современных голосовых помощников, к примеру, Siri, Cortana, Google Now.

В то же время в Стэнфордском университете появилась первая экспертная система, позволяющая диагностировать инфекционное заболевание путём цепочки вопросов и ответов. MYCIN также помогала выбрать наиболее подходящий способ лечения. Система не нашла применения на практике, однако согласно экспериментам, показала результаты не хуже, чем коллегия врачей-инфекционистов.

В 1957 году Фрэнк Розенблатт разработал перцептрон, которому современные нейронные сети обязаны своим существованием. В 1960 году в Корнеллском университете был представлен «Марк-1» - нейрокомпьютер, способный распознавать английские буквы, написанные разным почерком. «Марк-1», благодаря реализации модели перцептрона, учился классифицировать образы методом коррекции ошибок, напоминающий процесс обучения человека, обобщая статистически чаще встречающиеся характерные черты каждого символа.

Начало девяностых ознаменовано появлением нового способа обучения алгоритма - вероятностного подхода. Аналогично закону больших чисел, он показывает лучшую результативность на большем количестве данных. Органичное возникновение такого феномена, как Big Data, позволило улучшить качество и точность обучаемых алгоритмов [2].

В феврале 1996 года был проведён матч между Гарри Каспаровым и шахматным суперкомпьютером IBM Deep Blue I, в результате которого машина проиграла. Каспаров подчёркивал высокую роль интуитивного мышления человека и допускал возможность создания аналогичного ему алгоритма. Через год, в мае 1997, IBM Deep Blue II выигрывает у Каспарова и входит в историю как первый компьютер, победивший человека в шахматной игре. Deep Blue II просчитывал 200 миллионов позиций в секунду. Видимые результаты вдохновили следующие поколения учёных.

В 1999 году в рамках проекта Robot Scientist университет Аберистуита, Великобритания, начал разрабатывать робота-учёного по имени Адам для исследования генной структуры ферментов дрожжей. К 2009 году Адам совершил первое научной открытие. Выдвигая гипотезы на основании начальных данных, проводя эксперименты и рассчитывая статистическую вероятность истинности гипотез, робот способен выполнять до 1000 экспериментов в день и с гораздо меньшим числом ошибок.

В 2005 году IBM начало разработку очередного суперкомпьютера - Watson. Уотсон способен анализировать естественный язык, английский, понимать вопросы и находить на них ответы в базе данных. Он был разработан для участия в телепередаче Jeopardy!, аналоге передачи "Своя игра", и в 2011 году одержал в ней победу. Проект внёс большой вклад в развитие машинного обучения, направленного на понимание естественных языков.

В 2009 году Принстонский университет представил ImageNet - базу данных аннотированных изображений, пополняемую на основе краудсорсинга. Аннотация представляет собой прямоугольную область на изображении и название объекта в этой области, допустим "кошка". База активно используется в проектах машинного обучения, а именно - в сфере машинного зрения. Алгоритмы получают на вход аннотированные примеры разных классов объектов, а затем самостоятельно определяют принадлежность объектов на новых изображениях, не имеющих аннотации.

В 2012 году был проведён эксперимент Google Brain, в котором разработанная модель распознавания объектов проанализировала 10 миллионов скриншотов различных случайных видео с YouTube и с высокой точностью выделила на них кошек. Аналогичная модель используются Google в проекте самоуправляемого автомобиля.

На современном этапе развития обучаемые алгоритмы не могут считаться автономно существующими субъектами. Робот-учёный Адам проводит исследования, однако команда специализированных учёных проверяет его результаты. Алгоритмы машинного зрения учатся определять классы на уже именованных изображениях, однако при виде неизвестного объекта могут ошибаться, в то время как человек в такой ситуации будет способен построить первое представление о неизвестном объекте, анализируя общие черты и находя взаимосвязи с уже известными. В некоторых аспектах деятельности человек обращается к тому, что называют "здравым смыслом" и "интуицией", притом преобразовать данные особенности в машинный алгоритм не представляется возможным.

Существует ряд способов использования машинного обучения в бизнесе, каждый из которых напрямую зависит от предметной области и сферы применения. Информатизация производства, бизнеса, здравоохранения привела к хранению большого объёма информации, которая может стать основой для обучения алгоритмов.

В медицине робот, созданный на основе IBM Watson, уже способен диагностировать потенциальные раковые кожные повреждения, анализируя биопсию и медицинские изображения, среди которых рентгеновские снимки и МРТ, и назначать последующее лечение, руководствуясь обширной базой данных клинических исследований. Врачи, пользуясь функционалом робота, могут получать данные о побочных действиях в ходе лечения и принимать решения о его корректировке. Компания Medecision использует машинное обучение для анализа корреляций между распространёнными факторами риска и различными заболеваниями.

В сфере интернет-бизнеса обучаемые алгоритмы уже несколько лет анализируют историю покупок и запросов каждого клиента и на основе данной информации индивидуально подбирают рекламу и рекомендации. Такой подход позволяет сформировать спрос и выделить лучшие сегменты для маркетинга [3].

Машинное обучение, направленное на обработку естественных языков, может заменить сотрудников в службе поддержки, помогать юристам в расшифровке сложной документации, выполнять роль ассистента или домашнего помощника, адаптировать изучение информации и другие аспекты жизни для людей с нарушениями зрения, и многое другое [4].

С развитием интернета вещей и появлением сообщающейся техники, обучаемые алгоритмы получат доступ к их управлению, научатся контролировать производственные процессы и оптимизировать затраты. Новые бизнес-модели смогут охватывать не только сам продукт и этапы его производства, но также потребителей и поставщиков. Сложные системы смогут управлять цепью поставок, логистикой, ценообразованием на основе комплексного анализа рыночной ситуации, исследованием цепочки ценности и оптимизацией бизнеспроцессов [5].

В России машинным обучением уже занимается множество компаний. В их числе Яндекс, выпустивший в июне 2017 года библиотеку машинного обучения CatBoost, особенностью которой является встроенная возможность обработки категориальных признаков.

Вывод

Машинное обучение занимается созданием обучаемых алгоритмов, которые являются дополнительным инструментом в руках человека. С делегированием той части обязанностей, которую можно формально описать, развилась сфера привычных нам алгоритмов. Теперь же человек старается не научить машину выполнять действие, а научить её учиться самостоятельно. Перспективы развития данной сферы предвещают технологическую сингулярность, а в настоящее время необходимо грамотно использовать имеющиеся наработки.

Литература

  1. Артур Л. Самуэль. Некоторые исследования в Машинном Обучении используя игру шашек. Arthur L. Samuel. Some Studies in Machine Learning Using the Game of Checkers. - IBM Journal of Research and Development (Volume:3, No:3, July). 1959. С.535-554
  2. Ветров Д. П. Машинное обучение - состояние и перспективы. XV Всероссийская научная конференция: труды конференции. - Ярославль: ЯрГУ, 2013. С.21-27.
  3. Педро Домингос. Верховный алгоритм. Как машинное обучение изменит наш мир. - Москва, 2016. С.33-36.
  4. «Королевское общество. Машинное обучение: сила и перспектива компьютеров, которые учатся на примерах» «The Royal Society. Machine learning: the power and promise of computers that leam by example» [Электронный ресурс]. Режим доступа: https://royalsociety.org/~/media/policy/projects/machine-learning/publications/machine-learning-report.pdf (дата обращения: 13.10.2017)
  5. Сет Эрли. Аналитика, машинное обучение и интернет вещей. Seth Earley. Analytics, Machine Learning, and the Internet of Things. - IT Professional, январь-февраль 2015, выпуск 17, С.10-13.
Автор
Л.М. Санжапова
Автор 2
Г.Ю. Силкина

Добавить комментарий

Простой текст

  • HTML-теги не обрабатываются и показываются как обычный текст
  • Строки и абзацы переносятся автоматически.
  • Адреса веб-страниц и email-адреса преобразовываются в ссылки автоматически.