Скидка до 55% и 5 курсов в подарок 1 день 08 :20 :59 Выбрать курс
Код
#статьи

Теория вероятностей: как научиться предсказывать случайные события

Разбираем основные понятия, учимся находить вероятность по формуле P(A) = m/n и делаем первый шаг на пути к карьере в data science.

Фото: Robert Voets / CBS / Getty Images

Продолжаем разбираться с математическими концепциями, на которых держится современное IT. Сегодня поговорим о теории вероятностей — разделе математики, который широко используется в машинном обучении, геймдеве, статистике и науке о данных.

Из этой статьи вы узнаете:

Что такое теория вероятностей

Теория вероятностей — это наука, которая изучает мир случайностей и пытается их предсказать. Здесь встречаются такие понятия, как «события» и «вероятности», у которых, в свою очередь, есть свои свойства и операции — о них мы поговорим чуть позже.

Проще всего это продемонстрировать на примере подбрасывания монетки. У нас есть два варианта: орёл или решка, а значит, шанс выпадения каждой из сторон одинаковый и составляет 50% или 1/2.

В Google можно испытать свою удачу, если ввести в поиске «подбрасывание монеты»
Изображение: Google

Но как убедиться, что это действительно так? Например, я могу подбросить монетку десять раз, и мне магическим образом девять раз подряд выпадет орёл и один раз решка. Значит ли это, что шанс выпадения орла — 90%? Конечно, нет — и у этого есть научное объяснение.

Дело в том, что теория вероятностей рассматривает случайные события в рамках бесконечности. Иными словами, если мы будем подбрасывать монетку бесконечное количество раз, то шансы выпадения орла или решки будут приближаться к 50%.

В математике такая закономерность называется законом больших чисел, и этот закон — один из фундаментальных для data science. Фишка в том, что чем больше данных мы имеем на руках, тем точнее можно делать предсказания. Подробнее об этом читайте в статье «Математика для джунов».

Такая же логика работает и для других случайных явлений — например, шанс выпадания числа 5 на игральном кубике равен 1 к 6, а вероятность того, что молния ударит в одно и то же место дважды — примерно 1 к 500.

Как думаете, какая вероятность, что все 15 кубиков выдадут одинаковый результат? Примерно 0,000000000002%, или два шанса из одного триллиона
Изображение: Google

Теория вероятностей помогает нам предсказывать шанс возникновения различных событий, когда ответ не такой однозначный и на события влияет множество факторов.

Основные понятия

Мы упомянули слова «событие» и «вероятность», но не рассказали, что они вообще значат в контексте теории вероятностей. Давайте разбираться.

События

Событие — это всё, что может произойти, когда мы совершаем какое-то действие. Например, если мы бросаем монетку, то событие — это выпадение орла или решки. Чтобы обозначать события, используют заглавные буквы латинского алфавита. Например, для орла можем выбрать букву A, а для решки — B.

Существует много видов и классификаций событий, но мы остановимся на основных. Прежде чем перейти к ним, запомните: вероятность любого события обозначается P(A), где A — название события. Значение P(A) находится между 0 и 1, где 0 — событие никогда не произойдёт, а 1 — произойдёт обязательно.

  • Достоверные — те, которые точно произойдут. Если бросить стакан на пол, то с вероятностью 100% он полетит вниз. Вероятность достоверного события: P(A) = 1.
  • Невозможные — те, которые никогда не произойдут. Если бросить тот же стакан на пол, то он никогда не полетит вверх (мораль: не стоит бросать стаканы на пол, если, конечно, вы не на МКС). Вероятность невозможного события: P(A) = 0.
  • Случайные — те, которые могут произойти, а могут и не произойти. Например, если мы бросаем игральный кубик, то не можем с уверенностью сказать, что выпадет число 2. Вероятность случайного события лежит между 0 и 1: 0 < P(A) < 1.
  • Совместимые — те, которые могут произойти одновременно. К примеру, человек может быть высоким и носить очки. Совместимость записывается через пересечение множеств: A ∩ B ≠ ∅, то есть P(A ∩ B) > 0.
  • Зависимые — когда одно событие влияет на другое. Например, если на дороге произошла авария, из-за этого может образоваться пробка. Авария и пробка — зависимые события. Вероятность события A при условии, что событие B уже произошло, записывается как P(A | B).
  • Независимые — одно событие не влияет на другое. Например, если две посылки отправляются разными службами доставки в разные города, то задержка одной посылки никак не повлияет на сроки доставки другой. Независимость обозначается так: A ⊥ B. Вероятность одновременного наступления двух независимых событий: P(A ∩ B) = P(A) × P(B).
  • Несовместимые — те, которые исключают друг друга. Например, при подбрасывании монетки может выпасть либо орёл, либо решка — оба одновременно они выпасть не могут. Несовместимость обозначается так: A ∩ B = ∅, то есть P(A ∩ B) = 0.

Если собрать все несовместимые события вместе, они будут называться полной группой событий. Это множество событий, одно из которых обязательно случится, если мы совершаем действие, а другие — не произойдут никогда. Например, когда мы бросаем игральный кубик, может выпасть только одна из сторон.

Основные типы событий на простых диаграммах
Изображение: Skillbox Media

Вероятности

Вероятность — это число, которое обозначает шанс возникновения события. Например, вероятность выигрыша в лотерею может составлять 1 к 1 000 000.

Мы записывали значения вероятностей в процентах и отношениях, но математикам удобнее располагать их в диапазоне от 0 до 1. Напомним: если вероятность равна 0, то событие никогда не произойдёт, а если 1 — точно произойдёт. Всё, что посередине, — это случайные события: 0 ≤ P(A) ≤ 1.

Самый простой способ вычислить вероятность — разделить число благоприятных случаев на общее число возможных. Это и есть классическая формула теории вероятностей: P(A) = m/n, где P(A) — вероятность события A, m — число благоприятных случаев, n — общее число возможных вариантов.

Например, в игре «Сапёр» на среднем уровне поле состоит из 256 клеток, среди которых 40 мин. Вероятность наткнуться на мину при первом клике равна 40/256 ≈ 16%. С каждой безопасно открытой клеткой мин не становится меньше, а вот общее число клеток сокращается — и вероятность постепенно растёт. Если вы открыли 100 безопасных клеток, на поле осталось 156 клеток и 40 мин — шанс наткнуться на мину уже составит 40/156 ≈ 25,6%. А если дошли до 200 открытых клеток — вероятность и вовсе вырастает до 40/56 ≈ 71,4%.

«Сапёр» — наглядный пример того, как вероятность меняется с каждым новым действием. Чем больше клеток открыто, тем выше шанс наткнуться на мину
Скриншот: Google Minesweeper / Skillbox Media

Вероятность — это не всегда точное предсказание, а лишь оценка шанса возникновения события. Как следует из закона больших чисел, если шанс выпадения орла и решки равен 50%, это не означает, что они будут выпадать по очереди.

Ещё вероятность может быть условной — зависеть от другого события. Так, если мы вытаскиваем шарики из мешка, в котором три красных шарика и семь синих, то вероятность достать красный равна 3/10. Но если первый шарик оказался красным, то вероятность снова достать красный уже равна 2/9: шариков стало меньше.

С определениями закончили — теперь давайте узнаем, как событиями можно управлять.

Алгебра событий: основные формулы и принципы

Когда мы считаем вероятности, нас может устраивать более чем один результат событий. Или другая ситуация — нам может быть важно, чтобы два события выполнялись вместе. В таких случаях на помощь приходит алгебра событий. Разбираемся, какие действия она позволяет совершать.

Дисклеймер: в этом разделе мы не рассматриваем вычитание и дополнение событий, потому что они довольно сложны для первого знакомства с теорией вероятностей. Возможно, скоро мы выпустим о них отдельную статью.

Сложение (объединение) событий

Сумма двух событий — это событие, которое произойдёт, если наступит событие A, событие B или оба одновременно. Обозначается как A ∪ B или A + B.

Начнём со сложения несовместимых событий — для совместимых есть свои особенности, которые мы разберём ниже.

Допустим, мы хотим вычислить вероятность выпадения на кубике стороны с числами 2 или 4. Обозначим событие «выпадение стороны 2» как A, а событие «выпадение стороны 4» как B. Так как у кубика всего шесть граней, вероятность выпадения каждой из этих сторон равна 1/6.

А так как нас интересует либо событие A, либо событие B, мы ищем сумму этих событий — A + B. Вычисляем соответствующие вероятности:

P(A) = 1/6

P(B) = 1/6

P(A ∪ B) = P(A) + P(B) = 1/6 + 1/6 = 2/6 = 1/3

Получается, что шанс выпадения стороны 2 или 4 при броске кубика равен 2 к 6, или 1 к 3, или 33%.

Правило сложения можно применять не только к двум событиям, но и к любому их количеству. Например, событие A + B + C + D произойдёт, если случится хотя бы одно из событий A, B, C, D.

Сумма вероятностей полной группы событий всегда равна 1. Например, при броске монеты выпадет либо орёл, либо решка — других исходов нет. Эти два события и образуют полную группу.

Обозначим событие «выпал орёл» как A, а событие «выпала решка» как B. Вероятность каждого из них равна 1/2. Тогда сумма событий равна:

P(A ∪ B) = P(A) + P(B) = 1/2 + 1/2 = 1

Умножение (пересечение) событий

Произведение событий A и B — это событие, которое произойдёт, если случится и событие A, и событие B. Оно обозначается A ∩ B или A × B.

Допустим, мы бросаем монетку два раза и хотим понять, каков шанс, что оба раза выпадет решка. Напомним, что вероятность выпадения решки — 1/2.

Обозначаем события: A — решка выпадает первый раз, B — решка выпадает второй раз. Считаем вероятности:

P(A) = 1/2

P(B) =1/2

P(A ∩ B) = P(A) × P(B) = 1/2 × 1/2 = 1/4

Получаем, что шанс выпадения решки два раза подряд — 25%.

Как в случае с суммой, произведение событий можно считать для любого количества разных событий. Давайте продолжим пример с монеткой — теперь мы хотим, чтобы она выпала четыре раза подряд.

Добавляем два новых обозначения: C — решка выпадает третий раз, D — решка выпадает четвёртый раз. Вероятности всё те же, считаем их произведение:

P(A) =1/2

P(B) = 1/2

P(C) = 1/2

P(D) = 1/2

P(A ∩ B ∩ C ∩ D) = P(A) × P(B) × P(C) × P(D) = 1/2 × 1/2 × 1/2 × 1/2 = 1/16

Ответ — шанс выпадения решки четыре раза подряд равен 1 к 16.

Это правило применяется только к независимым событиям, которые могут произойти одновременно. Произведение несовместимых событий равно 0, поскольку они не могут случиться одновременно. Например, при одном броске монеты не может выпасть и орёл, и решка.

Для зависимых событий правило умножения работает иначе — здесь применяется условная вероятность, то есть вероятность наступления одного события при условии, что другое уже произошло. Допустим, в коробке лежат пять красных шаров и три синих. Рассмотрим два события: A — первым вы вынули красный шар, B — второй вынутый шар тоже красный (первый мы не возвращаем обратно).

Вычислим вероятность того, что оба события произойдут одновременно:

  • Вероятность первого события: P(A) = 5/8
  • Вероятность второго события — после того как вынули один красный шар, осталось четыре красных из семи: P(B ∣ A) = 4/7
  • Вероятность произведения событий: P(A ∩ B) = P(A) × P(B ∣ A) = 5/8 × 4/7 = 20/56 = 5/14

Сложение совместимых событий

Когда мы говорили о сложении вероятностей, мы использовали несовместимые события, поскольку при броске кубика может выпасть только одна сторона (или ребро, если вам сильно повезёт).

Теперь, когда мы познали тонкости вероятностного умножения, можно разобраться с тем, как складывать совместимые события. В этом случае из суммы двух событий нужно просто вычесть их произведение. Формула выглядит так:

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Примером такого сложения может быть выбор случайных чисел. Допустим, у нас есть набор чисел от 1 до 10 и мы хотим найти вероятность того, что выбранное число будет или нечётным, или делиться на 7 без остатка.

Считаем вероятности:

  • Событие A — число нечётное. Вероятность выбрать именно его — 5/10.
  • Событие B — число делится на 7 без остатка. Вероятность — 1/10.

Так как число 7 подходит под оба условия, события A и B совместимы. Если мы уже знаем, что число нечётное, то выбираем из пяти чисел (1, 3, 5, 7, 9), и только одно из них делится на 7. Поэтому P(B ∣ A) = 1/5. А если известно, что число делится на 7, то оно точно нечётное, значит, P(A ∣ B) = 1.

Подключаем формулу: сначала находим сумму вероятностей, а потом вычитаем из неё вероятность пересечения:

P(A ∪ B) = 5/10 + 1/10= 6/10

P(A ∩ B) = P(A) × P(B ∣ A) = 5/10 × 1/5 = 1/10

P(A) + P(B) − P(A ∩ B) = 6/10 − 1/10 = 5/10 = 1/2

Получается, что вероятность того, что выбранное число окажется нечётным или кратным 7, равна 1/2.

На этом с алгеброй событий закончим и перейдём к более классическим формулам. Но не пугайтесь, мы всё подробно объясним.

Решаем задачи по теории вероятностей

При решении задач используйте главную формулу теории вероятностей, а также формулы сложения и произведения вероятности событий.

Задача 1. В колоде 52 карты. Мы решили вытащить из неё одну — найдите вероятность того, что это будет туз.

Решение:

В колоде 52 карты — это все возможные исходы. Благоприятных среди них четыре, так как тузов в колоде тоже четыре.

Обозначим за A событие «достали туза» и подставим значения в формулу:

P(A) = 4/52 = 1/13

Ответ: 1/13.

Задача 2. В кармане лежит шесть монет: две рублёвых, две пятирублёвых и две десятирублёвых. Мы по очереди достаём две из них случайным образом. Найдите вероятность того, что они обе будут одного номинала.

Решение:

Введём три события: A — обе монеты рублёвые, B — обе пятирублёвые, C — обе десятирублёвые.

Нам нужно найти вероятность события A или B или C, то есть P(A ∪ B ∪ C). Так как события A, B и C несовместные, то P(A ∪ B ∪ C) равна сумме вероятностей этих событий:

P(A ∪ B ∪ C) = P(A) + P(B) + P(C)

Посчитаем вероятность события A. Вероятность достать первую рублёвую монету равна 2/6, так как таких монет две из шести. После этого в кармане останется пять монет, из которых одна — рублёвая. Вероятность достать её равна 1/5. Таким образом:

P(A) = 2/6 × 1/5 = 1/3 × 1/5 = 1/15

Вероятности событий B и C такие же, так как условия одинаковые:

  • P(B) = 1/15;
  • P(C) = 1/15.

Подставим в формулу:

P(A ∪ B ∪ C) = 1/15 + 1/15 + 1/15 = 3/15 = 1/5

Ответ: 1/5.

Задача 3. Вы бросаете игральные кости с шестью сторонами. Найдите вероятность того, что сумма выпавших очков будет равна 7.

Решение:

Всего существует шесть различных комбинаций, которые дают сумму 7:

  • 1 — 6;
  • 2 — 5;
  • 3 — 4;
  • 4 — 3;
  • 5 — 2;
  • 6 — 1.

Общее число возможных результатов при бросании двух костей равно 6 × 6 = 36. Обозначим как A событие, при котором выпала одна из шести комбинаций, и подставим значения в формулу: P(A) = 6/36 = 1/6.

Ответ: 1/6.

Что дальше

В статье мы разобрались с базовыми понятиями теории вероятностей. Если хотите лучше разбираться в вопросе, хорошие лекции можно посмотреть на канале selfedu и на сайте teach-in.ru. А на этом бесплатном курсе теория даётся сразу с примерами и упражнениями — полезно, если хотите отточить знания на практике.

Для общего развития можно почитать статью «Математика для джунов» и материал о том, как устроена случайность в играх. А если вы всерьёз нацелены вкатиться в data science и хотите подтянуть математический бэкграунд, для вас есть курс «Математика для Data Science».

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Освойте data science за 12 месяцев
На курсе Skillbox вы пройдёте полный цикл работы с данными: от Excel до машинного обучения. Добавите в портфолио кейсы от «Сбера».
Узнать о курсе
Курс с трудоустройством: «Профессия Data scientist + ИИ» Узнать о курсе
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована