Розподіл байєсу. Введення в байєсовські методи

Формула Байєса

Теорема Байєса- Одна з основних теорем елементарної теорії ймовірностей, яка визначає ймовірність настання події в умовах, коли на основі спостережень відома лише деяка часткова інформація про події. За формулою Байєса можна більш точно перераховувати можливість, беручи до уваги як раніше відому інформацію, і дані нових спостережень.

«Фізичний зміст» та термінологія

Формула Байєса дозволяє «переставити причину і слідство»: за відомим фактом події обчислити ймовірність того, що воно було спричинене цією причиною.

Події, що відображають дію «причин», в даному випадку зазвичай називають гіпотезами, так як вони - гаданіподії, що спричинили це. Безумовну ймовірність справедливості гіпотези називають апріорний(Наскільки ймовірна причина взагалі), а умовну - з урахуванням факту події, що відбулася - апостеріорної(Наскільки ймовірна причина опинилася з урахуванням даних про подію).

Слідство

Важливим наслідком формули Байєса є формула повної ймовірності події, яка залежить від кількохнесумісних гіпотез ( і лише від них!).

- ймовірність настання події B, що залежить від низки гіпотез A iякщо відомі ступеня достовірності цих гіпотез (наприклад, вимірювані експериментально);

Висновок формули

Якщо подія залежить лише від причин A i, Якщо воно відбулося, отже, обов'язково сталася якась із причин, тобто.

За формулою Байєса

Переносом P(B) вправо отримуємо шуканий вираз.

Метод фільтрації спаму

Метод, заснований на теоремі Байєса, знайшов успішне застосування у фільтрації спаму.

Опис

При навчанні фільтра для кожного зустрінутого в листах слова обчислюється і зберігається його «вага» - ймовірність того, що лист із цим словом - спам (у найпростішому випадку - за класичним визначенням ймовірності: «появ у спамі/появ всього»).

При перевірці листа, що знову прийшов, обчислюється ймовірність того, що він - спам, за зазначеною вище формулою для безлічі гіпотез. У разі «гіпотези» - це слова, й у кожного слова «достовірність гіпотези» - % цього слова у листі, а «залежність події від гіпотези» P(B | A i) - Обчислена раніше «вага» слова. Тобто «вага» листа в даному випадку – не що інше, як усереднена «вага» всіх його слів.

Віднесення листа до «спаму» чи «не-спаму» проводиться у тому, чи перевищує його «вага» якусь планку, задану користувачем (зазвичай беруть 60-80 %). Після ухвалення рішення з листа в базі даних оновлюються «ваги» для слів, що у нього ввійшли.

Характеристика

Даний метод простий (алгоритми елементарні), зручний (дозволяє обходитися без «чорних списків» та подібних штучних прийомів), ефективний (після навчання на досить великій вибірці відсікає до 95-97% спаму, і у разі будь-яких помилок його можна донавчати). Загалом є всі показання для його повсюдного використання, що і має місце на практиці - на його основі побудовані практично всі сучасні спам-фільтри.

Втім, метод має і принциповий недолік: він базується на припущенні, що одні слова частіше зустрічаються у спамі, а інші – у звичайних листах, і неефективний, якщо це припущення неправильно. Втім, як показує практика, такий спам навіть людина не в змозі визначити "на око" - тільки прочитавши лист і зрозумівши його зміст.

Ще один, не важливий, недолік, пов'язаний з реалізацією - метод працює тільки з текстом. Знаючи про це обмеження, спамери стали вкладати рекламну інформацію в картинку, текст у листі або відсутній, або не має сенсу. Проти цього доводиться користуватися або засобами розпізнавання тексту ("дорога" процедура, застосовується тільки за крайньої необхідності), або старими методами фільтрації - "чорні списки" і регулярні вирази (оскільки такі листи часто мають стереотипну форму).

Див. також

Примітки

Посилання

Література

  • Берд Ківі. Теорема преподобного Байєса. // Журнал "Комп'ютерра", 24 серпня 2001 р.
  • Paul Graham. A plan for spam (англ.). // Персональний сайт Paul Graham.

Wikimedia Foundation. 2010 .

Дивитись що таке "Формула Байєса" в інших словниках:

    Формула, що має вигляд: де a1, А2,..., Ап несумісні події, Загальна схема застосування Ф. в. р.: якщо подія може відбуватися в разл. умовах, щодо яких зроблено гіпотез А1, А2, ..., Аn з відомими до досвіду ймовірностями P(A1),… … Геологічна енциклопедія

    Дозволяє обчислити можливість цікавої події через умовні можливості цієї події у припущенні деяких гіпотез, і навіть можливостей цих гіпотез. Формулювання Нехай дано імовірнісне простір, і повна група попарно ... Вікіпедія

    Дозволяє обчислити можливість цікавої події через умовні можливості цієї події у припущенні деяких гіпотез, і навіть можливостей цих гіпотез. Формулювання Нехай дано імовірнісний простір, і повна група подій, таких… … Вікіпедія

    - (або формула Байєса) одна з основних теорем теорії ймовірностей, яка дозволяє визначити ймовірність того, що відбулася якась подія (гіпотеза) за наявності лише непрямих тому підтверджень (даних), які можуть бути неточними… Вікіпедія

    Теорема Байєса одна з основних теорем елементарної теорії ймовірностей, що визначає ймовірність настання події в умовах, коли на основі спостережень відома лише деяка часткова інформація про події. За формулою Байєса можна ... Вікіпедія

    Байєс, Томас Томас Байєс Reverend Thomas Bayes Дата народження: 1702(1702) Місце народження … Вікіпедія

    Томас Байєс Reverend Thomas Bayes Дата народження: 1702(1702) Місце народження: Лондон … Вікіпедія

    Байєсовський висновок один із методів статистичного висновку, в якому для уточнення ймовірнісних оцінок на істинність гіпотез при надходженні свідчень використовується формула Байєса. Використання байєсівського оновлення особливо важливе в ... Вікіпедія

    Для покращення цієї статті бажано?: Знайти та оформити у вигляді виносок посилання на авторитетні джерела, що підтверджують написане. Проставивши виноски, внести точніші вказівки на джерела. Пере … Вікіпедія

    Чи будуть ув'язнені один одного зраджувати, слідуючи своїм егоїстичним інтересам, або мовчати, тим самим мінімізуючи загальний термін? Дилема ув'язненого (англ. Prisoner s dilemma, рідше вживається назва «дилема … Вікіпедія

Книги

  • Теорія ймовірностей та математична статистика у завданнях. Понад 360 завдань та вправ, Борзих Д.А.. У запропонованому посібнику містяться завдання різного рівня складності. Проте основний акцент зроблено на завдання середньої складності. Це зроблено навмисно для того, щоб спонукати студентів до…

Серед методів технічної діагностики метод, заснований на узагальненій формулі Байека, займає особливе місце завдяки простоті та ефективності.

Зрозуміло, метод Байєса має недоліки: великий обсяг попередньої інформації, «пригнічення» діагнозів, що рідко зустрічаються, і ін. Однак у випадках, коли обсяг статистичних даних дозволяє застосувати метод Байєса, його доцільно використовувати як один з найбільш надійних і ефективних методів.

Основи методу. Метод заснований на простій формулі Байєса. Якщо є діагноз D iі проста ознака k j , що при цьому зустрічається діагнозі, то ймовірність спільної появи подій (наявність у об'єкта стану D iта ознаки k j)

P (D i k j) = P (D i) P ( k j / D i) = P ( k j) P (D i / k j). (5.4)

З цієї рівності випливає формула Байєса (див. гл. 11)

P(D i / k j) = P(D i) P( k i /D i)/P( k j) (5.5)

Дуже важливо визначити точний зміст всіх величин, що входять до цієї формули.

P(D i) - ймовірність діагнозу D i, що визначається за статистичними даними ( апріорна ймовірність діагнозу). Так, якщо попередньо обстежено Nоб'єктів та у N iоб'єктів був стан D i, то

P(D i) = N i/N. (5.6)

P(k j/D i) - k j у об'єктів зі станом D i. Якщо серед N iоб'єктів, які мають діагноз D i, у N ijвиявилася ознака k j , то

P(k j/D i) = N ij /N i. (5.7)

P(k j) - ймовірність появи ознаки k jу всіх об'єктах незалежно від стану (діагнозу) об'єкта. Нехай із загального числа Nоб'єктів ознака k jбув виявлений N jоб'єктів, тоді

P( k j ) = N j/N. (5.8)

Для встановлення діагнозу спеціальне обчислення P(kj) не вимагається. Як буде ясно з подальшого , значення P(D iP(k j/ D i), відомі для всіх можливих станів визначають величину P(k j).

Рівності (3.2) P(D i/k j)- ймовірність діагнозу D iпісля того, як стало відомо наявність у об'єкта, що розглядається, ознаки k j (апостеріорна ймовірність діагнозу).

Узагальнена формула Байєса.Ця формула відноситься до випадку, коли обстеження проводиться за комплексом ознак До, що включає ознаки k 1 , k 2 , ..., k v. Кожна з ознак k j має m jрозрядів ( k j l , k j 2 , ..., k js, ...,). В результаті обстеження стає відомою реалізація ознаки

k j *= k js(5.9)

та всього комплексу ознак K*. Індекс *, як і раніше, означає конкретне значення (реалізацію) ознаки. Формула Байєса для комплексу ознак має вигляд

P(D i/До* )= P(D i)P(До */D i)/P(До* )(i= 1, 2, ..., n), (5.10)

де P(D i/До* ) - ймовірність діагнозу D iпісля того, як стали відомі результати обстеження за комплексом ознак До, P(D i) - попередня ймовірність діагнозу D i(за попередньою статистикою).

Формула (5.10) відноситься до будь-якого з nможливих станів (діагнозів) системи. Передбачається, що система знаходиться тільки в одному із зазначених станів і тому

У практичних завданнях нерідко допускається можливість існування кількох станів А 1 , ..., А r, причому деякі з них можуть зустрітися у комбінації один з одним. Тоді як різні діагнози D iслід розглядати окремі стани D 1 = А 1 , ..., D r= А rта їх комбінації D r +1 = А 1 ^ А 2, … і т. п.

Перейдемо до визначення P(До*/ D i). Якщо комплекс ознак складається з vознак, то

P(До*/ D i) = P( k 1 */ D i)P(k 2 */k 1* D i)...P(k v*/k l *...k* v- 1 D i), (5.12)

де k j* = k js- розряд ознаки, що виявився внаслідок обстеження. Для діагностично незалежних ознак

P(До*/ D i) = P(k 1 */ D i) P(k 2 */ D i)... P(k v */ D i). (5.13)

У більшості практичних завдань, особливо за великої кількості ознак, можна приймати умову незалежності ознак навіть за наявності суттєвих кореляційних зв'язків між ними.

Ймовірність появи комплексу ознак До*

P(До *)= P(D s) P(До */D s). (5.14)

Узагальнена формула Байєса може бути записана так :

P(D i/K* ) (5.15)

де P(До*/ D i) визначається рівністю (5.12) або (5.13). Із співвідношення (5.15) випливає

P(D i/До *)=l , (5.16)

що, зрозуміло, і має бути, тому що один із діагнозів обов'язково реалізується, а реалізація одночасно двох діагнозів неможлива.

Слід звернути увагу, що знаменник формули Байеса всім діагнозів однаковий. Це дозволяє спочатку визначити ймовірності спільної появи i-го діагнозу та даної реалізації комплексу ознак

P(D iДо *) = P(D i)P(До */D i) (5.17)

і потім апостеріорну ймовірність діагнозу

P(D i/До *) = P(D i До *)/ P(D s До *). (5.18)

Зазначимо, що іноді доцільно використовувати попереднє логарифмування формули (5.15), оскільки вираз (5.13) містить добутки малих величин.

Якщо реалізація деякого комплексу ознак До * є детермінуючоїдля діагнозу D p ,цей комплекс не зустрічається при інших діагнозах:

Тоді, через рівність (5.15)

(5.19)

Таким чином, детерміністська логіка встановлення діагнозу є окремим випадком імовірнісної логіки. Формула Байєса може використовуватися й у тому випадку, коли частина ознак має дискретний розподіл, а інша частина – безперервне. Для безперервного розподілу використовуються густини розподілу. Однак у розрахунковому плані зазначена відмінність ознак неістотна, якщо завдання безперервної кривої здійснюється за допомогою сукупності дискретних значень.

Діагностична матриця.Для визначення ймовірності діагнозів методом Байєса необхідно скласти діагностичну матрицю (табл. 5.1), яка формується на основі попереднього статистичного матеріалу. У цій таблиці містяться ймовірності розрядів ознак при різних діагнозах.

Таблиця 5.1

Діагностична матриця у методі Байєса

Якщо ознаки дворозрядні (прості ознаки «так - ні»), то таблиці досить вказати ймовірність появи ознаки Р (k i / D i).Ймовірність відсутності ознаки Р( /D,-) = 1 - Р (k i / D i).

Однак зручніше використовувати однакову форму, вважаючи, наприклад, для дворозрядної ознаки Р (k j /D i)= Р(k i 1 /D i); Р( / D,) = Р (k i 2 /D i).

Відмітимо, що P(k js /Di)= 1, де т, -число розрядів ознаки k j.Сума ймовірностей всіх можливих реалізацій ознаки дорівнює одиниці.

У діагностичну матрицю включені апріорні ймовірності діагнозів. Процес навчання у методі Байєса полягає у формуванні діагностичної матриці. Важливо передбачити можливість уточнення таблиці у процесі діагностики. Для цього в пам'яті ЕОМ слід зберігати не лише значення P(k js /Di),а й такі величини: N- загальна кількість об'єктів, використаних для складання діагностичної матриці; N i- Число об'єктів з діагнозом D i; N ij- Число об'єктів з діагнозом D i ,обстежених за ознакою k j.Якщо надходить новий об'єкт із діагнозом D μ, то проводиться коригування колишніх апріорних ймовірностей діагнозів таким чином:

(5.20)

Далі вводяться виправлення до ймовірностей ознак. Нехай новий об'єкт з діагнозом D μвиявлено розряд rознаки k j.Тоді для подальшої діагностики приймаються нові значення ймовірності інтервалів ознаки k jпри діагнозі D μ:

(5.21)

Умовні ймовірності ознак при інших діагнозах коригування не вимагають.

приклад.Пояснимо метод Байєса. Нехай під час спостереження за газотурбінним двигуном перевіряються дві ознаки: k 1 - підвищення температури газу за турбіною більш ніж на 50 °С k 2- Збільшення часу виходу на максимальну частоту обертання більш ніж на 5 с. Припустимо, що для даного типу двигунів поява цих ознак пов'язана з несправністю паливного регулятора (стан D 1 ,), або зі збільшенням радіального зазору турбіні (стан D 2).

При нормальному стані двигуна (стан D 3) ознака k 1 не спостерігається, а ознака k 2 спостерігається у 5% випадків. На підставі статистичних даних відомо, що 80% двигунів виробляють ресурс у нормальному стані, 5% двигунів мають стан D 1 та 15% - стан D2.Відомо також, що ознака k 1 зустрічається при стані D 1 в 20%, а при стані D 2у 40% випадків; ознака k 2при стані D 1 зустрічається у 30%, а при стані D 2- у 50% випадків. Зведемо ці дані у діагностичну таблицю (табл. 5.2).

Знайдемо спочатку ймовірності станів двигуна, коли виявлено обидві ознаки k 1 та k 2 . Для цього, вважаючи ознаки незалежними, застосуємо формулу (5.15).

Ймовірність стану

Аналогічно отримаємо Р (D 2 /k 1 k 2) = 0,91; Р (D 3 /k 1 k 2)= 0.

Визначимо можливість станів двигуна, якщо обстеження показало, що підвищення температури не спостерігається (ознака k 1), але збільшується час виходу на максимальну частоту обертання (ознака k 2спостерігається). Відсутність ознаки k 1є ознака наявності (протилежна подія), причому Р (/Di)= 1 - Р (k 1/Di).

Для розрахунку застосовують також формулу (5.15), але значення Р (k 1 / Di)у діагностичній таблиці замінюють на Р (/Di).В цьому випадку

та аналогічно Р (D 2 / k 2)= 0,46; Р (D 3 / k 2)= 0,41. Обчислимо ймовірність станів у тому випадку, коли обидві ознаки відсутні. Аналогічно попередньому отримаємо

Зазначимо, що ймовірність станів D 1і D 2 відмінні від нуля, оскільки аналізовані ознаки є їм детерминирующими. З проведених розрахунків можна встановити, що за наявності ознак k 1і k 2у двигуні з ймовірністю 0,91 є стан D 1 ,тобто. збільшення радіального зазору. За відсутності обох ознак найімовірніше нормальний стан (імовірність 0,92). За відсутності ознаки k 1та наявності ознаки k 2ймовірності станів D 2і D 3приблизно однакові (0,46 та 0,41) і для уточнення стану двигуна потрібно проведення додаткових обстежень.

Таблиця 5.2

Ймовірності ознак та апріорні ймовірності станів

Вирішальне правило- правило, відповідно до якого приймається рішення про діагноз. У методі Байєса об'єкт із комплексом ознак До * відноситься до діагнозу з найбільшою (апостеріорною) ймовірністю

K* D i,якщо P(D i / K*) > P(D j / K*) (j = 1, 2,..., n; i ≠ j). (5.22)

Символ , що застосовується у функціональному аналізі, означає належність безлічі. Умова (5.22) вказує, що об'єкт, що має дану реалізацію комплексу ознак До * або, коротше, реалізація До * належить діагнозу (стану) D i.Правило (5.22) зазвичай уточнюється запровадженням порогового значення для ймовірності діагнозу:

P (D i /K *) P i, (5.23)

де P i.- заздалегідь обраний рівень розпізнаваннядля діагнозу D i. При цьому ймовірність найближчого конкуруючого діагнозу не вище 1 – P i. Зазвичай приймається P i≥ 0,9. За умови

P(D i /K *)

(5.24)

рішення про діагноз не приймається (відмова від розпізнавання) і потрібне надходження додаткової інформації.

Процес прийняття рішення у методі Байєса під час розрахунку на ЕОМ відбувається досить швидко. Наприклад, постановка діагнозу для 24 станів при 80 багаторозрядних ознак займає на ЕОМ з швидкодією 10 - 20 тисяч операцій на секунду всього кілька хвилин.

Як зазначалося, методу Байєса притаманні деякі недоліки, наприклад, похибки при розпізнаванні рідкісних діагнозів. При практичних розрахунках доцільно провести діагностику і випадку рівноймовірнісних діагнозів, поклавши

P(D i) = l / n (5.25)

Тоді найбільше значення апостеріорної ймовірності матиме діагноз D i, для котрого Р (K* /D i)максимальна:

K* D i,якщо P( K*/D i) > P( K*/D j)(j = 1, 2,..., n; i ≠ j). (5.26)

Іншими словами, встановлюється діагноз D iякщо ця сукупність ознак частіше зустрічається при діагнозі D i, ніж за інших діагнозів. Таке вирішальне правило відповідає методом максимальної правдоподібності.З попереднього випливає, що цей метод є окремим випадком методу Байєса при однакових апріорних ймовірностях діагнозів. У методі максимальної правдоподібності «часті» та «рідкісні» діагнози рівноправні.

Для надійності розпізнавання умова (5.26) має бути доповнена граничним значенням

P(K */D i) ≥ P i ,(5.27)

де P i- заздалегідь вибраний рівень розпізнавання для діагнозу D i.

В даний час Байєсовські методи набули досить широкого поширення і активно використовуються в різних галузях знань. Однак, на жаль, не так багато людей мають уявлення про те, що це таке і навіщо це потрібно. Однією з причин є велика кількість літератури російською. Тому тут спробую викласти їхні принципи настільки просто, наскільки зможу, почавши з самих азів (перепрошую, якщо комусь це здасться занадто простим).

Надалі я хотів би перейти до безпосередньо Байєсовського аналізу і розповісти про обробку реальних даних і про, на мій погляд, чудову альтернативу мові R (про неї трохи писалося) - Python з модулем pymc. Особисто мені Python здається набагато більш зрозумілим і логічним, ніж R з пакетами і BUGS , до того ж Python дає набагато більше. обільшу свободу і гнучкість (хоча в Python є і свої труднощі, але вони переборні, та й у простому аналізі трапляються нечасто).

Трохи історії

Як коротку історичну довідку скажу, що формула Байєса була опублікована аж у 1763 році через 2 роки після смерті її автора, Томаса Байєса. Однак, методи, що її використовують, набули дійсно широкого поширення лише до кінця ХХ століття. Це тим, що розрахунки вимагають певних обчислювальних витрат, і вони стали можливі лише з розвитком інформаційних технологій.

Про ймовірність і теорему Байєса

Формула Байєса і весь наступний виклад вимагає розуміння ймовірності. Докладніше про ймовірність можна почитати на Вікіпедії.
На практиці ймовірність настання події є частота настання цієї події, тобто відношення кількості спостережень події до загальної кількості спостережень за великої (теоретично нескінченної) загальної кількості спостережень.
Розглянемо наступний експеримент: ми називаємо будь-яке число з відрізка і стежимо за тим, що це число буде між, наприклад, 0.1 та 0.4. Як неважко здогадатися, ймовірність цієї події дорівнюватиме відношенню довжини відрізка до загальної довжини відрізка (іншими словами, відношення «кількості» можливих рівноймовірних значень до загальної «кількості» значень), тобто (0.4 - 0.1) / (1 - 0) = 0.3 , тобто ймовірність влучення у відрізок дорівнює 30%.

Тепер подивимося на квадрат x.

Допустимо, ми повинні називати пари чисел (x, y), кожне з яких більше за нуль і менше одиниці. Імовірність того, що x (перше число) буде в межах відрізка (показаний на першому малюнку як синя область, на даний момент для нас друге число y не важливо), дорівнює відношенню площі синьої області до площі всього квадрата, тобто (0.4 - 0.1 ) * (1 - 0) / (1 * 1) = 0.3, тобто 30%. Таким чином, можна записати, що ймовірність того, що x належить відрізку дорівнює p(0.1<= x <= 0.4) = 0.3 или для краткости p(X) = 0.3.
Якщо ми тепер подивимося на y, то, аналогічно, ймовірність того, що y знаходиться усередині відрізка дорівнює відношенню площі зеленої області до площі всього квадрата p(0.5<= y <= 0.7) = 0.2, или для краткости p(Y) = 0.2.
Тепер подивимося, що можна дізнатися про значення одночасно x та y.
Якщо ми хочемо знати, яка ймовірність того, що одночасно x та y знаходяться у відповідних заданих відрізках, то нам потрібно порахувати відношення темної площі (перетину зеленої та синьої областей) до площі всього квадрата: p(X, Y) = (0.4 - 0.1 ) * (0.7 - 0.5) / (1 * 1) = 0.06.

А тепер припустимо ми хочемо знати, яка ймовірність того, що y знаходиться в інтервалі , якщо x вже знаходиться в інтервалі . Тобто фактично у нас є фільтр і коли ми називаємо пари (x, y), то ми відразу відкидає ті пари, які не задовольняють умову знаходження x у заданому інтервалі, а потім із відфільтрованих пар ми вважаємо ті, для яких y задовольняє нашу умову і вважаємо ймовірність як відношення кількості пар, для яких y лежить у вищезгаданому відрізку до загальної кількості відфільтрованих пар (тобто для яких x лежить у відрізку). Ми можемо записати цю можливість як p(Y|X). Очевидно, що ця ймовірність дорівнює відношенню площі темної області (перетин зеленої та синьої областей) до площі синьої області. Площа темної області дорівнює (0.4 - 0.1) * (0.7 - 0.5) = 0.06, а площа синій (0.4 - 0.1) * (1 - 0) = 0.3, тоді їхнє відношення дорівнює 0.06 / 0.3 = 0.2. Інакше кажучи, ймовірність знаходження y на відрізку у тому, що x вже належить відрізку дорівнює p(Y|X) = 0.2.
Можна помітити, що з урахуванням всього вищесказаного та всіх наведених вище позначень ми можемо написати наступне вираження
p(Y|X) = p(X, Y) / p(X)

Коротко відтворимо всю попередню логіку тепер стосовно p(X|Y): ми називаємо пари (x, y) і фільтруємо ті, для яких y лежить між 0.5 і 0.7, тоді ймовірність того, що x знаходиться у відрізку за умови, що y належить відрізку дорівнює відношенню площі темної області до площі зеленої:
p(X|Y) = p(X, Y) / p(Y)

У двох наведених вище формулах бачимо, що член p(X, Y) однаковий, і ми можемо його виключити:

Ми можемо переписати останню рівність як

Це і є теорема Байєса.
Цікаво ще помітити, що p(Y) це фактично p(X,Y) при всіх значеннях X. Тобто, якщо ми візьмемо темну область і розтягнемо її так, що вона покриватиме всі значення X, вона точно повторюватиме зелену область , Отже, вона дорівнюватиме p(Y). На мові математики це означатиме таке:
Тоді ми можемо переписати формулу Байєса у такому вигляді:

Застосування теореми Байєса

Давайте розглянемо такий приклад. Візьмемо монетку та підкинемо її 3 рази. З однаковою ймовірністю ми можемо отримати такі результати (О – орел, Р – решка): ТОВ, ОРВ, ОРВ, ОРР, РОО, РОР, РРО, РРР.

Ми можемо порахувати скільки орлів випало кожному разі і скільки у своїй було змін орел-решка, решка-орел:

Ми можемо розглядати кількість орлів та кількість змін як дві випадкові величини. Тоді таблиця ймовірностей матиме такий вигляд:

Тепер ми можемо побачити формулу Байєса у дії.
Але насамперед проведемо аналогію з квадратом, який ми розглядали раніше.
Можна помітити, що p(1O) є сумою третього стовпця («синя область» квадрата) і дорівнює сумі всіх значень осередків у цьому стовпці: p(1O) = 2/8 + 1/8 = 3/8
p(1С) є сума третього рядка («зелена область» квадрата) і, аналогічно, дорівнює сумі всіх значень осередків у цьому рядку p(1С) = 2/8 + 2/8 = 4/8
Імовірність того, що ми отримали одного орла і одну зміну дорівнює перетину цих областей (тобто значення в клітці перетину третього стовпця та третього рядка) p(1С, 1О) = 2/8
Тоді, слідуючи формулам описаним вище, ми можемо порахувати можливість отримати одну зміну, якщо ми отримали одного орла в трьох кидках:
p(1С|1О) = p(1С, 1О) / p(1О) = (2/8) / (3/8) = 2/3
або можливість отримати одного орла, якщо ми отримали одну зміну:
p(1О|1С) = p(1С, 1О) / p(1С) = (2/8) / (4/8) = 1/2
Якщо ми порахуємо можливість отримати одну зміну за наявності одного орла p(1О|1С) через формулу Байєса, то отримаємо:
p(1О|1С) = p(1С|1О) * p(1О) / p(1С) = (2/3) * (3/8) / (4/8) = 1/2
Що ми отримали вище.

Але яке практичне значення має наведений вище приклад?
Справа в тому, що коли ми аналізуємо реальні дані, зазвичай нас цікавить якийсь параметр цих даних (наприклад, середня, дисперсія тощо). Тоді ми можемо провести наступну аналогію з вищенаведеною таблицею ймовірностей: нехай рядки будуть нашими експериментальними даними (позначимо їх Data), а стовпці - можливими значеннями параметра цих даних (позначимо його). Тоді нас цікавить можливість отримати певне значення параметра на основі наявних даних.
Ми можемо застосувати формулу Баейса і записати таке:

А згадавши формулу з інтегралом, можна записати таке:

Тобто фактично як результат нашого аналізу ми маємо ймовірність як функцію параметра. Тепер ми можемо, наприклад, максимізувати цю функцію і знайти найбільш ймовірне значення параметра, порахувати дисперсію і середнє значення параметра, порахувати межі відрізка, всередині якого параметр, що цікавить нас, лежить з ймовірністю 95% і ін.

Імовірність називають апостеріорною ймовірністю. І для того, щоб порахувати її, нам треба мати
- функцію правдоподібності та - апріорну ймовірність.
Функція правдоподібності визначається нашою моделлю. Тобто ми створюємо модель збору даних, яка залежить від параметра, що нас цікавить. Наприклад, ми хочемо інтерполувати дані за допомогою прямої y = a * x + b (таким чином ми припускаємо, що всі дані мають лінійну залежність з накладеним на неї гаусовим шумом з відомою дисперсією). Тоді a і b - це наші параметри, і ми хочемо дізнатися про їх найбільш ймовірні значення, а функція правдоподібності - гаус із середнім, заданим рівнянням прямою, і даною дисперсією.
Апріорна ймовірність включає інформацію, яку ми знаємо до проведення аналізу. Наприклад, ми точно знаємо, що пряма повинна мати позитивний нахил, або, що значення в точці перетину з віссю x має бути позитивним, - все це і не тільки ми можемо інкорпорувати наш аналіз.
Як можна помітити, знаменник дробу є інтегралом (або у випадку, коли параметри можуть приймати лише певні дискретні значення сумою) чисельника по всіх можливих значеннях параметра. Практично це означає, що знаменник є константою і служить для того, щоб нормалізувати апостеріорну ймовірність (тобто, щоб інтеграл апостеріорної ймовірності дорівнював одиниці).

На цьому я хотів би закінчити свою посаду (продовження

Ця формула відноситься до випадку, коли обстеження проводиться за комплексом ознак До, що включає ознаки k 1 ,k 2 , ..., k v . Кожна з ознак k j має m jрозрядів ( k j l , k j 2 , ..., k js, ...,). В результаті обстеження стає відомою реалізація ознаки

k j * = k js (1.5.)

та всього комплексу ознак K*. Індекс, як і раніше, означає конкретне значення (реалізацію) ознаки. Формула Байєса для комплексу ознак має вигляд

P(D i /До* )= P(D i)P(До */D i)/P(До* )(i = 1, 2, ..., n), (1.6.)

де P (D i /До* ) --імовірність діагнозу D iпісля того, як стали відомі результати обстеження з комплексу ознак До, P (D i) -попередня ймовірність діагнозу D i(за попередньою статистикою).

Формула (1.6.) відноситься до будь-якого з nможливих станів (діагнозів) системи. Передбачається, що система знаходиться лише в одному із зазначених станів і тому

У практичних завданнях нерідко допускається можливість існування кількох станів А1, ….., Аr, причому деякі можуть зустрітися у комбінації друг з одним.

P(До*/ D i) = P(k 1 */D i)P (k 2 */k 1 *D i)...P (k v */k l *...k* v- 1 D i), (1.8.)

де k j * =k js- Розряд ознаки, що виявився в результаті обстеження. Для діагностично незалежних ознак

P (До*/ D i) = P (k 1 */D i) P (k 2 */D i)... P (k v * / D i). (1.9.)

У більшості практичних завдань, особливо за великої кількості ознак, можна приймати умову незалежності ознак навіть за наявності суттєвих кореляційних зв'язків між ними.

Ймовірність появи комплексу ознак К*

P(До *)= P(D s )P(До */D s ) .(1.10.)

Узагальнена формула Байєса може бути записана так :

P(D i /K* ) (1.11.)

де P (До*/ D i) визначається рівністю (1.8.) або (1.9.). Зі співвідношення (1.11.) випливає

P(D i /До *) = l, (1.12.)

що, зрозуміло, і має бути, тому що один із діагнозів обов'язково реалізується, а реалізація одночасно двох діагнозів неможлива. Слід звернути увагу на те, що знаменник формули Байєса всім діагнозів однаковий.Це дозволяє спочатку визначити ймовірності спільної появи i-го діагнозу та даної реалізації комплексу ознак

P(D i До *) = P(D i)P(До */D i) (1.13.)

і потім апостеріорну ймовірність діагнозу

P (D i /До *) = P(D i До *)/P(D s До *). (1.14.)

Зазначимо, що іноді доцільно використовувати попереднє логарифмування формули (1.11), оскільки вираз (1.9) містить твори малих величин.

Якщо реалізація деякого комплексу ознак До * є детермінуючоїдля діагнозу D p , цей комплекс не зустрічається при інших діагнозах:

Тоді, через рівність (1.11.)

Таким чином, детерміністська логіка встановлення діагнозу є окремим випадком імовірнісної логіки. Формула Байєса може використовуватися й у тому випадку, коли частина ознак має дискретний розподіл, а інша частина – безперервне. Для безперервного розподілу використовуються густини розподілу. Однак у розрахунковому плані зазначена відмінність ознак неістотна, якщо завдання безперервної кривої здійснюється за допомогою сукупності дискретних значень.

Хто такий Байєс? та яке відношення він має до менеджменту? – може бути цілком справедливе питання. Поки що повірте мені на слово: це дуже важливо!.. і цікаво (принаймні мені).

У якій парадигмі діють більшість менеджерів: якщо я спостерігаю щось, які висновки можу зробити з цього? Чому вчить Байєс: що насправді має бути, щоб мені довелося спостерігати це щось? Саме так розвиваються всі науки, і про це пише (цитую по пам'яті): людина, яка не має в голові теорії, шарахатиметься від однієї ідеї до іншої під впливом різних подій (спостережень). Недарма кажуть: немає нічого практичного, ніж хороша теорія.

Приклад із практики. Мій підлеглий робить помилку, і мій колега (керівник іншого відділу) каже, що треба було б зробити управлінський вплив на недбайливого співробітника (простіше кажучи, покарати/оббругати). А я знаю, що цей співробітник робить 4-5 тисяч однотипних операцій на місяць, і робить за цей час не більше 10 помилок. Відчуваєте різницю в парадигмі? Мій колега реагує на спостереження, а я володію апріорним знанням, що співробітник припускається певної кількості помилок, так що ще одна не вплинула на це знання… Ось якщо за підсумками місяця виявиться, що таких помилок, наприклад, 15!.. Це вже стане приводом вивчення причин невідповідності стандартам.

Переконав у важливості Байєсовського підходу? Заінтригував? Сподіваюсь що так". А тепер ложка дьогтю. На жаль, ідеї Байєса рідко даються з першого заходу. Мені відверто не пощастило, тому що я знайомився з цими ідеями з популярної літератури, після прочитання якої залишалося багато питань. Плануючи написати нотатку, я зібрав усе, що раніше конспектував Байєсу, а також вивчив, що пишуть в Інтернеті. Пропоную вашій увазі моє найкраще припущення на тему Введення в Байєсовську можливість.

Виведення теореми Байєса

Розглянемо наступний експеримент: ми називаємо будь-яке число, що лежить на відрізку, і фіксуємо, коли це число буде, наприклад, між 0,1 і 0,4 (рис. 1а). Імовірність цієї події дорівнює відношенню довжини відрізка до загальної довжини відрізка за умови, що появи чисел на відрізку рівноймовірні. Математично це можна записати p(0,1 <= x <= 0,4) = 0,3, или кратко р(X) = 0,3, де р- Імовірність, х- Випадкова величина в діапазоні , Х- Випадкова величина в діапазоні . Тобто ймовірність попадання у відрізок дорівнює 30%.

Мал. 1. Графічна інтерпретація ймовірностей

Тепер розглянемо квадрат x (рис. 1б). Допустимо, ми повинні називати пари чисел ( x, y), кожне з яких більше нуля та менше одиниці. Імовірність того, що x(перше число) буде в межах відрізка (синя область 1), що дорівнює відношенню площі синьої області до площі всього квадрата, тобто (0,4 – 0,1) * (1 – 0) / (1 * 1) = 0, 3, тобто ті ж 30%. Імовірність того, що yзнаходиться всередині відрізка (зелена область 2) дорівнює відношенню площі зеленої області до площі всього квадрата p(0,5 <= y <= 0,7) = 0,2, или кратко р(Y) = 0,2.

Що можна дізнатися про значення одночасно xі y. Наприклад, яка ймовірність того, що одночасно xі yперебувають у відповідних заданих відрізках? Для цього треба порахувати відношення площі області 3 (перетину зеленої та синьої смуг) до площі всього квадрата: p(X, Y) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

А тепер припустимо ми хочемо знати яка ймовірність того, що yзнаходиться в інтервалі, якщо xвже знаходиться в інтервалі. Тобто фактично у нас є фільтр і коли ми називаємо пари ( x, y), то ми відразу відкидає ті пари, які не задовольняють умову знаходження xу заданому інтервалі, а потім з відфільтрованих пар ми вважаємо ті, для яких yзадовольняє нашій умові і вважаємо ймовірність як відношення кількості пар, для яких yлежить у вищезгаданому відрізку до загальної кількості відфільтрованих пар (тобто для яких xлежить у відрізку). Ми можемо записати цю ймовірність як p(Y|X у хпотрапив у діапазоні». Очевидно, що ця ймовірність дорівнює відношенню площі області 3 до площі синьої області 1. Площа області 3 дорівнює (0,4 – 0,1) * (0,7 – 0,5) = 0,06, а площа синьої області 1 ( 0,4 – 0,1) * (1 – 0) = 0,3, тоді їхнє відношення дорівнює 0,06 / 0,3 = 0,2. Іншими словами, можливість знаходження yна відрізку за умови, що xналежить відрізку p(Y|X) = 0,2.

У попередньому абзаці ми фактично сформулювали тотожність: p(Y|X) = p(X, Y) / p ( X). Читається: «імовірність влучення ув діапазон , за умови, що хпотрапив у діапазон , що дорівнює відношенню ймовірності одночасного влучення хв діапазон та ув діапазон, до ймовірності попадання ху діапазон».

За аналогією розглянемо ймовірність p(X|Y). Ми називаємо пари ( x, y) і фільтруємо ті, для яких yлежить між 0,5 і 0,7, тоді ймовірність того, що xзнаходиться у відрізку за умови, що yналежить відрізку дорівнює відношенню площі області 3 до площі зеленої області 2: p(X|Y) = p(X, Y) / p(Y).

Зауважимо, що ймовірності p(X, Y) та p(Y, Х) рівні, і обидві рівні відношенню площі зони 3 до площі всього квадрата, а ось ймовірності p(Y|X) та p(X|Y) не рівні; при цьому ймовірність p(Y|X) дорівнює відношенню площі області 3 до області 1, а p(X|Y) – області 3 до області 2. Зауважимо також, що p(X, Y) часто позначають як p(X&Y).

Отже, ми запровадили два визначення: p(Y|X) = p(X, Y) / p ( X) та p(X|Y) = p(X, Y) / p(Y)

Перепишемо ці рівності у вигляді: p(X, Y) = p(Y|X) * p ( X) та p(X, Y) = p(X|Y) * p(Y)

Оскільки ліві частини рівні, рівні та праві: p(Y|X) * p ( X) = p(X|Y) * p(Y)

Або ми можемо переписати останню рівність у вигляді:

Це і є теорема Байєса!

Невже такі нескладні (майже тавтологічні) перетворення народжують велику теорему! Не поспішайте з висновками. Давайте ще раз проговоримо, що ми отримали. Була якась вихідна (апріорна) можливість р(Х), того, що випадкова величина хрівномірно розподілена на відрізку потрапляє у діапазон Х. Сталася якась подія Y, в результаті якого ми отримали апостеріорну ймовірність тієї ж самої випадкової величини х: р(Х|Y), і ця ймовірність відрізняється від р(Х) на коефіцієнт . Подія Yназивається свідченням, що більшою чи меншою мірою підтверджує або спростовує Х. Зазначений коефіцієнт іноді називають потужністю свідоцтва. Чим потужніше свідчення, тим більше факт спостереження Y змінює апріорну ймовірність, тим більше апостеріорна ймовірність відрізняється від апріорної. Якщо свідчення слабке, апостеріорна ймовірність майже дорівнює апріорній.

Формула Байєса для дискретних випадкових величин

У попередньому розділі ми вивели формулу Байєса для безперервних випадкових величин x та y, визначених на відрізку . Розглянемо приклад із дискретними випадковими величинами, що приймають кожна по два можливі значення. У ході проведення планових медичних оглядів встановлено, що в сорокарічному віці 1% жінок хворіють на рак молочної залози. 80% жінок хворих на рак отримують позитивні результати мамографії. 9,6% здорових жінок також одержують позитивні результати мамографії. У ході проведення огляду жінка цієї вікової групи отримала позитивний результат мамографії. Яка ймовірність того, що вона насправді має рак молочної залози?

Хід міркувань/обчислень наступний. З 1% хворих на рак мамографія дасть 80% позитивних результатів = 1% * 80% = 0,8%. З 99% здорових жінок мамографія дасть 9,6% позитивних результатів = 99% * 9,6% = 9,504%. Разом із 10,304% (9,504% + 0,8%) із позитивними результатами мамографії, лише 0,8% хворих, а решта 9,504% здорових. Таким чином, ймовірність того, що при позитивному результаті мамографії жінка хвора на рак становить 0,8%/10,304% = 7,764%. А ви думали, що 80% чи близько того?

У нашому прикладі формула Байєса набуває такого вигляду:

Давайте ще раз проговоримо «фізичний» зміст цієї формули. Х- Випадкова величина (діагноз), що приймає значення: Х 1- Хворий і Х 2- Здоровий; Y- Випадкова величина (результат вимірювання -мамографії), що приймає значення: Y 1– позитивний результат та Y 2- Негативний результат; р(Х 1)- ймовірність хвороби до проведення мамографії (апріорна ймовірність), що дорівнює 1%; р(Y 1 |X 1 ) - ймовірність позитивного результату у разі, якщо пацієнтка хвора (умовна ймовірність, оскільки вона має бути задана в умовах завдання), що дорівнює 80%; р(Y 1 |X 2 ) – ймовірність позитивного результату у разі, якщо пацієнтка здорова (також умовна ймовірність), що дорівнює 9,6%; р(Х 2)- ймовірність того, що пацієнтка здорова до проведення мамографії (апріорна ймовірність), що дорівнює 99%; р(Х 1|Y 1 ) – ймовірність того, що пацієнтка хвора за умови позитивного результату мамографії (апостеріорна ймовірність).

Видно, що апостеріорна ймовірність (те, що ми шукаємо) пропорційна апріорній ймовірності (вихідній) з дещо складнішим коефіцієнтом . Наголошу ще раз. На мою думку, це фундаментальний аспект Байєсовського підходу. Вимірювання ( Y) додало деяку кількість інформації до наявної (апріорної), що уточнило наше знання про об'єкт.

Приклади

Для закріплення пройденого матеріалу спробуйте вирішити декілька завдань.

приклад 1.Є 3 урни; у першій 3 білих кулі та 1 чорна; у другій - 2 білі кулі та 3 чорні; у третій - 3 білі кулі. Хтось підходить навмання до однієї з урн і виймає з неї одну кулю. Ця куля виявилася білою. Знайдіть апостеріорні ймовірності того, що куля вийнято з 1-ї, 2-ї, 3-ї урни.

Рішення. У нас є три гіпотези: Н 1 = (обрана перша урна), Н 2 = (обрана друга урна), Н 3 = (обрана третя урна). Оскільки урна вибирається навмання, то апріорні можливості гіпотез рівні: Р(Н 1) = Р(Н 2) = Р(Н 3) = 1/3.

В результаті досвіду з'явилася подія А = (з обраної урни вийнята біла куля). Умовні ймовірності події А при гіпотезах Н1, Н2, Н3: Р(A|Н1) = 3/4, Р(A|Н2) = 2/5, Р(A|Н3) = 1. Наприклад , перше рівність читається так: «ймовірність вийняти білу кулю, якщо обрана перша урна дорівнює 3/4 (оскільки всього куль у першій урні 4, а білих їх – 3)».

Застосовуючи формулу Бейєса, знаходимо апостеріорні ймовірності гіпотез:

Таким чином, у світлі інформації про появу події А ймовірності гіпотез змінилися: найбільш ймовірною стала гіпотеза Н 3 найменш ймовірною - гіпотеза Н 2 .

приклад 2.Два стрілки незалежно один від одного стріляють по одній і тій же мішені, роблячи кожен по одному пострілу. Імовірність влучення у мету першого стрілка дорівнює 0,8, другого - 0,4. Після стрілянини в мішені виявлено одну пробоїну. Знайти ймовірність того, що ця пробоїна належить першому стрілку (Вихід (обидві пробоїни збіглися) відкидаємо, як мізерно малоймовірний).

Рішення. До досвіду можливі наступні гіпотези: Н 1 = (ні перший, ні другий стрілки не потраплять), Н 2 = (обидва стрілки потраплять), H 3 - (перший стрілок потрапить, а другий - ні), H 4 = (перший стрілок не потрапить, а другий потрапить). Апріорні ймовірності гіпотез:

Р(H 1) = 0,2 * 0,6 = 0,12; Р(H 2) = 0,8 * 0,4 = 0,32; Р(H3) = 0,8 * 0,6 = 0,48; Р(H 4) = 0,2 * 0,4 = 0,08.

Умовні ймовірності спостереженої події А = (у мішені одна пробоїна) за цих гіпотез рівні: P(A|H 1) = P(A|H 2) = 0; P(A|H 3) = P(A|H 4) = 1

Після досвіду гіпотези H 1 і H 2 стають неможливими, а апостеріорні ймовірності гіпотез H 3 і H 4 за формулою Бейєса будуть:

Байєс проти спаму

Формула Байєса знайшла широке застосування у розробці спам-фільтрів. Припустимо, ви хочете навчити комп'ютер визначати, які листи є спамом. Виходитимемо зі словника та словосполучень, використовуючи байєсовські оцінки. Створимо спочатку простір гіпотез. Нехай щодо будь-якого листа ми маємо 2 гіпотези: H A – це спам, H B – це спам, а нормальне, потрібне, лист.

Спочатку «навчимо» нашу майбутню систему боротьби зі спамом. Візьмемо всі листи і розділимо їх на дві «купи» по 10 листів. В одну відкладемо спам-листи та назвемо її купою H A , в іншу – потрібну кореспонденцію та назвемо її купою H B . Тепер подивимося: які слова та словосполучення зустрічаються в спам-і потрібних листах і з якою частотою? Ці слова та словосполучення назвемо свідченнями і позначимо E 1 , E 2 … З'ясовується, що загальновживані слова (наприклад, слова «як», «твій») у купах H A і H B зустрічаються приблизно з однаковою частотою. Таким чином, наявність цих слів у листі нічого не говорить нам про те, до якої купи його віднести (слабке свідчення). Надамо цим словам нейтральне значення оцінки ймовірності «спамності», скажімо, 0,5.

Нехай словосполучення «розмовна англійська» зустрічається всього в 10 листах, причому частіше в спам-листах (наприклад, в 7 спам-листах з усіх 10), ніж у потрібних (3 з 10). Поставимо цього словосполучення для спаму вищу оцінку 7/10, а нормальних листів нижчу: 3/10. І навпаки, з'ясувалося, що слово «дружище» найчастіше зустрічалося у нормальних листах (6 із 10). І ось ми отримали коротенький лист: «Дружище! Як твоя розмовна англійська?». Спробуємо оцінити його «спамність». Загальні оцінки P(H A), P(H B) приналежності листа до кожної купи поставимо, скориставшись дещо спрощеною формулою Байєса та нашими приблизними оцінками:

P(H A) = A/(A+B), деА = p a1 * p a2 * ... * p an , B = p b1 * p b2 * ... * p b n = (1 - p a1) * (1 - p a2) * ... * (1 - p an).

Таблиця 1. Спрощена (і неповна) Байєс-оцінка листа

Таким чином, наш гіпотетичний лист отримав оцінку ймовірності приналежності з акцентом у бік «спамності». Чи можемо ми ухвалити рішення про те, щоб кинути листа в одну з куп? Виставимо пороги прийняття рішень:

  • Вважатимемо, що лист належить купі H i , якщо P(H i) ≥ T.
  • Лист не належить купі, якщо P(H i) ≤ L.
  • Якщо ж L ≤ P(H i) ≤ T, то не можна ухвалити жодного рішення.

Можна прийняти T = 0,95 та L = 0,05. Оскільки для розглянутого листа і 0,05< P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

Так. Давайте обчислимо оцінку для кожного свідчення іншим способом, оскільки це, власне, і запропонував Байєс. Нехай:

F a – це загальна кількість листів спаму;

F ai – це кількість листів із свідченням iу купі спаму;

F b - це загальна кількість необхідних листів;

F bi – це кількість листів із свідченням iу купі необхідних (релевантних) листів.

Тоді: p ai = F ai / Fa , p bi = F bi / F b . P(H A) = A/(A+B), P(H B) = B/(A+B), деА = p a1 * p a2 * ... * p an , B = p b1 * p b2 * ... * p b n

Зверніть увагу – оцінки слів-свідчень p ai та p bi стали об'єктивними та їх можна обчислювати без участі людини.

Таблиця 2. Більш точна (але неповна) Байєс-оцінка за готівковими ознаками з листа

Ми отримали цілком певний результат – з великою перевагою з ймовірністю листа можна віднести до потрібних листів, оскільки P(H B) = 0,997 > T = 0,95. Чому результат змінився? Тому, що ми використовували більше інформації – ми врахували кількість листів у кожній купі і, до речі, набагато коректніше визначили оцінки p ai і p bi . Визначили їх так, як це зроблено у Байєса, обчисливши умовні ймовірності. Іншими словами, p a3 – це ймовірність появи у листі слова «дружище» за умови того, що цей лист вже належить спам-купі H A . Результат не забарився – здається, ми можемо прийняти рішення з більшою визначеністю.

Байєс проти корпоративного шахрайства

Цікаве застосування Байєсовського підходу описав MAGNUS8.

У моєму поточному проекті (ІВ для виявлення шахрайства на виробничому підприємстві) використовується формула Байєса для визначення ймовірності фроду (шахрайства) за наявності/відсутності кількох фактів, що побічно свідчать на користь гіпотези про можливість здійснення фроду. Алгоритм самонавчаємо (зі зворотним зв'язком), тобто. перераховує свої коефіцієнти (умовні ймовірності) за фактичного підтвердження чи непідтвердження фрода під час перевірки службою економічної безпеки.

Варто, мабуть, сказати, що такі методи під час проектування алгоритмів вимагають досить високої математичної культури розробника, т.к. Найменша помилка у виведенні та/або реалізації обчислювальних формул зведе нанівець і дискредитує весь метод. Імовірнісні методи особливо цим грішать, оскільки мислення людини не пристосоване для роботи з ймовірнісними категоріями і, відповідно, відсутня «наочність» та розуміння «фізичного сенсу» проміжних та підсумкових ймовірнісних параметрів. Таке розуміння є лише для базових понять теорії ймовірностей, а далі потрібно лише дуже акуратно комбінувати та виводити складні речі за законами теорії ймовірностей – здоровий глузд для композитних об'єктів вже не допоможе. З цим, зокрема, пов'язані досить серйозні методологічні баталії, що проходять на сторінках сучасних книг з філософії ймовірності, а також велика кількість софізмів, парадоксів та задач-курйозів на цю тему.

Ще один нюанс, з яким довелося зіткнутися - на жаль, практично все більш-менш КОРИСНЕ НА ПРАКТИЦІ на цю тему написано англійською мовою. У російськомовних джерелах переважно лише загальновідома теорія з демонстраційними прикладами лише найпримітивніших випадків.

Повністю погоджуся з останнім зауваженням. Наприклад, Google при спробі знайти щось на кшталт «книги Байєсовськая ймовірність», нічого виразного не видав. Щоправда, повідомив, що книгу з байєсівською статистикою заборонили у Китаї. (Професор статистики Ендрю Гельман повідомив у блозі Колумбійського університету, що його книгу «Аналіз даних за допомогою регресії та багаторівневих/ієрархічних моделей» заборонили публікувати в Китаї. Тамтешнє видавництво повідомило, що «книга не отримала схвалення влади через різні політично чутливі матеріали тексте».) Цікаво, чи не аналогічна причина призвела до відсутності книг з Байєсівської ймовірності в Росії?

Консерватизм у процесі обробки інформації людиною

Імовірності визначають ступінь невизначеності. Імовірність, як згідно з Баєсом, так і нашої інтуїції, становить просто число між нулем і тим, що представляє ступінь, для якого дещо ідеалізована людина вважає, що твердження вірне. Причина, через яку людина дещо ідеалізована, полягає в тому, що сума її ймовірностей для двох взаємно виключних подій повинна дорівнювати її ймовірності того, що відбудеться будь-яка з цих подій. Властивість адитивності має такі наслідки, що мало реальних людей можуть відповідати їм усім.

Теорема Байєса – це очевидне наслідок якості адитивності, безперечне і узгоджене всім прибічників ймовірностей, як Байєса, і інших. Один з способів написати це наступний. Якщо Р(H А |D) - наступна ймовірність того, що гіпотеза А була після того, як дана величина D спостерігалася, Р(H А) - його апріорна ймовірність до того, як спостерігалася дана величина D, Р(D|H А ) – ймовірність того, що дана величина D спостерігатиметься, якщо правильно Н А, а Р(D) – безумовна ймовірність даної величини D, то

(1) Р(H А | D) = Р (D | H А) * Р (H А) / Р (D)

Р(D) найкраще розглядати як нормалізуючу константу, що змушує апостеріорні ймовірності скласти в цілому одиницю по вичерпному набору гіпотез, що взаємно виключають, які розглядаються. Якщо її необхідно підрахувати, вона може бути такою:

Але частіше Р(D) усувається, а чи не підраховується. Зручний спосіб усувати її полягає в тому, щоб перетворити теорему Байєса у форму відношення ймовірність-шанси.

Розглянемо іншу гіпотезу, Н B , що взаємно виключає Н А, і змінимо думку про неї на основі тієї ж самої даної величини, яка змінила вашу думку про Н А. Теорема Байєса каже, що

(2) Р(H B | D) = Р (D | H B) * Р (H B) / Р (D)

Тепер розділимо рівняння 1 на рівняння 2; результат буде таким:

де Ω 1 – апостеріорні шанси на користь Н А через H B , Ω 0 – апріорні шанси; Рівняння 3 – це така ж відповідна версія теореми Байєса як і Рівняння 1, і часто значно корисніша особливо для експериментів за участю гіпотез. Прихильники Байєса стверджують, що теорема Байєса – формально оптимальне правило про те, як переглядати думки у світлі нових даних.

Ми цікавимося порівнянням ідеальної поведінки, визначеної теоремою Байєса, з фактичною поведінкою людей. Щоб дати вам деяке уявлення про те, що це означає, спробуємо провести експеримент з вами як з випробуваним. Ця сумка містить 1000 фішок покеру. У мене дві такі сумки, причому в одній 700 червоних та 300 синіх фішок, а в іншій 300 червоних та 700 синіх. Я підкинув монету, щоби визначити, яку використовувати. Таким чином, якщо наші думки збігаються, ваша ймовірність в даний час випаде сумка, в якій більше червоних фішок - 0,5. Тепер, Ви навмання складаєте вибірку з поверненням після кожної фішки. У 12 фішках ви отримуєте 8 червоних та 4 синіх. Тепер, на основі всього, що ви знаєте, яка ймовірність того, що випала сумка, де більше червоних? Зрозуміло, що вона вища, ніж 0,5. Будь ласка, не продовжуйте читати, доки ви не записали вашу оцінку.

Якщо ви схожі на типового випробуваного, ваша оцінка потрапила до діапазону від 0,7 до 0,8. Якби ми зробили відповідне обчислення, проте відповідь була б 0,97. Дійсно дуже рідко людина, якій попередньо не продемонстрували вплив консерватизму, приходить до такої високої оцінки, навіть якщо вона була знайома з теоремою Байєса.

Якщо частка червоних фішок у сумці – р, то ймовірність отримання rчервоних фішок та ( n –r) синіх в nвибірках із поверненням – p r (1-p)n-r. Так, у типовому експерименті з сумкою та покерними фішками, якщо НAозначає, що частка червоних фішок становить р Аі НB- означає, що частка складає рB, Тоді ставлення ймовірності:

При застосуванні формули Байєса необхідно враховувати лише ймовірність фактичного спостереження, а не ймовірності інших спостережень, які він, можливо, зробив би, але не зробив. Цей принцип має широке вплив на всі статистичні та нестатистичні застосування теореми Байєса; це найважливіший технічний інструмент роздумів Байєса.

Байєсівська революція

Ваші друзі та колеги розмовляють про щось під назвою «Теорема Байєса» або «Байєсовське правило», або про щось під назвою байєсівське мислення. Вони дійсно зацікавлені в цьому, так що ви лізете в інтернет і знаходите сторінку про теорему Байєса і це рівняння. І все… Чому математична концепція породжує в думці такий ентузіазм? Що за «Байєсіанська революція» відбувається в середовищі вчених, причому стверджується, що навіть сам експериментальний підхід може бути описаний, як її окремий випадок? У чому секрет, який знають послідовники Байєса? Що за світло вони бачать?

Байєсівська революція в науці відбулася не тому, що дедалі більше когнітивних учених раптово почали помічати, що ментальні явища мають байєсівську структуру; не тому, що вчені в кожній області почали використовувати байєсівський метод; але тому, що наука сама по собі є окремим випадком теореми Байєса; експериментальне свідчення є байєсовським свідченням. Байєсівські революціонери стверджують, що коли ви виконуєте експеримент і отримуєте свідоцтво, яке «підтверджує» або «заперечує» вашу теорію, це підтвердження чи спростування відбувається за байєсовськими правилами. Для прикладу, ви повинні брати до уваги не тільки те, що ваша теорія може пояснити явище, але й те, що є інші можливі пояснення, які можуть передбачити це явище.

Раніше найбільш популярною філософією науки була – стара філософія, яка була зміщена байєсовською революцією. Ідея Карла Поппера, що теорії можуть бути повністю сфальсифіковані, проте ніколи не можуть бути повністю підтверджені, це ще один окремий випадок байєсівських правил; якщо p(X|A) ≈ 1 – якщо теорія робить вірні передбачення, тоді спостереження ~X дуже фальсифікує А. З іншого боку, якщо p(X|A) ≈ 1 і ми спостерігаємо Х, це не дуже сильно підтверджує теорію; можливо якась інша умова В, така що p(X|B) ≈ 1, і при якому спостереження Х не свідчить на користь А але свідчить на користь В. Для спостереження Х, що безумовно підтверджує А, ми повинні були б знати не те, що p(X|A) ≈ 1, а що p(X|~A) ≈ 0, що ми не можемо знати, оскільки ми не можемо розглядати всі можливі альтернативні пояснення. Наприклад, коли ейнштейнівська теорія загальної відносності перевершила ньютонівську добре підтверджувану теорію гравітації, це зробило все передбачення ньютонівської теорії окремим випадком пророкування ейнштейнівської.

Схожим чином, попперівська заява, що ідея має бути фальсифікована, може бути інтерпретована як маніфестація байєсовського правила про збереження ймовірності; якщо результат Х є позитивним свідченням для теорії, тоді результат Х повинен спростовувати теорію в якомусь обсязі. Якщо ви намагаєтеся інтерпретувати обидва Х і ~Х як ті, що «підтверджують» теорію, байєсовські правила кажуть, що це неможливо! Щоб збільшити ймовірність теорії, ви повинні піддати її тестам, які потенційно можуть знизити її ймовірність; це не просто правило, щоб виявляти шарлатанів у науці, але наслідок теореми байесівської ймовірності. З іншого боку, ідея Поппера, що потрібна лише фальсифікація і не потрібне підтвердження є невірною. Теорема Байєса показує, що фальсифікація це дуже сильне свідчення, порівняно з підтвердженням, але фальсифікація все ще ймовірна за своєю природою; вона не управляється фундаментально іншими правилами і не відрізняється від підтвердження, як стверджує Поппер.

Таким чином, ми виявляємо, що багато явищ у когнітивних науках, плюс статистичні методи, що використовуються вченими, плюс науковий метод сам по собі – всі вони є окремими випадками теореми Байєса. У цьому полягає Байєсовська революція.

Ласкаво просимо до Байєсовської Змови!

Література з Баєсівської ймовірності

2. Дуже багато різних застосувань Байєса визначає нобелівський лауреат з економіки Канеман (з товаришами) у чудовій книзі. Лише у моєму короткому конспекті цієї великої книги я нарахував 27 згадок імені пресвітеріанського священика. Мінімум формул. (.. Мені дуже сподобалася. Правда, складна, багато математики (а куди без неї), але окремі розділи (наприклад, глава 4. Інформація), явно по темі. Раджу всім. Навіть, якщо математика для вас складна, читайте через рядок , пропускаючи математику, і вивуджуючи корисні зерна.

14. (доповнення від 15 січня 2017 р.), глава з книги Тоні Кріллі. 50 ідей, про які потрібно знати. Математика.

Фізик Нобелівський лауреат Річарда Фейнмана, відгукуючись про одного філософа з особливо великою зарозумілістю, якось сказав: «Мене дратує зовсім не філософія як наука, а помпезність, яка створена навколо неї. Якби тільки філософи могли самі з себе посміятися! Якби тільки вони могли сказати: «Я говорю, що це ось так, а Фон Лейпциг вважав, що це по-іншому, а він теж дещо в цьому тямить». Якби тільки вони не забували пояснити, що це лише їх .