Критерии обнаружения и корреляции аномалий

Помимо различных скучных и привычных как чистка зубов по утрам критериев для проверки среднего, дисперсии и нормальности, есть и критерии, которые позволяют творить настоящие чудеса — определять наличие аномалий в каких-то графиках и корреляции между величинами. Естественно, что корреляции можно найти между чем угодно (например, между ростом расходов США на науку и количеством самоубийств), но это только один из примеров того, что корреляция не предполагает логическую зависимость. Помимо этого есть возможность понять что что-то идёт не так. Не иметь жалкие подозрения, а действительно подтвердить свои мысли результатами проверки критериев.

Continue reading

Машинное обучение, анализ данных — это следующая индустриальная революция

Я много пишу про анализ данных или про большие данные. Но многие из моих друзей имеют весьма смутное представление о том, что это такое и почему это так круто.

Анализ данных — это то, почему вы видите похожие товары, когда покупаете что-нибудь в интернет-магазине. Это то, почему лучшие сайты оказываются на первой странице гугла. Благодаря им, авиакомпании могут делать скидки на билеты, потому что понимают, что спрос на них падает.  Благодаря машинному обучению можно предсказать, сколько человек придёт на выборы, какая команда выиграет матч или даже беременность по изменившемуся списку еженедельных покупок.

Continue reading