Объем обрабатываемых данных во всех областях человеческой деятельности продолжает расти быстрыми темпами. Существуют ли эффективные приемы работы с ним? В этой книге рассказывается об Apache Spark, открытой системе кластерных вычислений, которая позволяет быстро создавать высокопроизводительные программы анализа данных. С помощью Spark вы сможете манипулировать огромными объемами данных посредством простого API на Python, Java и Scala. Написанная разработчиками Spark, эта книга поможет исследователям данных и программистам быстро включиться в работу. Она рассказывает, как организовать параллельное выполнение заданий всего несколькими строчками кода, и охватывает примеры от простых пакетных приложений до программ, осуществляющих обработку потоковых данных и использующих алгоритмы машинного обучения.
Obem obrabatyvaemykh dannykh vo vsekh oblastjakh chelovecheskoj dejatelnosti prodolzhaet rasti bystrymi tempami. Suschestvujut li effektivnye priemy raboty s nim? V etoj knige rasskazyvaetsja ob Apache Spark, otkrytoj sisteme klasternykh vychislenij, kotoraja pozvoljaet bystro sozdavat vysokoproizvoditelnye programmy analiza dannykh. S pomoschju Spark vy smozhete manipulirovat ogromnymi obemami dannykh posredstvom prostogo API na Python, Java i Scala. Napisannaja razrabotchikami Spark, eta kniga pomozhet issledovateljam dannykh i programmistam bystro vkljuchitsja v rabotu. Ona rasskazyvaet, kak organizovat parallelnoe vypolnenie zadanij vsego neskolkimi strochkami koda, i okhvatyvaet primery ot prostykh paketnykh prilozhenij do programm, osuschestvljajuschikh obrabotku potokovykh dannykh i ispolzujuschikh algoritmy mashinnogo obuchenija.