С распространением больших данных растет спрос на вычислительную и алгоритмическую эффективность. Главная задача настоящей книги состоит в том, чтобы предоставить способы применения мощных методов машинного обучения с открытым исходным кодом в крупномасштабных проектах без привлечения дорогостоящих корпоративных решений или больших вычислительных кластеров. Описаны масштабируемое обучение в Scikit-learn, нейронные сети и глубокое обучение с использованием Theano, H2O и TensorFlow. Рассмотрены классификационные и регрессионные деревья, а также обучение без учителя. Охвачены эффективные методы машинного обучения в вычислительной среде MapReduce на платформах Hadoop и Spark на языке Python. С этой книгой вы научитесь:* применять большинство масштабируемых алгоритмов машинного обучения;* работать с новейшими крупномасштабными методами машинного обучения;* увеличивать прогнозную точность при помощи методов глубокого обучения и масштабируемых методов обработки данных;* работать с вычислительной парадигмой Map-Reduce в платформе Spark;* применять эффективные алгоритмы машинного обучения на основе платформ Spark и Hadoop;* создавать мощные ансамбли в крупном масштабе;* использовать потоки данных для обучения линейных и нелинейных прогнозных моделей на чрезвычайно больших наборах данных, используя всего одну машину.
S rasprostraneniem bolshikh dannykh rastet spros na vychislitelnuju i algoritmicheskuju effektivnost. Glavnaja zadacha nastojaschej knigi sostoit v tom, chtoby predostavit sposoby primenenija moschnykh metodov mashinnogo obuchenija s otkrytym iskhodnym kodom v krupnomasshtabnykh proektakh bez privlechenija dorogostojaschikh korporativnykh reshenij ili bolshikh vychislitelnykh klasterov. Opisany masshtabiruemoe obuchenie v Scikit-learn, nejronnye seti i glubokoe obuchenie s ispolzovaniem Theano, H2O i TensorFlow. Rassmotreny klassifikatsionnye i regressionnye derevja, a takzhe obuchenie bez uchitelja. Okhvacheny effektivnye metody mashinnogo obuchenija v vychislitelnoj srede MapReduce na platformakh Hadoop i Spark na jazyke Python. S etoj knigoj vy nauchites:* primenjat bolshinstvo masshtabiruemykh algoritmov mashinnogo obuchenija;* rabotat s novejshimi krupnomasshtabnymi metodami mashinnogo obuchenija;* uvelichivat prognoznuju tochnost pri pomoschi metodov glubokogo obuchenija i masshtabiruemykh metodov obrabotki dannykh;* rabotat s vychislitelnoj paradigmoj Map-Reduce v platforme Spark;* primenjat effektivnye algoritmy mashinnogo obuchenija na osnove platform Spark i Hadoop;* sozdavat moschnye ansambli v krupnom masshtabe;* ispolzovat potoki dannykh dlja obuchenija linejnykh i nelinejnykh prognoznykh modelej na chrezvychajno bolshikh naborakh dannykh, ispolzuja vsego odnu mashinu.