Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining). В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce - важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности. Издание будет в равной мере полезна студентам и программистам-практикам.
Eta kniga napisana veduschimi spetsialistami v oblasti tekhnologij baz dannykh i veba. Blagodarja populjarnosti internet-torgovli pojavilos mnogo chrezvychajno obemnykh baz dannykh, dlja izvlechenija informatsii iz kotorykh nuzhno primenjat metody dobychi dannykh (data mining). V knige opisyvajutsja algoritmy, kotorye realno ispolzovalis dlja reshenija vazhnejshikh zadach dobychi dannykh i mogut byt s uspekhom primeneny dazhe k ochen bolshim naboram dannykh. Izlozhenie nachinaetsja s rassmotrenija tekhnologii MapReduce - vazhnogo sredstva rasparallelivanija algoritmov. Izlagajutsja algoritmy kheshirovanija s uchetom blizosti i potokovoj obrabotki dannykh, kotorye postupajut slishkom bystro dlja tschatelnogo analiza. V posledujuschikh glavakh rassmatrivaetsja ideja pokazatelja PageRank, nakhozhdenie chastykh predmetnykh naborov i klasterizatsija. Vo vtoroe izdanie vkljuchen dopolnitelnyj material o sotsialnykh setjakh, mashinnom obuchenii i ponizhenii razmernosti. Izdanie budet v ravnoj mere polezna studentam i programmistam-praktikam.