Big Data: үлкеннен өте үлкенге дейін

Фото:myelomacrowd.org

Big Data ақпарат тасқынындағы замануи тенденциялардың бірі. Бұл туралы 7kun.kz толығырақ түсіндіреді. 

Big Data дегеніміз не? 

Big Data термині тура мағынасында «үлкен ақпарат» деген ұғымды білдіреді. Бірақ оның қаншалықты үлкен ақпарат екендігін анықтайтын нақты өлшем жоқ. Атауының өзі субьективті. Дегенмен, Big Data тек мәліметтер көлемін ғана білдірмейді. Оны ауқымды ақпараттармен жұмыс істеу тәсілдері деп түсінуі қажет. Big Data негізгі мына операцияларды орындауы тиіс:

  • Volume:»стандартты» құжаттармен салыстырғанда өте үлкен көлемдегі мәліметтерді өңдей білу.
  • Variety:Үлкен көлемде түсетін және үнемі келіп отыратын жылдам ақпарат тасқынымен жұмыс істей білу. Яғни мәліметтер белгілі бір деңгейде қалып қоймайды, үсті-үстіне көбейіп отырады.
  • Velocity: Құрылымды және нашар құрылған мәліметтермен жұмыс істей білу қажет.

Әдеттегі қазақстандық банкті мысал ретінде қарастырайық. Қарапайым адам үшін бұл қаржы институты бөлімшелер, филиалдар, кредит және депозитпен үндеседі. Бірақ банк бірінші кезекте көлем, сапа және транзакция жылдамдығы. Кез-келген қаржы институтында секундына ондаған немесе жүздеген транзакциялар жүзеге асырылуы мүмкін.  Үлкен ақпарат тасқынын жинақтап, сақтап, өңдеу қажет. Неге? Банк өзінің клиенттері мен операциялар типін анықтап, тұтынушыларын қанағанттандыру үшін қандай ұсыныстар мен қызмет түрлері қажет екендігін түсінуі тиіс.

Мәліметтер уақыт өте келе ұлғайып отырады, бұл үзіліссіз процесс. Сіз неғұрлым көп операция жасаған сайын сандық әлемде көбірек із қалдырасыз. Big Data күшейіп жатыр, ол қазіргі жағдайға өзгеше қырынан қарауға мүмкіндік береді.

Қалай қолданады?

Bid Data ұғымы бірнеше жылдан астам қолданылып келеді. Бірақ терминнің өзі әдетте ІТ сферасындағы мамандар үшін ғана түсінікті екендігі рас. Big Data-ның пайдалануын тереңірек түсіну үшін бірнеше мысалдар ұсынамыз. 

2 жыл бұрын Target дүкендер желісі сатып алушылармен жұмыс істеу кезінде автоматты таңдау жүйесін пайдалана бастады. Бірнеше жыл бойы компанияда жинақталған мәліметтер белгілі бір жүйе бойынша сұрыпталып отырды. Ол ақпараттардың барлығы банк және жеңілдік карталар арқылы алынды. Машиналық есептеуіш сатып аушылардың талғамы қалай өзгеріп отырғандығын сараптап, болжам жасап отырды. Осы болжамдар негізінде тұтынушыға арнайы ұсыныстар жіберілетін еді. 2012 жылдың көктемінде 12 жасар мектеп оқушысының әкесі қызына жүкті болғандарға арналған ұсыныстар жіберілгендігін айтып, шағым жасайды. Target басшылығы автоматтандырудың қателігін мойындап, наразы болғандардың алдында кешірім сұрауға дайын тұрған еді. Бірақ кейінірек қыздың шын мәнінде жүкті болғандығы анықталды. Алгоритм сатып алушының талғамындағы жүкті әйелдерге лайық өзгерістерді байқап қалып, соның негізінде ұсынытар жіберіп отырған.

Big Data түрлі әдіспен қолданылуы мүмкін. Мысалы, ancestry.com сайты қазіргі кездегі қолда бар барлық мәліметтер типін негізге ала отырып, адамзаттың отбасылық тарихын құруға тырысып жатыр. Кітаптардағы қолжазбалардан бастап ДНК-сараптамадағы есептеулерге дейін пайдаланылады. Бүгінде оларға әртүрлі тарихи дәуірлерде өмір сүрген 5 млрд-қа жуық адамдардың профайлдарын, отбасылар арасындағы байланысты сипаттайтын 45 млн генеалогиялық ағашты жинақтаудың сәті түсті.

image

Бұл жұмыстағы басты қиындық — өңделуі тиіс ақпараттардың жеткіліксіздігі және дәлсіздігі. Мәліметтердегі адамдар тізімін тек аты-жөніне қарап емес, туған және қайтыс болған уақыттарына және тағы басқа критерийлер бойынша өңдеу керек. Стандартты алгоритмдер мұндай тапсырмаларды орындай алмайды, ал машиналық есептеу барлық дәлсіздікті ескере отырып, барынша жоғары ықтималдықтағы дұрыс нәтижені көрсетеді.

Тағы бір мысал — eHarmony жобасы. Бұл 40 млн адам тіркелген танысу сайты. Сайттағы сауалнамаға 1000-ға дейінгі түрлі ерекшелігіңізді көрсете аласыз. Күн сайын жүйе бір-біріне жақын келетін 100 млн ұсыныс шығарады.

Бұл болжамдар қарапайым көрсеткіштерге сүйенбейді. Мысалы, машиналық есептеу  профиль суретіндегі бетіңіздің көлемі белгілі-бір адамдар арасындағы байланыстың дамуына ықпал ете алатындығын анықтады. Адамдардың тағамдарға деген талғамдары да қарым-қатынас дамуына әсер етеді. Екі вегетариандықтың өзара қосылу ықтималдылығы 44% бола, гамбургер жақсы көретін жұптың өзара тіл табыспау ықтималдылығы 44 пайызды құрайды.

image

Машиналық есептеуді қолдана отырып, біз олардың қандай принциптер негізінде қабылданатындығын түсінбейміз. Әрине, машиналық есептеуді тура мағынасында жасанды интеллект деп атауға болмайды, ол тек алдын-ала белгіленген тапсырманы ғана орындайды. Бірақ алгоритм негізге алатын жүздеген және мыңдаған факторларды адам санасы ескермеуі мүмкін. Ал арнайы дайындалған алгоритм қолданушы үшін қандай түйісу нүктесі қажет екендігін кез-келген пайдаланушыдан артық біледі. Бұл жерде жақсы тәжірибеге қарағанда өңделген мәліметтер базасының пайдасы көбірек.

Дереккөздері:

Мәліметтер келетін дереккөздердің мысалы:

  • Радиожиілікті идентификаторлардан, есептеуші құрылғылардан түсетін мәліметтер
  • Әлеуметтік желілерден келетін хабарламалар
  • Метеорологиялық есептеулер
  • Ұялы байланыс жүйесіндегі абоненттердің тұрғылықты жері туралы мәліметтер
  • Аудио және видеотіркеушілер құрылғыларындағы ақпараттар

Бұл дереккөздердің кеңінен қолданылуы Big Data-ның ғылыми-зерттеу, коммерциялық және мемлекеттік басқару салаларына енуіне себепкер болмақ. Мәліметтер физикалық тәжірибелік қондырғылардан да келеді. Мысалы, Үлкен адронды коллайдер үнемі өте үлкен ауқымды мәліметтер тасқынын  жіберіп отырады. Құрылғыдан келген ақпарат арқылы ғалымдар бір уақытта бірнеше тапсырманы орындай алады.

Ақпараттың жылдам жинақталуына байланысты мәліметтерді сараптау технологиясы да жылдам қарқынмен дамып келеді. Осыдан бірнеше жыл бұрын тұтынушыларды талғамына байланысты бірнеше топқа жинақтау ғана мүмкін болса, қазір әрбір клиенттің интернеттегі нақты бір тауарды іздеген әрекеттерін сараптай отырып, жеке модель құруға болады. Тұтынушының қалауы талданып, құрылған модельге байланысты жарнама немесе нақты ұсыныстар жіберіледі. Ең қызығы, бұл модель онлайн режимде өзгеріп отырады.

HiPO.kz негізін қалаушы Асхат Мырзабаев ірі қаржы институттарының бірі британдық Barclays банкінде қызметте болған. Соңғы жарты жылда ол ипотекалық несие бөлімімен жұмыс істеген. Оның тобына ипотека беру көлемін арттыру үшін менеджерлер жұмысын оңтайландыру қажет  деген тапсырма берілді.

«Бізде қолданушылар туралы жиналған 50 мың террабайт ақпарат болды. Бұл өте ауқымды жоба және үнемі көбейіп, жиналып отырады. Сол арқылы клиенттердің транзакциялары бойынша қабілеттерін жақсы түсініп, оларға қызықты ұсыныстар жасай аламыз» дейді ол.

Арнайы топ карталы клиенттер және олардың транзакциялары туралы үлкен мәліметтер базасын талдаудан өткзіп, онлайн ипотека ұсынуға болатын мақсатты аудиторияны бөліп шығарады. Базаны сараптай отырып, банк үшін екі баласы бар, 35 жас шамасындағы ер адам қажет деген қорытынды шығарылады. 35 жасар британдықтарға ипотеканы рәсімдеу туралы ұсыныс жіберіледі. Олар құжатты онлайн түрде толтырып, офистегі менеджерге тек 5 минутқа келісім-шартқа қол қою үшін ғана келеді. Осы процесс нәтижесінде банкке келген клиенттердің 80 пайызға жуығы ипотека рәсмімдеуге рұқсат алған.

Асхаттың сөзінше, қазақстандық банктердің мұндай инновацияны қолданбауларына бір себеп — нарық көлемінің аздығы. Компаниялар технологияға инвестиция салуға асықпайды. Проблема тек банктер жағынан ғана емес, қолданушылар мен кәсіби кадрлер тарапынан да болады.

Алматы, Астана, Қарағанды, Шымкент — интернетпен жұмыс істеуге еш кедергі жоқ қалалар. Қазақстандық Facebook-тың миллионнан астам қолданушысы бар. Бұл банк аудиториясының 30 пайызын құрайды. Осы дамушы сегменттер үшін инновациялық жобаларды іске асырудың уақыты келді дейді ол.