فناوری اطلاعات و ارتباطات

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

خبرگزاری مهر، گروه دانش و فناوری: این روزها اصطلاح «بیگ دیتا» یا «کلان داده» و نقش آن در عصر دیجیتال و حکمرانی آینده بیش از پیش اهمیت پیدا کرده است. این اصطلاح به حجم وسیع و پیچیده‌ای از اطلاعات اشاره دارد که بسیار فراتر از کاربردهای سنتی پردازش داده هستند.

با تداوم روند گسترش اینترنت در سال‌های اخیر، حجم داده‌های جهان از یک دهه پیش رشد تصاعدی خود را آغاز کرده است. توسعه شبکه‌های اجتماعی، جستجوهای اینترنتی، پیام‌های متنی، فایل‌های چندرسانه ای دانلود و آپلود شده و دستگاه‌های متصل به اینترنت، منشأ اصلی این افزایش حجم محسوب می‌شوند. به عبارت دیگر جمع آوری اطلاعات از طرق یاد شده، سبب ایجاد حجم بسیار گسترده‌ای از اطلاعات شده که با عنوان کلان داده شناخته می‌شود.

علم داده و تجزیه و تحلیل کلان داده‌ها، این روزها به مؤلفه‌ای اساسی و تحول‌زا در همه رشته‌ها بدل شده‌است و سبب ایجاد بینشی معنادار و کمی از پدیده‌های مختلف می‌شود. در سال‌های اخیر، فناوری‌ها و روش‌شناسی‌ها در علوم رایانه به سرعت رشد کرده‌اند و دیدگاهی بی‌سابقه از گستره و علل مسائل مهم جهانی به محققان داده است.

بنابراین تعجبی ندارد که یکی از مهم‌ترین حوزه‌های صنعت فناوری در سالهای آینده بخش داده‌ها، مدیریت و شیوه استفاده از آنها باشد.

۹۰ درصد داده‌های جهان کپی شده اند

طبق آمار وب سایت استاتیستیکا (Statistica) حجم داده تولید، مصرف، کپی و ذخیره شده تا ۲۰۲۵ میلادی به ۱۸۱ زتابایت می‌رسد. این درحالی است که در ۲۰۲۰ میلادی کل مقدار داده تولید و مصرف شده ۶۴.۲ زتابایت بوده است. یکی از عوامل تأثیر گذار در رشد داده، همه گیری کووید ۱۹ بود که تولید داده جهانی را سرعت بخشید. این وب سایت همچنین تخمین می‌زند در ۲۰۲۳ میلادی شاخص مذکور به ۱۲۰ زتابایت برسد.

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

در کل ۹۰ درصد داده موجود در فضای داده جهانی کپی شده اند به طوریکه فقط ۱۰ درصد داده‌ها یونیک هستند. بین ۲۰۲۰ تا ۲۰۲۴ میلاد نسبت داده‌های یگانه به تکراری از ۱ به ۹ به ۱ به ۱۰ تغییر می‌کند.

با این وجود مقدار اندکی از داده‌های تازه خلق شده نگهداری و حفظ شده اند. تنها ۲ درصد از داده‌های تولید و مصرف شده در ۲۰۲۰ نگهداری و به ۲۰۲۱ میلادی منتقل شدند.

از سوی دیگر طبق پیش بینی این وب سایت درآمد بازار داده‌های کلان در سراسر جهان در ۲۰۲۳ میلادی به ۷۷ و در ۲۰۲۷ میلادی به ۱۰۳ میلیارد دلار می‌رسد.

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

مسیر پیش روی کلان داده‌ها در ۲۰۲۳

در این میان چشم انداز وضعیت داده‌های کلان در سال ۲۰۲۳ تغییر می‌کند. در حالیکه اقتصاد جهانی با تأثیرات مداوم همه گیری کووید ۱۹، اختلال در زنجیره ذخایر، جنگ در اروپا، تورم و رکود درگیر است، ارزش داده‌ها احتمالاً در ۲۰۲۳ میلادی بیشتر شود.

داده‌ها به سازمان‌ها کمک می‌کنند با کمک روش‌های تحلیل و کسب و کاری بهتر، تصمیمات سودمندتری بگیرند. همچنین داده، مبنای یادگیری ماشینی است و محتوایی فراهم می‌کند که براساس آن هوش مصنوعی می‌تواند فرایندهای خودکار و توصیه‌هایی برای کسب وکارها و افراد فراهم کند.

همزمان با رویارویی بخش‌های مختلف چالش‌های اقتصادی، استفاده مؤثر از داده‌ها برای ارتقای کسب وکارها و بهبود عملیات‌ها از مهم‌ترین نگرانی‌های ۲۰۲۳ میلادی به حساب می آیند.

بهره مندی از داده‌ها برای بهبود عملکرد کسب و کار مستلزم جمع آوری داده‌های محصول و خدمات است. در اینجاست که مفهوم داده به عنوان یک محصول (که به آن محصول داده نیز گفته می‌شود) ارتباط دقیق‌تری با دنیای کسب وکار برقرار می‌کند.

بار موزس مدیر ارشد اجرایی شرکت مونت کارلو پیش بینی می‌کند به زودی هر محصولی به یک محصول داده‌ای تبدیل می‌شود زیرا سازمان‌ها به دنبال ارتقای عملیات خود هستند.

او می‌گوید: در ۲۰۲۳ میلادی تعداد بیشتری از شرکت‌ها روش‌های یکپارچه سازی برای ردیابی و درآمدزایی از داده‌های تولید شده توسط محصولاتشان را بررسی می‌کنند. این به بخشی از مزیت رقابتی شرکت‌ها تبدیل خواهد شد. در نتیجه اهمیت کیفیت نظارت و پیروی از قوانین بیشتر خواهد شد. موزس معتقد است در ۲۰۲۳ میلادی شرکت‌ها به دنبال فناوری‌هایی خواهند بود که شکاف بین داده‌های محصول و مشتریان را کمتر کند.

رشد سرعت تحلیل داده‌های کلان

همچنین پیش بینی می‌شود در آینده‌ای نه چندان دور دیگر استخراج هفتگی یا ماهانه داده‌ها و سپس انتظار طولانی مدت برای تحلیل آنها پایان یابد. درآینده نزدیک تحلیل داده‌های کلان به طور گسترده روی تازگی داده‌ها با هدف تحلیل آنی و تصمیم گیری های بهتر و افزایش قدرت رقابت متمرکز خواهد بود.

استفاده از جریان داده‌ها به جای فراوری داده‌ها براساس دسته بندی، چشم اندازی سریع و لحظه‌ای از وضعیت برای کاربر فراهم می‌کند که اهمیت زیادی دارد. اما این روند چالش‌هایی دارد که یکی از آنها حفظ کیفیت داده‌ها است. به عبارت دیگر برای حفظ کیفیت، داده‌ها باید به طور مرتب تجدید شوند اما داده‌های جدیدتر ریسک‌هایی نیز در بر دارند و ممکن است سبب شود کاربر بر اساس داده‌های نادرست یا ناکامل تصمیم گیری یا عمل کند.

فراهم شدن چشم انداز آنی به داده‌ها

دسترسی به داده‌های لحظه‌ای برای تحلیل اوضاع بازارهای مختلف دیگر پدیده عجیبی نیست زیرا تصمیم گیری درباره بسیاری از فرایندها و معاملات بر اساس همین نوع داده‌ها انجام می‌شود.

چشم انداز دقیق و لحظه‌ای هم اکنون صنایع مختلفی مانند امور مالی و شبکه‌های اجتماعی را دگرگون کرده اما نشانه‌هایی فراتر از این موارد نیز وجود دارد. به عنوان مثال والمارت به نظر می‌رسد بزرگترین ابر رایانشی هیبریدی را ساخته تا زنجیره ذخایر خود را مدیریت و فروش را به طور آنی تحلیل کند.

«بیگ دیتا» و پیش بینی آینده/ حجم داده به ۱۸۱ زتابایت می رسد

تصمیم گیری خودکار و آنی دستاورد مهم تحلیل داده‌های کلان

یادگیری ماشینی و هوش مصنوعی از هم اکنون به طور موفقیت آمیز در صنایعی مانند خدمات درمانی برای ردیابی و تشخیص در تولید (سیستم‌های هوشمند فرسودگی قطعات را ردیابی می‌کنند) به کار می‌روند. اما تحلیل داده‌های کلان به این فناوری‌ها سرعت بیشتری می‌دهد. مثلاً هنگامیکه قطعه‌ای در معرض خراب شدن است، این سیستم به طور خودکار مسیر را طوری تغییر می‌دهد تا فرایند تولید ادامه یابد و قطعه مورد نظر تعمیر شود.

به عقیده متخصصان، یادگیری ماشینی، یکی از فناوری‌هایی است که در آینده کلان داده‌ها، نقش به سزایی ایفا می‌کند. انتظار می‌رود که توسعه یادگیری ماشینی این حوزه را به شدت تحت تأثیر قرار دهد. یادگیری ماشینی، به سرعت در حال رشد است.

این گزاره در عین جذابیت، تا حدودی ترسناک نیز هست. ربات‌های هوشمند از یک سو زندگی را برای ما آسان می‌کنند و از سوی دیگر، دخالت یادگیری ماشینی در مواردی چون تعیین صلاحیت افراد برای دریافت وام بانکی، چالش‌های اخلاقی متعددی را به وجود آورده است.

افزایش صحت و کیفیت تحلیل داده‌های کلان

هرچه داده‌های بیشتری جمع آوری شود، تضمین صحت و کیفیت آن نیز سخت‌تر است. همچنین تصمیم گیری براساس داده‌های موجود یک اقدام تجاری معقولانه است مگر آنکه تصمیم‌های مذکور براساس داده‌های بد گرفته شده باشند. داده‌های بد نیز اطلاعات ناکامل، نادرست و غلط یا داده‌هایی را شامل می‌شود که مرتبط نیستند. علاوه بر آن بسیاری از ابزارهای تحلیل داده اکنون قادر به شناسایی و داده‌هایی هستند که به نظر می‌رسد در مکان نادرستی ارائه شده اند.

از آنجاییکه شناسایی یک مشکل کم هزینه تر و بهتر از درمان آن است، کاربران یا شرکت‌ها نیز به جای اتکا بر ابزارها برای شناسایی داده‌های بد، باید مسیر داده‌هایی که به دستشان می‌رسد را بررسی کنند.

یافتن منابع مناسب استخراج داده‌ها، بررسی شیوه تحلیل و استفاده از آن و … سبب می‌شود داده‌های بهتر و معتبر تری در دسترس قرار گیرد. در نتیجه مشکلاتی که به دلیل داده‌های نادرست و بد به وجود می آیند نیز کمتر خواهند شد.

قابلیت رصد داده‌ها بیشتر می‌شود

از سوی دیگر در آینده قابلیت رصد داده‌ها بسیار فراتر از مشاهده و هشدار دادن درباره نشتی در مسیر اطلاعات است. درک ۵ ستون رصد داده (تازگی، طرح، حجم، توزیع و مسیرآن) نخستین گام برای کسب وکارهایی است که به دنبال کنترل سلامت داده‌ها و ارتقای کیفیت کلی آنها هستند.

فراتر از آن، پلتفرم‌های رصد داده می‌توانند چالش‌های خودکارسازی، نظارت، هشدار دهی، خطی سازی، هدفگیری و هایلایت کیفیت داده را بررسی کنند. در اینجا هدف نهایی حذف داده‌های بد به طور کلی و جلوگیری از ایجاد دوباره آنها است.

نظارت جهانی بر داده‌ها

با توجه به حجم داده‌هایی که درباره آن بحث می‌شود، اتخاذ اقدامات محافظتی لازم بیش از پیش مهم خواهد بود. پیروی از قوانینی مانند قوانین کلی حفاظت از داده اروپا(GDPR) و قانون حریم خصوصی مصرف کننده کالیفرنیا(CCPA) برای اجتناب از جریمه شدن الزامی است اما در این میان چالش میزان خسارت نشتی داده‌ها نیز مهم است زیرا به شهرت یک برند آسیب می‌رساند.

دغدغه‌های کلان امنیت داده و حفظ حریم خصوصی، از زمان شکل گیری مفهوم حقوق شهروندی، مورد توجه بوده است. تداوم روند افزایش حجم داده‌ها، چالش‌های بیشتری را در این حوزه پدید آورده است. از آن جایی که سطح حفاظت از داده‌ها، هرگز نمی‌تواند با نرخ رشد حجم اطلاعات یکسان باشد، بنابراین، این مسئله همچنان چالشی بزرگ برای کاربران و فعالان این حوزه خواهد بود.

به طور کلی، اگرچه بسیاری از سازمان‌ها با سیاست‌های حفظ حریم خصوصی به عنوان یک روال قانونی پیش فرض برخورد می‌کنند، اما نگاه کاربران در این زمینه تا حدود زیادی تغییر کرده است. آن‌ها درک می‌کنند که اطلاعات شخصی‌شان در خطر است و از همین روی به آن دسته از سازمان‌ها اعتماد می‌کنند که شفافیت داشته باشند و کنترل کاربر بر داده‌ها را تضمین کنند.

کنترل حجم بیشتری از داده‌ها در پلتفرم‌های ذخیره سازی

با استفاده از فناوری ابر رایانشی مواردی مانند ذخیره و قدرت پردازش به طور مجازی بی نهایت می‌شوند.

دیگر نیازی نیست کسب وکارها درباره خرید مخزن فیزیکی یا ماشین‌های اضافی نگران باشند زیرا می‌توانند از فضای ابر رایانشی را منطبق بر نیازهایشان تنظیم کنند.

فراتر از آن پردازش داده‌های ابری بدان معنا است که چند طرف می‌توانند به طور همزمان و بدون تجربه کاهش سرعت یا مانع به داده‌ها دسترسی یابند. این بدان معنا است که تازمانیکه اقدامات امنیتی متناسب اجرا شوند، می‌توان به داده‌های تازه در هر زمان و مکانی دست یافت.

فراوری انواع داده آسان‌تر می‌شود

با بزرگ‌تر شدن حجم داده‌ها، به طور معمول منابع داده نیز وسیع‌تر می‌شوند. مدیریت تمام فرمت‌ها همراه دسترسی هماهنگ به طور دستی غیرممکن است مگر آنکه تیمی بسیار بزرگ از کارشناسان فعالیت‌های بی شماری انجام دهند.

ابزارهای مختلفی با بیش از ۱۶۰ متصل کننده منبع داده از تحلیل‌های بازاری تا مالی و غیره را دربر می‌گیرند. داده‌ها را می‌توان از صدها منبع استخراج کرد و تغییرات لازم را در آنها به کاربرد تا یک جریان معتبر داده ایجاد کرد.

از سوی دیگر، داده‌های «سریع» و «قابل اجرا»، دو گونه از اطلاعات هستند که پیش بینی می‌شود نسبت به دیگر اقسام کلان داده‌ها، رشد بیشتری داشته باشند. داده‌های سریع، بر خلاف دیگر انواع کلان داده، امکان پردازش سریع و در لحظه را دارند. این دست داده‌ها از همین روی، ارزش بیشتری برای سازمان‌ها و شرکت‌ها دارند.

داده‌های سریع، کاربران را به تعاملات آنی معتاد می‌کند. مشاغل به صورت مداوم در حال دیجیتالی شدن هستند و کاربران نیز توقع بالاترین سطح خدمات شخصی سازی شده را از پلتفرم‌ها دارند. از همین روی، کارشناسان پیش بینی می‌کنند که تا سال ۲۰۲۵، حدود ۳۰ در صد از حجم داده‌ها را چنین اطلاعاتی تشکیل دهد.

تمرکز زدایی داده‌ها

تحلیلگران و مدیران ارشد کسب وکارها برای سال‌های طولانی هنگام نیاز به استخراج و تحلیل داده‌ها به متخصصان داخل شرکت مراجعه می‌کردند. اما در سال گذشته میلادی این روند بسیار تغییر کرد و سرویس‌ها و ابزارهایی ابداع شدند که می‌توانند افراد غیر فنی را در تحلیل داده دخیل کنند. پیش بینی می‌شود این روند در سال آینده میلادی گسترده می‌شود.

در همین راستا اکنون کارشناسان روی مهندسی تحلیل داده‌ها با ابزارهایی تاکید دارند که داده را به شیوه‌ای مدلسازی می‌کند که کاربر نهایی بتواند آن را برای پاسخ به سوالاتش به کار گیرد و در نتیجه قدرتمندتر شود.

نظر به پیش بینی‌هایی که از چشم انداز کلان داده‌ها در سطح جهانی صورت گرفته و وابستگی بسیاری از ابعاد حکمرانی جهانی به کلان داده‌ها، ضرورت پرداختن کشورها به ضابطه مند و نظام مند کردن این موضوع بیش از پیش احساس می‌شود.

در همین رابطه جواد آزادی، پژوهشگر هسته خط مشی فضای مجازی مرکز رشد دانشگاه امام صادق علیه‌السلام، در گفتگو با خبرنگار مهر با اشاره به مدل‌های متداول حکمرانی داده در سطح جهان گفت: به طور کلی با سه رویکرد حکمرانی داده در سطح جهان مواجهه هستیم، اولین رویکرد، مربوط به لیبرالیسم است، در کشورهای لیبرال و به‌طور خاص آمریکایی‌ها که پلتفرم‌های اصلی فضای مجازی را در سلطه خویش دارند، حکمرانی داده را از مفهوم آزادی و مالکیت آغاز کرده و با شعارهایی نظیر جریان آزاد اطلاعات و مالکیت شخصی داده ترویج می‌کنند. این رویکرد نگاه عمدتاً اقتصادی به داده دارد و داده در عصر مجازی را اهرمی در خدمت لیبرالیزاسیون جهانی می‌داند که فرصتی بی‌بدیل برای جمع‌آوری و پردازش اطلاعات را با اغراض علمی، تجاری و حتی سیاسی پدید آورده است. ازاین‌رو به گردش درآوردن داده، محور و تکیه اصلی حکمرانی داده در این رویکرد است و ارزش‌هایی مانند باز بودن، شفافیت، تقارن اطلاعات و بازار رقابت سالم، تأمین زیرساخت‌های لازم جهت درآمدزایی از داده و … ارزش‌هایی است که این رویکرد دنبال می‌کند.

به گفته وی، دومین رویکرد مربوط به نگاه‌های ناسیونالیستی و به‌طور مشخص اروپایی‌ها است که از قرن هفده تأکید ویژه‌ای بر مرز و دولت-ملت دارند. اروپایی‌ها با تأکید بر حقوق خصوصی به موضوع حکمرانی داده ورود داشته‌اند و مقررات عمومی حفاظت از دادهGDPR را با محوریت داده‌های خصوصی و حفظ حریم خصوصی طرح می‌کنند. در این رویکرد، بر ارزشی مانند شفافیت تأکید فراوانی می‌شود و حاکمیت را مکلف می‌کنند تا زمینه را برای نظارت عمومی و مطالبات مردمی فراهم آورد.

این پژوهشگر تاکید کرد: به عنوان سومین رویکرد، چینی‌ها حکمرانی داده را تَبَعی می‌دانند و ذیل سلطه یا حاکمیت سایبری Cyber Sovereignty طرح می‌کنند. نگاه غالب ایشان، امنیت ملی است و نقطه آغاز حکمرانی داده را تعیین شاخص حساسیت داده می‌دانند و بیش از به گردش درآوردن داده بر روی حفاظت از داده تأکید دارند. در این رویکرد، حفاظت از داده، نه ذیل حریم خصوصی بلکه ذیل امنیت ملی تعریف می‌شود.

آینده حوزه حکمرانی داده‌ها

مدیر گروه حکمرانی فضای مجازی مرکز رشد در خصوص آینده حوزه حکمرانی داده افزود: بسته به رویکرد اتخاذ شده، ما در آینده شاهد پیشرفت در حوزه‌های مختلف خواهیم بود. پیش‌بینی می‌کنم در رویکردهای سوسیالیستی شرقی، استانداردهای طبقه‌بندی داده پیشرفتگی فراوانی پیدا کند، در این رویکرد، مفهوم حساسیت داده تعیین‌کننده حدود مجاز گردش داده است. به همین سبب استانداردها و تکنولوژی‌های طبقه‌بندی داده از طبقه‌بندی‌های عمومی به طبقه‌بندی های تخصصی و جزئی توسعه پیدا خواهد کرد و ما شاهد شکل‌گیری رگولاتورهای تخصصی جهت سنجش حساسیت داده‌های عمومی و یا داده‌های شخصی غیرخصوصی خواهیم بود.

وی افزود: در رویکردهای لیبرالیستی غربی که بازار محوریت دارد، شاهد مدل‌های جدید درآمد و سود خواهیم بود که از گردش داده درون زیست‌بوم ملی و جهانی شکل خواهد گرفت. همچنین تکنولوژی‌های جدید نظیر اینترنت اشیا و هوش مصنوعی و نسل پنجم ارتباطات به کمک این مهم آمده و سرعت و قدرت گردش اطلاعات در زیست‌بوم داده را توسعه خواهند داد. رویکرد ناسیونالیستی در حکمرانی داده نیز با چالش‌های روزافزون صیانت از داده دست‌وپنجه نرم خواهد کرد، ظهور شبکه استارلینک و ساقط شدن خیلی از ظرفیت‌های نظارتی GDPR، نمونه‌ای از این چالش‌هاست.

آزادی با بیان برخی از اقدامات صورت گرفته جهت تقویت حکمرانی داده در داخل کشور، گفت: اگر سمت رویکردهای غربی حرکت کنیم، بایستی زمینه را برای حفاظت از داده‌های شخصی و همچنین گردش داده و انضباط آن فراهم آوریم؛ تا آن نقطه فاصله بسیاری داریم از تأمین زیرساخت‌های حفاظت از حریم خصوصی نظیر رمزنگاری گرفته تا طراحی و اجرای سازوکارهای نظارت بر زیست‌بوم داده. شاید بتوان اشاره‌کرد که طرح کلان و معماری شبکه ملی اطلاعات که در آذر سال ۹۹ به تصویب شورای عالی فضای مجازی رسیده است، طرحی پیشرفته است و امیدواریم اجرایی هم بشود. اگر سمت رویکردهای شرقی بیاییم ضرورتاً بایستی سازوکارهای سنجش حساسیت داده و رگولاتورهای تخصصی را در کشور توسعه دهیم که به نظر بخش‌هایی از طرح صیانت از حقوق کاربران با همه اشکالاتش به این موضوع می‌پرداخت. درمجموع هنوز حکمرانی داده به‌صورت رسمی در نظام حقوقی و قانونی ما به رسمیت شناخته نشده است و خلأهای جدی در این زمینه داریم.

چالشهای ایران

آزادی به موضوع آینده حکمرانی داده در ایران اشاره کرد و افزود: ما در ایران چالش‌های جدی برای حکمرانی داده خواهیم داشت، از طرفی زیست‌بوم داده در حوزه‌های متنوعی به‌ویژه در بخش خصوصی و در شرایط خلأهای قانونی نظیر حقوق مالکیت معنوی، حریم خصوصی و … به نحو غیر منضبطی طی دهه گذشته شکل گرفته است و هرگونه اقدام آتی در جهت ساماندهی به این زیست‌بوم، موجب نارضایتی و اعتراض بخش خصوصی خواهد بود که از این بی‌انضباطی حداکثر بهره و انتفاع را از داده‌های شخصی و حتی خصوصی مردم کشور می‌برد.

وی افزود: از سوی دیگر با خیزش و رستاخیز داده به‌ویژه با بسط همه‌جانبه فضای مجازی، ضرورتاً نیازمند یک محیط منضبط برای ادامه حیات این زیست‌بوم خواهیم بود و ناگزیر از ایجاد زیرساخت‌های تأمین حریم خصوصی و زیرساخت‌های جریان و به گردش درآمدن داده، در کشور خواهیم بود.

پژوهشگر حکمرانی فضای مجازی افزود: زیرساخت‌هایی که هم حقوق مردم را تأمین می‌کند و هم بازار را برای عملکرد پویا خویش مبتنی بر تبادل داده آماده می‌سازد.

دیدگاهتان را بنویسید