۶ مساله پیش رو هنگامی که می‌خواهید داده‌ها را برای تحلیل آماده کنید

جادوبی مجله جادوبی ۶ مساله پیش رو هنگامی که می‌خواهید داده‌ها را برای تحلیل آماده کنید
آماده سازی داده

آماده سازی داده تحلیل داده هوش تجاری

آماده سازی داده ها شاید مهمترین گام در هر نوع فرایند جدی تحلیل داده به شمار آید. اغلب مراجع تحلیل داده حجم کارهای این مرحله (آماده‌سازی داده) را حدود ۶۰ الی ۷۰ درصد یک فرایند تحلیل داده می‌دانند! از آنجا که تنها یک مقاله برای پوشش دادن چنین حوزه وسیعی از دانش در نظر گرفته ایم، یک چک لیست سریع را که می تواند به هنگام آماده سازی داده ها برای تحلیل به کارتان آید، آماده کرده ایم. امیدواریم این به شما کمک کند تا تجربه بهتری از آماده سازی داده ها برای روند تحلیل بدست آورید و اطمینان حاصل کنید که همه مراحل و اصول مهم را پوشش داده اید.

فرآیند آماده‌سازی داده چیست؟

طبق گزارش گروه ابردین، آماده‌سازی داده ها «به هر فعالیت طراحی شده که برای بهبود کیفیت، قابلیت استفاده، دسترسی و یا قابلیت انتقال داده ها اشاره می کند گفته می‌شود… هدف نهایی آماده‌سازی داده ها توانمندسازی افراد و سیستم های تحلیلی با استفاده از داده های پاک و قابل مصرف جهت تبدیل آنها به بینش عملی است». این می تواند کل فرایند را شامل شود، اما در اینجا بر روی ادغام داده ها، پروفایل های داده ها، پاک کردن داده ها و مدیریت داده تمرکز می کنیم.

قبل از اینکه شروع کنید: سوالات کسب و کار را تعریف کنید

هر گونه تحلیل داده ها با آشنا شدن با سوالات کسب و کاری که  می خواهید پاسخ دهید و KPI هایی که می خواهید اندازه گیری کنید شروع می شود. درک درستی از نیازهای کسب و کار، شما را قادر می سازد تا بعدا این خواسته ها را دوباره به داده ها و تحلیل هایی که می خواهید انجام دهید، نگاشت کنید، در حالی که عدم درک آنچه کسب و کار انتظار دارد در ابتدا می تواند منجر به اتلاف زمان و هزینه شما بشود. بنابراین این مرحله را پشت گوش نیندازید. هنگامی که متوجه شدید که کسب و کارتان انتظار دارد محصول نهایی تحلیل را ببیند، وقت آن است که به میان داده‌ها قدم بگذارید. اولین کاری که در این راه باید انجام دهید این است که داده‌های مرتبط را پیدا کنید.

  1. داده ها کجا هستند؟

اولین مجموعه سوالات، مربوط به مکان های فیزیکی و مهمی هستند که داده های سازمان شما آنجا ذخیره می شود. برای یک بستر کوچک، این می تواند به عنوان یک سری از صفحات گسترده ساده (مثل فایل اکسل) باشد؛ برای آنهایی که بزرگتر هستند، ممکن است نیاز باشد به پایگاه های چندگانه، دریاچه داده های Hadoop، منابع ابری و یا انبار داده دسترسی داشته باشید. همچنین باید بدانید که آیا مجوزهای لازم برای دسترسی به داده ها را دارید یا خیر و کدام نوع یا فرمت های داده ای را که با آن برخورد دارید، در اختیار خواهید داشت.

سوالاتی که پیشنهاد می‌شود در این مرحله بپرسید عبارتند از:

  • سازمان من با کدام منابع اطلاعاتی کار می کنند؟
  • آیا مجوزها یا مدارک لازم برای دسترسی به داده ها را دارم؟
  • اندازه هر یک از مجموعه داده ها چه مقدار است و چه اطلاعاتی باید از هر یک از آنها دریافت کنم؟
  • چگونه می توانم با جداول و طرح آنها در هر پایگاه داده آشنا کنم؟
  • آیا برای تکمیل تحلیل نیاز به تمام داده ها دارم یا تنها نیاز به یک زیر مجموعه از داده برای اطمینان از عملکرد سریع تر دارم؟
  • آیا داده ها به علت گسترده بودن نیاز به استاندارد شدن دارند – به عنوان مثال، با ترکیب داده ها از پایگاه داده SQL با منبع NoSQL مانند MongoDB؟
  • آیا نیاز به تحلیل داده ها از منابع خارجی سازمان دارم؟
  1. آیا داده‌ها نیاز به آماده‌سازی دارند؟

اغلب داده ها برای داشتن تحلیلی موثرتر باید به صورت دستی تبدیل یا دستکاری شوند. این می تواند مربوط به زمانی شود که جداول یا مجموعه داده های مختلف از فرمت های مختلف برای ذخیره‌سازی اطلاعات یکسانی مورد استفاده قرار می‌گیرند، یا زمانی که داده ها متناقض یا حاوی اطلاعات تکراری هستند یا هنگامی که می خواهید داده ها را با روش های جدید گروه بندی کنید.

در اینجا چیزی که باید بپرسید این است:

  • برای هر منبع داده شخصی: آیا آن منبع کامل است؟ دقیق است؟ به روز است؟
  • در وضعیت کنونی، آیا می توانم از داده ها برای پاسخ به سوالات کسب و کار خود استفاده کنم؟
  • اگر ناسازگاری یا مقادیر زاید وجود داشته باشد، برای پاک کردن داده چه کاری باید انجام دهم؟ آیا نیاز به تغییر دستی چند مورد از مقادیر است یا یک رویکرد سیستماتیک لازم دارد؟
  • آیا ابزار من به داده های خام متصل می شود تا بتوانم تحلیلهای سطح بالا را انجام دهم؟ آیا می توانم داده ها را در محل اصلی خود تغییر دهم یا این باید در محیط ثانویه انجام شود (به عنوان مثال مواردی که شما مجوز هایی برای تغییر داده های تولیدشده ندارید)؟
  1. چگونه داده ها را متصل می کنید؟

اگر با بسیاری از منابع داده و جداول مختلف کار می کنید، باید داده ها را به گونه‌ای مناسب مدلسازی کنید. این مدلسازی باید به گونه‌ای باشد که کاربران داشبورد را قادر سازد تا با وصل شدن به فیلدهای مرتبط در جدولهای مختلف به سرعت پاسخ های خود را در قبال گزارش‌های درخواستی بیابند. در این میان، ارتباط میان نهادهای مختلف در مدل داده های شما، انواع گزارش‌هایی را که تحلیل آینده شما قادر به پاسخگویی خواهد بود و نیز میزان کارایی انجام آن را تعیین می کند.

با پرسیدن سوالات زیر شروع کنید:

  • چه رابطه ای ایجاد خواهد شد پس از اینکه فیلدها بهم متصل شوند؟ در واقع شما می خواهید از شکل گیری روابط از نوع بسیاری-به-بسیاری (Many-to-Many) جلوگیری کنید
  • آیا مدل داده های من مقیاس (Scale) می شود؟
  • آیا اضافه کردن منابع داده جدید و تغییر دادن مدل به اندازه کافی آسان است؟
  • آیا می توانیم روابط را بدون تاثیر بر عملکرد ساده‌تر کنیم؟ توجه داشته باشید که این ممکن است به ابزار تهیه و تحلیل داده‌ای که شما استفاده می کنید بستگی داشته باشد.
  1. آیا نیاز است داده‌ها را تقویت کنید؟

برای انواع خاصی از تحلیل های پیچیده تر، شما ممکن است بخواهید جداول جدید را در سطحی بالاتر از جدولهای فعلی ایجاد کنید. یک مثال از این می تواند یک تحلیل قیفی باشد که در آن شما می خواهید اطلاعات پایه ای را در مورد یک فرآیند چند مرحله ای ایجاد کنید و ظرف های مختلفی داشته باشید که هر رکورد در یکی از آن‌ها دسته بندی شود.

مثال هایی از سوالاتی که می توانند به شما در درک اینکه آیا آماده هستید برای ادامه دادن با داده‌های دردست کمک کنند عبارتند از:

  • آیا من نیاز به ایجاد جدولی دارم که داده‌ها را برای تحلیلی که می خواهم انجام دهم خلاصه‌سازی کند؟
  • آیا نیاز هست که اتصال داخلی یا خارجی میان بعضی از جداول ایجاد بشود؟ آیا نیاز است جداول جدیدی با استفاده از این اتصالات جدید ایجاد شود؟
  1. چگونه داده ها را وارد می کنید؟

در حالی که موقعیت های خاصی وجود دارد که با ایجاد پرس و جو از پایگاه داده‌ها می توانید گزارش ها و تحلیل ها را ایجاد کنید، اکثر ابزارهای BI متکی هستند به قابلیت ادغام داده ها در یک محیط ثانویه که به عنوان پایگاه داده تحلیلی شما عمل می کند. در این زمینه سوالاتی مطرح هستند که عبارتند از:

  • آیا سرور محلی یا ابر داده هایی که داده‌های من در آن است حاوی نرم افزار و سخت افزار کافی برای مقابله با داده‌هایی که با آنها سروکار دارم هست؟ این دو تا حدودی وابسته بهم هستند، زیرا نرم افزار مناسب می تواند هزینه های سخت افزاری را کاهش دهد.
  • در چه فرکانسی نیاز به وارد کردن داده ها دارم؟ این به سرعتی بستگی دارد که داده های اصلی تغییر یا رشد می کنند.
  • چگونه اطلاعات وارد شده بر محیط تولید داده من تاثیر می گذارد؟
  1. چگونه نتایج را تایید می کنید؟

قبل از اینکه بتوانید با افتخار اعلام کنید که داده‌ها برای تحلیل آماده‌سازی شده‌اند، باید اطمینان حاصل کنید که نتیجه نهایی دقیق است و شما در طول راه اشتباه نکرده اید. برای تایید داده ها، سؤالاتی مانند سوالات زیر را بپرسید:

  • آیا در سطح عمومی داده‌ها حس مناسبی از کسب و کار ایجاد می‌کنند؟
  • آیا سنجه‌ها همان چیزی را که از کسب و کار می‌دانیم تایید می‌کنند؟
  • آیا محاسبات در محیط تحلیلی من نتایج مشابهی را نسبت به همان محاسبات دستی بر روی داده های اصلی بدست می‌دهند؟

اکنون شروع به تحلیل کنید!

پس از بررسی کامل چک لیست بالا، شما داده ها را شناسایی کرده، آنها را تغییر داده، مدل داده های خود را ساخته، داده ها را به پایگاه داده تحلیلی منتقل کرده و نتایج را تأیید کرده اید. این ممکن است به چند ساعت، چند روز یا بیشتر مربوط باشد – بسته به میزان داده هایی که در حال کار با آن هستید و نیز پیچیدگی آنها.

اگر همه چیز به خوبی پیش رفت، وقت رفتن به مرحله تحلیل است. بنابراین به جلو پیش بروید و شروع به ساخت برخی از داشبوردها کنید! و راهنمای ما را برای طراحی داشبوردی بخوانید تا اطمینان حاصل کنید که اصول پایه‌ای را دنبال می کنید که برای شما یک داستان روشن و قابل درک از داده های خود فراهم می‌کند.

همین الان داشبورد مدیریتی جادوبی را امتحان کن

مطالب پیشنهادی

درج دیدگاه

You have to agree to the comment policy.

*