عبارت کلان داده مدتها است که برای اشاره به حجمهاي عظیمی از دادهها که توسط سازمانهای بزرگی مانند گوگل یا ناسا ذخیره و تحلیل ميشوند مورد استفاده قرار ميگیرد. اما به تازگي، این عبارت بیشتر برای اشاره به مجموعههای دادهاي بزرگی استفاده ميشود که به قدری بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاههاي داده سنتي و معمولي قابل مدیریت نیستند. مشکلات اصلي در کار با این نوع دادهها مربوط به برداشت و جمعآوری، ذخیرهسازی، جستوجو، اشتراکگذاری، تحلیل و نمایش آنها است. این مبحث، به این دلیل هر روز جذابیت و مقبولیت بیشتری پیدا ميکند که با استفاده از تحلیل حجمهاي بیشتری از دادهها، ميتوان تحلیلهاي بهتر و پيشرفتهتري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی و امنیتی، انجام داد و نتایج مناسبتری را دریافتکرد. بيشتر تحلیلهای مورد نیاز در پردازش دادههاي عظیم، توسط دانشمندان در علومی مانند هواشناسی، ژنتیک، شبیهسازیهاي پیچیده فیزیک، تحقیقات زیستشناسی و محیطی، جستوجوی اینترنت، تحلیلهاي اقتصادی و مالی و تجاری مورد استفاده قرار ميگیرد. حجم دادههاي ذخیرهشده در مجموعههاي دادهاي کلان داده ، عموماً بهخاطر تولید و جمعآوری دادهها از مجموعه بزرگی از تجهیزات و ابزارهای مختلف مانند گوشیهاي موبایل، حسگرهای محیطی، لاگ نرمافزارهای مختلف، دوربینها، میکروفونها، دستگاههاي تشخیص RFID، شبکههاي حسگر بیسیم وغيره با سرعت خیرهکنندهاي در حال افزایش است.