زهرا شاه نظرنژاد،کارشناس ارشد علم اطلاعات و دانش شناسی
دیتاست یا مجموعه داده (DataSet) به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای یادگیری ماشین استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف هست، به این صورت که بهطور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج میتوان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روشها را مقایسه کرد.
فرض کنید کاری که میخواهید انجام دهید در مورد ردهبندی (Classification) است. درنتیجه شما باید به دنبال دیتایی باشید که لیبل یا برچسب دادههای آن مشخص باشد. یا در مثال دیگر، فرض کنید شما به دنبال ایجاد یا ارتقاء روشی برای کاهش بُعد دیتا هستید در این صورت نیز شما باید دیتایی را انتخاب کنید که دارای بُعد زیاد باشد.
پس میتوان نتیجه گرفت برای هر تسک باید به دنبال دیتاست مناسب آن باشیم. دستهبندیهای مختلفی در دیتاستها وجود دارد بهطور خلاصه میتوان دیتاست ها را به موارد زیر تقسیمبندی کنیم:
- دادههای متنی (متن کتاب، نظرات شبکههای اجتماعی، توییت ها و …)
- دادههای جدولی (دادههای خوشهبندی، طبقهبندی، سری زمانی و …)
- دادههای مولتیمدیا (عکس، ویدیو و صوت)(عکسهای هوایی، دوربینهای مداربسته و …)
از نظر نوع رسانهای که دیتاست بر روی آن ارائه میگردد نیز میتوان چهار دستهبندی زیر را معرفی کرد:
- دیتاستهایی که بر روی فایل هستند
- دیتاستهایی که بر روی چند فایل هستند
- دیتاستهایی که بر روی پایگاه داده هستند
- دیتاستهایی که بر روی وب هستند
این روزها هوش مصنوعی، یادگیری ماشین، یادگیری عمیق و اصطلاحاتی این چنین در خلال اخبار دنیای فناوری بسیار به گوش میرسند، چرا که بسیاری از کمپانی های رده بالا و پیشتاز در دنیای فناوری، هوش مصنوعی را قدم بعدی بزرگ برای اضافه کردن قابلیت یادگیری به رایانه ها عنوان کردهاند.
در ساده ترین تعریف ممکن، یادگیری ماشین به معنای تغذیه ی الگوریتم های محاسباتی با استفاده از در اختیار گذاشتن مجموعه ای از اطلاعات در قالب دیتاسِت است که در مرحله ی بعد رایانه باید با استفاده از این دیتاسِت به سوالات پرسیده شده پاسخ دهد. برای مثال می توان به تهیه ی مجموعه ای از تصاویر اشاره کرد که هر یک با توضیح ”این یک گربه است“یا”این یک گربه نیست“ همراه شده است. پس از آنکه این مجموعه ی تصاویر در اختیار الگوریتم قرار گرفت، میتوان با نمایش تصاویری به رایانه از آن خواست تا تشخیص دهد که آیا تصویر مربوط به گربه است یا خیر؟
اما فرآیند آموزش به مجموعه ی اولی که در اختیار رایانه قرار گرفته محدود نمیشود؛ با پرسیدن هر سوال که در واقع یک تصویر در آن نمایش داده میشود، فارغ از اینکه الگوریتم صحیح پاسخ دهد یا خیر، عکس مورد نظر به دیتاست اضافه شده و در نتیجه دانش هوش مصنوعی به مرور زمان بهبود می یابد.
کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، به خودی خود، یک مسئله منحصر به فرد محسوب می شود و نیازمند استراتژی مجزا و منحصر به فرد مخصوص خود می باشد.
در بخش تازه های این شماره شما را با 10 دیتاست یادگیری ماشین، که جزو معروف ترین دیتاست ها و نیز استانداردترین شان هستند آشنا می سازیم.
- Swedish Auto Insurance Dataset
دیتاست Swedish Auto Insurance Dataset در مورد بیمه اتوموبیل های کشور سوئد بوده که با واحد پولی Korona بیان گردیده است.
- Wine Quality Dataset
دیتاست Wine Quality Dataset شامل پیش بینی کیفیت نوشیدنی های معمولی است که با شاخص های شیمیایی، کیفیت هر نوشیدنی را می سنجد.
- 3. Pima Indians Diabetes Dataset
دیتاست Pima Indians Diabetes Dataset شامل پیش بینی دیابت افراد هندی در طول مدت 5 سال می باشد.
- 4. Sonar Dataset
واژه Sonar به معنی دستگاه ردیابی به وسیله امواج صوتی است. دیتاست Sonar شامل میزان قوی بودن امواج برگشتی از اشیاء می باشد که از زاویه های مختلف بر اشیاء تابیده شده اند.
- Banknote Dataset
این دیتاست برای پیش بینی اصل بودن یا تقلبی بودن اسکناس های پول می باشد
- Iris Flowers
این دیتاست از مشهور ترین دیتاست های یادگیری ماشین می باشد که شامل مشخصات گونه های مختلف گل می باشد.
- Abalone
دیتاست Abalone شامل پیش بینی سن صدف های دریایی می باشد.
- 8. Ionosphere
دیتاست Ionosphere برای پیش بینی ساختار اتمسفر لایه بیرونی جو زمین (Ionosphere) است. این پیش بنیی به وسیله برگشت امواج راداری است که به الکترون های آزاد موجود در لایه Ionosphere تابانده شده، به دست آمده است.
- 9. Wheat Seeds
دیتاست Wheat Seeds برای پیش بینی گونه های متخلف دانه گندم استفاده می شود
- 10. Boston House Price
دیتاست Boston House Price شامل پیش بینی قیمت خانه ها و همسایه های آن بر اساس هزار دلار می باشد