معرفی چند دیتا ست یا مجموعه داده

: دوره سوم، شماره سوم: مدیریت داده‌های پژوهشی; تازه‌ها; 12 دی 1398; بازدید: 2828

معرفی چند دیتا ست یا مجموعه داده

زهرا شاه نظرنژاد،کارشناس ارشد علم اطلاعات و دانش شناسی

دیتاست یا مجموعه داده (DataSet) به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های یادگیری ماشین استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج می‌توان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روش‌ها را مقایسه کرد.

فرض کنید کاری که می‌خواهید انجام دهید در مورد رده‌بندی (Classification) است. درنتیجه شما باید به دنبال دیتایی باشید که لیبل یا برچسب داده‌های آن مشخص باشد. یا در مثال دیگر، فرض کنید شما به دنبال ایجاد یا ارتقاء روشی برای کاهش بُعد دیتا هستید در این صورت نیز شما باید دیتایی را انتخاب کنید که دارای بُعد زیاد باشد.

پس می‌توان نتیجه گرفت برای هر تسک باید به دنبال دیتاست مناسب آن باشیم. دسته‌بندی‌های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

داده‌های متنی (متن کتاب، نظرات شبکه‌های اجتماعی، توییت ها و …)
داده‌های جدولی (داده‌های خوشه‌بندی، طبقه‌بندی، سری زمانی و …)
داده‌های مولتی‌مدیا (عکس، ویدیو و صوت)(عکس‌های هوایی، دوربین‌های مداربسته و …)

از نظر نوع رسانه‌ای که دیتاست بر روی آن ارائه می‌گردد نیز می‌توان چهار دسته‌بندی زیر را معرفی کرد:

دیتاست‌هایی که بر روی فایل هستند
دیتاست‌هایی که بر روی چند فایل هستند
دیتاست‌هایی که بر روی پایگاه داده هستند
دیتاست‌هایی که بر روی وب هستند

این روزها هوش مصنوعی، یادگیری ماشین، یادگیری عمیق و اصطلاحاتی این چنین در خلال اخبار دنیای فناوری بسیار به گوش می‌رسند، چرا که بسیاری از کمپانی های رده بالا و پیشتاز در دنیای فناوری، هوش مصنوعی را قدم بعدی بزرگ برای اضافه کردن قابلیت یادگیری به رایانه ها عنوان کرده‌اند.

در ساده ترین تعریف ممکن، یادگیری ماشین به معنای تغذیه ی الگوریتم های محاسباتی با استفاده از در اختیار گذاشتن مجموعه ای از اطلاعات در قالب دیتاسِت است که در مرحله ی بعد رایانه باید با استفاده از این دیتاسِت به سوالات پرسیده شده پاسخ دهد. برای مثال می توان به تهیه ی مجموعه ای از تصاویر اشاره کرد که هر یک با توضیح ”این یک گربه است“یا”این یک گربه نیست“ همراه شده است. پس از آنکه این مجموعه ی تصاویر در اختیار الگوریتم قرار گرفت، می‌توان با نمایش تصاویری به رایانه از آن خواست تا تشخیص دهد که آیا تصویر مربوط به گربه است یا خیر؟

اما فرآیند آموزش به مجموعه ی اولی که در اختیار رایانه قرار گرفته محدود نمی‌شود؛ با پرسیدن هر سوال که در واقع یک تصویر در آن نمایش داده می‌شود، فارغ از اینکه الگوریتم صحیح پاسخ دهد یا خیر، عکس مورد نظر به دیتاست اضافه شده و در نتیجه دانش هوش مصنوعی به مرور زمان بهبود می یابد.

کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، به خودی خود، یک مسئله منحصر به فرد محسوب می شود و نیازمند استراتژی مجزا و منحصر به فرد مخصوص خود می باشد.

در بخش تازه های این شماره شما را با 10 دیتاست یادگیری ماشین، که جزو معروف ترین دیتاست ها و نیز استانداردترین شان هستند آشنا می سازیم.

Swedish Auto Insurance Dataset

دیتاست Swedish Auto Insurance Dataset در مورد بیمه اتوموبیل های کشور سوئد بوده که با واحد پولی Korona بیان گردیده است.

Wine Quality Dataset

دیتاست Wine Quality Dataset شامل پیش بینی کیفیت نوشیدنی های معمولی است که با شاخص های شیمیایی، کیفیت هر نوشیدنی را می سنجد.

3. Pima Indians Diabetes Dataset

دیتاست Pima Indians Diabetes Dataset شامل پیش بینی دیابت افراد هندی در طول مدت 5 سال می باشد.

4. Sonar Dataset

واژه Sonar به معنی دستگاه ردیابی به وسیله امواج صوتی است. دیتاست Sonar شامل میزان قوی بودن امواج برگشتی از اشیاء می باشد که از زاویه های مختلف بر اشیاء تابیده شده اند.

Banknote Dataset

این دیتاست برای پیش بینی اصل بودن یا تقلبی بودن اسکناس های پول می باشد

Iris Flowers

این دیتاست از مشهور ترین دیتاست های یادگیری ماشین می باشد که شامل مشخصات گونه های مختلف گل می باشد.

Abalone

دیتاست Abalone شامل پیش بینی سن صدف های دریایی می باشد.

8. Ionosphere

دیتاست Ionosphere برای پیش بینی ساختار اتمسفر لایه بیرونی جو زمین (Ionosphere) است. این پیش بنیی به وسیله برگشت امواج راداری است که به الکترون های آزاد موجود در لایه Ionosphere تابانده شده، به دست آمده است.

9. Wheat Seeds

دیتاست Wheat Seeds برای پیش بینی گونه های متخلف دانه گندم استفاده می شود

10. Boston House Price

دیتاست Boston House Price شامل پیش بینی قیمت خانه ها و همسایه های آن بر اساس هزار دلار می باشد

برچسب ها: دوره سوم، شماره سوم: مدیریت داده‌های پژوهشی

تازه‌ها

معرفی چند دیتا ست یا مجموعه داده

آدرس

تصویر

آخرین مطالب

خبرنامه

منو اصلی