• ilisafars@gmail.com

  • شماره تماس :14-32263513-071

  • ساعت کاری :۸صبح تا ۳ بعدظهر

پردازش زبان طبیعی و بررسی تأثیر بروندادهای علمی

پردازش زبان طبیعی و بررسی تأثیر بروندادهای علمی

پگاه تاجر، عضو هیأت علمی دانشگاه آزاد اسلامی واحد مرودشت، دانش­ آموخته دکتری بازیابی اطلاعات و دانش دانشگاه شیراز

تحلیل شمارشی استناد به طور گسترده‌ای برای بررسی اَعمال استنادی نویسندگان، رشته‌ها و تعامل بین رشته‌ها به کار رفته است. از این رو، سنجه‌هایی چون ضریب تأثیر مجله، رتبه چارک مجله و شاخص هرش[1] نویسنده به وجود آمده است. پایگاه‌های استنادی مانند «وب آو ساینس» و «اسکوپوس» هم اطلاعات استنادی حاصل از این نوع تحلیل را ارائه می‌کنند.

با وجود گستردگی استفاده از این شاخص‌ها در ارزیابی علوم، تحلیل شمارشی استناد مورد انتقاد جامعه علمی قرار گرفته است. منتقدان، بر این باورند که تعداد استناد‌ها تابع عوامل متعددی از جمله زمان، رشته، مجله، نوع مقاله، زبان و در دسترس بودن هستند. بنابراین، شایستگی علمی اثر استنادشونده تنها یکی از عوامل استناددهی است (طباطبایی، 2013).

همزمان با افزایش بکارگیری تحلیل شمارشی استناد در ارزیابی علوم و همگام با آغاز انتقادها، پرسش‌هایی در مورد چرایی و نقش استنادها مطرح شد. بحث راجع به کارکرد و نقش استنادها، به ظهور سه نظریه هنجاری[2]، ساختگرا[3] و مکعبی[4] در حوزه تحلیل استنادی انجامید.

بر اساس نظریه هنجاری، دانشمندان باورهای ذهنی همتایان خود را از طریق استناددهی به انتشارات آنها، تصدیق و تحسین می‌نمایند. در مقابل، نظریه ساختگرا استناددهی به نویسندگان برجسته یک حوزه را ابزاری برای اقناع خواننده و اعتباربخشی به مباحث می‌داند (بالدی[5]، 1998).

پیروان نظریه ساختگرا، اعتبار ارزیابی علوم از طریق تحلیل شمارشی استنادها را به چالش کشیدند و اظهار کردند که ممکن است نویسندگان پس دریافت اعتبار و اطمینان موردنظر، به آثار دیگری استناد کنند. موراوجیک و موروگیسن[6] (1975)، برای اولین بار اصول نظریه ساختگرای استناد را در عمل بررسی کردند. در پژوهش آنها درصد بالایی از استنادهای سرسری و ارجاعات مورد تردید، شناسایی شد.

دو نظریه فوق، از یک طرف مانعه­الجمع نیستند و از طرف دیگر، قابل تفکیک نمیباشند. واقعیت این است که استنادکنندگان به دلایل پیچیده‌ای استناد می‌کنند. پژوهشگری ممکن است، هم با انگیزه تأیید دانش ادعا­شده در یک مدرک و هم به دلیل اقناع خواننده در مورد برجسته بودن نویسنده آن مدرک، استناد دهد (بالدی، 1998). از این رو، دانشمندانی چون لی‌یو[7] (1997) و نیکولایسن[8] (2002) پیشنهاد دادند تا دو نظریه، به منظور ایجاد یک نظریه رضایت‌بخش یکپارچه شوند. در این راستا، اسمال[9] (2004)، با ارائه اندیشه «استنادها درحکم نمادهای مفهومی» تلاش کرد تا دو نظریه قبل را یکپارچه نماید و نظریه مکعبی استناد را توسعه دهد. وی، بر این باور بود که اگر استناددهی صادقانه انجام شود، یک استناد هم نشانه­ (با کاراکتری عینی) است و هم نماد (نمادی از مفهوم مندرج در اثر استنادشونده). به عبارت دیگر، اثر استنادشده نمادی از ایده بیان­شده در متن است.

با ظهور نظریه مکعبی، تحلیل بافتی استناد بیش از پیش مورد توجه پژوهشگران قرار گرفت. اولین تلاش‌ها برای درک بهتر ارتباط مدارک استنادشونده و استنادکننده را در پژوهش لیپتز[10] (1965) می‌توان دید. وی پیشنهاد داد که نمایه‌های استنادی، نباید فقط به گزارش کمی آنچه مورد استناد قرار گرفته است، بسنده کنند؛ بلکه، لازم است در بر دارنده ماهیت و چگونگی سهم اثر استنادشونده در اثر استنادکننده هم باشند. از نظر لیپتز، شاخص‌های ارتباط استنادی توانایی توصیف ارتباط مستمر و دقیق منابع استنادکننده و استنادشونده را دارند؛ اما، پیاده‌سازی آنها در نمایه‌های استنادی علوم به مهارتهای انسانی نیاز دارد و بسیار پرهزینه خواهد بود. بعدها، اسمال (1982)، دیدگاه وی را مورد انتقاد قرار داد و بر خودکارسازی گسترده فرایند درج این ارتباطات در نمایه‌های استنادی تأکید ورزید.

این در حالی است که بیش از 50 سال است که پایگاههای اطلاعاتی چون نمایه استنادی علوم، ارتباط بین مقالات را با شناسایی ارتباط استنادی یک اثر با اثر دیگر فراهم می‌آورند. با این حال، این ارتباط نه مشخص می‌کند که استناد در کدام بخش مقاله رخ داده است و نه، از ماهیت و چگونگی استنادها اطلاعاتی در دسترس قرار می‌دهد. با این وجود، مطالعات پژوهشگران این حوزه ادامه یافت و محققان بر این مهم تأکید کردند که برای تعیین این­که کدام منبع استنادکننده، مرجع مناسبی جهت ارزیابی اثرگذاری منبع استنادشونده هست، لازم است بین انواع کارکردهایی که از تحلیل بافتارها شناسایی می­شوند، تمایز قائل شد.

در اواسط دهه هفتاد میلادی، راهکار وزن‌دار کردن استنادها از طریق تعیین چگونگی به‌کارگیری آنها در مقاله استنادکننده، به عنوان راه‌حلی نظری ارائه شد (هرلاک[11]، 1978؛ ووس و داگو[12]، 1976). تلاش‌های عملی از طریق تحلیل بافتار استنادهای مجموعه­ داده‌های کوچک آغاز شد و به تدریج با در دسترس قرار گرفتن مجموعه‌های عظیم تمام‌متن الکترونیکی و پیشرفت فنون پردازش متن، گسترش یافت.

فنون پردازش زبان طبیعی متنوع هستند و در تحلیل سطوح مختلف متن از جمله کلمه، نحو، معنا و گفتمان به کار گرفته می‌شوند. مشهورترین این فنون عبارتند از: ریشه‌یابی کلمات، برچسب‌گذاری نقش ادات سخن، رفع ابهام معنایی کلمات در جمله، مدلسازی زبان، اشتقاق، درک گرامر، استخراج اطلاعات، تصحیح املا، خلاصه‌سازی خودکار متن و تحلیل احساس. الگوریتم‌های پردازش زبان طبیعی با رویکردهای مختلف آماری، مبتنی بر دانش و یادگیری ماشینی سروکار دارند.

در سال‌های گذشته، برخی از پژوهشگران تلاش کردند به منظور شناخت ماهیت استنادها از فن تحلیل احساس که هدف اصلی آن شناسایی احساس بیان‌شده در محتوا و تعیین قطبیت آن است، استفاده کنند. با توجه به این که در تحلیل احساس، صرفاً سه حالت قطبیت یعنی مثبت، منفی و خنثی شناسایی می‌شود، پژوهشگران این حوزه تلاش کردند ایده‌های دیگری را نیز بیازمایند. برای نمونه، سولا و میلر[13] (2014) در رویکردی ترکیبی از تحلیل احساس، مدلسازی زبان و جایگاه استناد برای شناسایی نقش استنادها و در واقع تعیین قطبیت آنها بهره بردند.­ ما، نم و ویه[14] (2016) با مدلسازی نویسنده از طریق بهره‌گیری از اطلاعات مربوط به میزان اشتهار نویسندگان از جمله شاخص هرش و افزودن آنها در الگوی تحلیل احساس، به رده‌بندی احساس جملات استنادی پرداختند. پیش‌فرض آنها این بود که احتمال استناد مثبت به مقالات پژوهشگران برجسته بیش از مقالات دیگر است. اکرام و افضل[15] (2019) هم ایده تحلیل احساس بعدمدار[16] را به منظور بهبود تحلیل احساس مرسوم بافتارهای استنادی ارائه دادند. از نظر آنها، بافتارهای استناد شاخص مهمی برای تعیین اهمیت مقالات استنادشونده از جنبه­های گوناگونی چون مفهوم، روش، ابزار و پیکره هستند. بنابراین، لازم است قطبیت را در جنبه‌های گوناگون اثر استنادشونده شناسایی کرد.

با توجه به اهمیت تعیین جنبه‌های گوناگون قطبیت، لازم است ایده‌های تازه‌تری به منظور تحلیل عمیق‌تر بافتارهای استناد به بوته آزمایش گذاشته شود. با توجه به در دسترس بودن روش یادگیری ماشینی نظارتی، می‌توان با بهره‌گیری از عوامل انسانی متخصص به تولید پیکره‌های حاشیه‌نویسی شده بافتارهای استناد همت گماشت و از آنها در تولید طبقه‌بندهای خودکار کارکردهای استناد استفاده نمود. علاوه بر این، ارائه راهکارهای شناسایی غیر نظارتی یا نیمه‌نظارتی ماهیت استنادها دور از ذهن نیست.

شایان ذکر است که در زمینه طبقه‌بندی خودکار فراقطبیتی استنادها، تلاش‌های اندکی با به کارگیری رویکردهای ترکیبی آماری و نظارتی انجام شده است که پرداختن به آنها در این مجال نمی‌گنجد. همین بس که پیشرفت روزافزون پردازش زبان طبیعی، متن‌کاوی و هوش مصنوعی، امکانات شگرفی در بسیاری حوزه‌ها از جمله تحلیل بافتار استناد در اختیار قرار داده است. بهره‌برداری اثربخش از این امکانات می‌تواند اطلاعات استنادی تکمیلی را در دسترس قرار دهد و به ارزیابی دقیق‌تر بروندادهای علمی بیانجامد.

منابع

Baldi, S. (1998). Normative versus social constructivist processes in the allocation of citations: A network-analytic model. American Sociological Review, 63, 829-846.

Herlach, G. (1978). Can retrieval of information from citation indexes be simplified? Multiple mention of a reference as a characteristic of the link between cited and citing article. Journal of the American Society for Information Science, 29(6), 308–310.

Ikram, M. T., & Afzal, M. T. (2019). Aspect based citation sentiment analysis using linguistic patterns for better comprehension of scientific knowledge. Scientometrics119(1), 73-95.

Lipetz, B. A. (1965). Improvement of the selectivity of citation indexes to science literature through inclusion of citation relationship indicators. American Documentation, 16, 81-90.

Liu, Z. M. (1997). Citation theories in the framework of international flow of information: New evidence with translation analysis. Journal of the American Society for Information Science, 48, 80-87.

Ma, Z., Nam, J., & Weihe, K. (2016, June). Improve sentiment analysis of citations with author modelling. In Proceedings of the 7th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis (pp. 122-127).

Moravcsik, M. J., & Murugesan, P. (1975). Some results on the function and quality of citations. Social Studies of Science5(1), 86-9.

Nicolaisen, J. (2002). The J-shaped distribution of citedness. Journal of Documentation, 58, 383-395.

Small, H. (1982). Citation context analysis. In B. Dervin & M. J. Voigt (Eds.), Progress in Communication Sciences (pp. 287-310). Norwood, NJ: Ablex.

Small, H. (2004). On the shoulders of Robert Merton: Towards a normative theory of citation. Scientometrics, 60, 71-79.

Sula, C.A. & Miller, M. (2014). Citations, contexts, and humanistic discourse: Toward automatic extraction and classification. Literary and Linguistic Computing, 29(3), 452-464.

Tabatabaei, N. (2013). Contribution of information science to other disciplines as reflected in citation contexts of highly cited JASIST papers (Doctoral dissertation, McGill University Libraries).

Voos, H., & Dagaev, K. S. (1976). Are All Citations Equal? Or, Did We Op. Cit. Your Idem?. Journal of Academic Librarianship1(6), 19-21.

 


[1]. H-Index

[2]. Normative

[3]. Constructivist

[4]. Cube

[5]. Baldi

[6]. Moravcsik, M. J., & Murugesa

[7]. Liu

[8]. Nicolaisen

[9]. Small

[10].Lipetz

[11]. Herlach

[12]. Voos & Dagaev

[13]. Sula and Miller

[14] . Ma, Nam, & Weihe

[15].Ikram & Afzal

[16] .Aspect based sentiment analysis

آدرس

آدرس :

شیراز - خیابان حافظ - سازمان اسناد و کتابخانه ملی فارس - دبیرخانه انجمن کتابداری و اطلاع رسانی ایران-شاخه فارس

شماره تماس :

071-32263513-14 داخلی 186

دبیر انجمن:

09116252913

آدرس ایمیل:

این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

صفحات اجتماعی:

تلگرام

تصویر

آخرین مطالب

05 بهمن 1402 / دوره ششم، شماره اول: آرشیو دیجیتال
05 بهمن 1402 / دوره ششم، شماره اول: آرشیو دیجیتال
05 بهمن 1402 / دوره ششم، شماره اول: آرشیو دیجیتال

خبرنامه

برای اطلاع از آخرین خبرهای انجمن کتابداری فارس در خبرنامه سایت عضو شوید .
ثبت