پردازش زبان طبیعی و بررسی تأثیر بروندادهای علمی
پگاه تاجر، عضو هیأت علمی دانشگاه آزاد اسلامی واحد مرودشت، دانش آموخته دکتری بازیابی اطلاعات و دانش دانشگاه شیراز
تحلیل شمارشی استناد به طور گستردهای برای بررسی اَعمال استنادی نویسندگان، رشتهها و تعامل بین رشتهها به کار رفته است. از این رو، سنجههایی چون ضریب تأثیر مجله، رتبه چارک مجله و شاخص هرش[1] نویسنده به وجود آمده است. پایگاههای استنادی مانند «وب آو ساینس» و «اسکوپوس» هم اطلاعات استنادی حاصل از این نوع تحلیل را ارائه میکنند.
با وجود گستردگی استفاده از این شاخصها در ارزیابی علوم، تحلیل شمارشی استناد مورد انتقاد جامعه علمی قرار گرفته است. منتقدان، بر این باورند که تعداد استنادها تابع عوامل متعددی از جمله زمان، رشته، مجله، نوع مقاله، زبان و در دسترس بودن هستند. بنابراین، شایستگی علمی اثر استنادشونده تنها یکی از عوامل استناددهی است (طباطبایی، 2013).
همزمان با افزایش بکارگیری تحلیل شمارشی استناد در ارزیابی علوم و همگام با آغاز انتقادها، پرسشهایی در مورد چرایی و نقش استنادها مطرح شد. بحث راجع به کارکرد و نقش استنادها، به ظهور سه نظریه هنجاری[2]، ساختگرا[3] و مکعبی[4] در حوزه تحلیل استنادی انجامید.
بر اساس نظریه هنجاری، دانشمندان باورهای ذهنی همتایان خود را از طریق استناددهی به انتشارات آنها، تصدیق و تحسین مینمایند. در مقابل، نظریه ساختگرا استناددهی به نویسندگان برجسته یک حوزه را ابزاری برای اقناع خواننده و اعتباربخشی به مباحث میداند (بالدی[5]، 1998).
پیروان نظریه ساختگرا، اعتبار ارزیابی علوم از طریق تحلیل شمارشی استنادها را به چالش کشیدند و اظهار کردند که ممکن است نویسندگان پس دریافت اعتبار و اطمینان موردنظر، به آثار دیگری استناد کنند. موراوجیک و موروگیسن[6] (1975)، برای اولین بار اصول نظریه ساختگرای استناد را در عمل بررسی کردند. در پژوهش آنها درصد بالایی از استنادهای سرسری و ارجاعات مورد تردید، شناسایی شد.
دو نظریه فوق، از یک طرف مانعهالجمع نیستند و از طرف دیگر، قابل تفکیک نمیباشند. واقعیت این است که استنادکنندگان به دلایل پیچیدهای استناد میکنند. پژوهشگری ممکن است، هم با انگیزه تأیید دانش ادعاشده در یک مدرک و هم به دلیل اقناع خواننده در مورد برجسته بودن نویسنده آن مدرک، استناد دهد (بالدی، 1998). از این رو، دانشمندانی چون لییو[7] (1997) و نیکولایسن[8] (2002) پیشنهاد دادند تا دو نظریه، به منظور ایجاد یک نظریه رضایتبخش یکپارچه شوند. در این راستا، اسمال[9] (2004)، با ارائه اندیشه «استنادها درحکم نمادهای مفهومی» تلاش کرد تا دو نظریه قبل را یکپارچه نماید و نظریه مکعبی استناد را توسعه دهد. وی، بر این باور بود که اگر استناددهی صادقانه انجام شود، یک استناد هم نشانه (با کاراکتری عینی) است و هم نماد (نمادی از مفهوم مندرج در اثر استنادشونده). به عبارت دیگر، اثر استنادشده نمادی از ایده بیانشده در متن است.
با ظهور نظریه مکعبی، تحلیل بافتی استناد بیش از پیش مورد توجه پژوهشگران قرار گرفت. اولین تلاشها برای درک بهتر ارتباط مدارک استنادشونده و استنادکننده را در پژوهش لیپتز[10] (1965) میتوان دید. وی پیشنهاد داد که نمایههای استنادی، نباید فقط به گزارش کمی آنچه مورد استناد قرار گرفته است، بسنده کنند؛ بلکه، لازم است در بر دارنده ماهیت و چگونگی سهم اثر استنادشونده در اثر استنادکننده هم باشند. از نظر لیپتز، شاخصهای ارتباط استنادی توانایی توصیف ارتباط مستمر و دقیق منابع استنادکننده و استنادشونده را دارند؛ اما، پیادهسازی آنها در نمایههای استنادی علوم به مهارتهای انسانی نیاز دارد و بسیار پرهزینه خواهد بود. بعدها، اسمال (1982)، دیدگاه وی را مورد انتقاد قرار داد و بر خودکارسازی گسترده فرایند درج این ارتباطات در نمایههای استنادی تأکید ورزید.
این در حالی است که بیش از 50 سال است که پایگاههای اطلاعاتی چون نمایه استنادی علوم، ارتباط بین مقالات را با شناسایی ارتباط استنادی یک اثر با اثر دیگر فراهم میآورند. با این حال، این ارتباط نه مشخص میکند که استناد در کدام بخش مقاله رخ داده است و نه، از ماهیت و چگونگی استنادها اطلاعاتی در دسترس قرار میدهد. با این وجود، مطالعات پژوهشگران این حوزه ادامه یافت و محققان بر این مهم تأکید کردند که برای تعیین اینکه کدام منبع استنادکننده، مرجع مناسبی جهت ارزیابی اثرگذاری منبع استنادشونده هست، لازم است بین انواع کارکردهایی که از تحلیل بافتارها شناسایی میشوند، تمایز قائل شد.
در اواسط دهه هفتاد میلادی، راهکار وزندار کردن استنادها از طریق تعیین چگونگی بهکارگیری آنها در مقاله استنادکننده، به عنوان راهحلی نظری ارائه شد (هرلاک[11]، 1978؛ ووس و داگو[12]، 1976). تلاشهای عملی از طریق تحلیل بافتار استنادهای مجموعه دادههای کوچک آغاز شد و به تدریج با در دسترس قرار گرفتن مجموعههای عظیم تماممتن الکترونیکی و پیشرفت فنون پردازش متن، گسترش یافت.
فنون پردازش زبان طبیعی متنوع هستند و در تحلیل سطوح مختلف متن از جمله کلمه، نحو، معنا و گفتمان به کار گرفته میشوند. مشهورترین این فنون عبارتند از: ریشهیابی کلمات، برچسبگذاری نقش ادات سخن، رفع ابهام معنایی کلمات در جمله، مدلسازی زبان، اشتقاق، درک گرامر، استخراج اطلاعات، تصحیح املا، خلاصهسازی خودکار متن و تحلیل احساس. الگوریتمهای پردازش زبان طبیعی با رویکردهای مختلف آماری، مبتنی بر دانش و یادگیری ماشینی سروکار دارند.
در سالهای گذشته، برخی از پژوهشگران تلاش کردند به منظور شناخت ماهیت استنادها از فن تحلیل احساس که هدف اصلی آن شناسایی احساس بیانشده در محتوا و تعیین قطبیت آن است، استفاده کنند. با توجه به این که در تحلیل احساس، صرفاً سه حالت قطبیت یعنی مثبت، منفی و خنثی شناسایی میشود، پژوهشگران این حوزه تلاش کردند ایدههای دیگری را نیز بیازمایند. برای نمونه، سولا و میلر[13] (2014) در رویکردی ترکیبی از تحلیل احساس، مدلسازی زبان و جایگاه استناد برای شناسایی نقش استنادها و در واقع تعیین قطبیت آنها بهره بردند. ما، نم و ویه[14] (2016) با مدلسازی نویسنده از طریق بهرهگیری از اطلاعات مربوط به میزان اشتهار نویسندگان از جمله شاخص هرش و افزودن آنها در الگوی تحلیل احساس، به ردهبندی احساس جملات استنادی پرداختند. پیشفرض آنها این بود که احتمال استناد مثبت به مقالات پژوهشگران برجسته بیش از مقالات دیگر است. اکرام و افضل[15] (2019) هم ایده تحلیل احساس بعدمدار[16] را به منظور بهبود تحلیل احساس مرسوم بافتارهای استنادی ارائه دادند. از نظر آنها، بافتارهای استناد شاخص مهمی برای تعیین اهمیت مقالات استنادشونده از جنبههای گوناگونی چون مفهوم، روش، ابزار و پیکره هستند. بنابراین، لازم است قطبیت را در جنبههای گوناگون اثر استنادشونده شناسایی کرد.
با توجه به اهمیت تعیین جنبههای گوناگون قطبیت، لازم است ایدههای تازهتری به منظور تحلیل عمیقتر بافتارهای استناد به بوته آزمایش گذاشته شود. با توجه به در دسترس بودن روش یادگیری ماشینی نظارتی، میتوان با بهرهگیری از عوامل انسانی متخصص به تولید پیکرههای حاشیهنویسی شده بافتارهای استناد همت گماشت و از آنها در تولید طبقهبندهای خودکار کارکردهای استناد استفاده نمود. علاوه بر این، ارائه راهکارهای شناسایی غیر نظارتی یا نیمهنظارتی ماهیت استنادها دور از ذهن نیست.
شایان ذکر است که در زمینه طبقهبندی خودکار فراقطبیتی استنادها، تلاشهای اندکی با به کارگیری رویکردهای ترکیبی آماری و نظارتی انجام شده است که پرداختن به آنها در این مجال نمیگنجد. همین بس که پیشرفت روزافزون پردازش زبان طبیعی، متنکاوی و هوش مصنوعی، امکانات شگرفی در بسیاری حوزهها از جمله تحلیل بافتار استناد در اختیار قرار داده است. بهرهبرداری اثربخش از این امکانات میتواند اطلاعات استنادی تکمیلی را در دسترس قرار دهد و به ارزیابی دقیقتر بروندادهای علمی بیانجامد.
منابع
Baldi, S. (1998). Normative versus social constructivist processes in the allocation of citations: A network-analytic model. American Sociological Review, 63, 829-846.
Herlach, G. (1978). Can retrieval of information from citation indexes be simplified? Multiple mention of a reference as a characteristic of the link between cited and citing article. Journal of the American Society for Information Science, 29(6), 308–310.
Ikram, M. T., & Afzal, M. T. (2019). Aspect based citation sentiment analysis using linguistic patterns for better comprehension of scientific knowledge. Scientometrics, 119(1), 73-95.
Lipetz, B. A. (1965). Improvement of the selectivity of citation indexes to science literature through inclusion of citation relationship indicators. American Documentation, 16, 81-90.
Liu, Z. M. (1997). Citation theories in the framework of international flow of information: New evidence with translation analysis. Journal of the American Society for Information Science, 48, 80-87.
Ma, Z., Nam, J., & Weihe, K. (2016, June). Improve sentiment analysis of citations with author modelling. In Proceedings of the 7th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis (pp. 122-127).
Moravcsik, M. J., & Murugesan, P. (1975). Some results on the function and quality of citations. Social Studies of Science, 5(1), 86-9.
Nicolaisen, J. (2002). The J-shaped distribution of citedness. Journal of Documentation, 58, 383-395.
Small, H. (1982). Citation context analysis. In B. Dervin & M. J. Voigt (Eds.), Progress in Communication Sciences (pp. 287-310). Norwood, NJ: Ablex.
Small, H. (2004). On the shoulders of Robert Merton: Towards a normative theory of citation. Scientometrics, 60, 71-79.
Sula, C.A. & Miller, M. (2014). Citations, contexts, and humanistic discourse: Toward automatic extraction and classification. Literary and Linguistic Computing, 29(3), 452-464.
Tabatabaei, N. (2013). Contribution of information science to other disciplines as reflected in citation contexts of highly cited JASIST papers (Doctoral dissertation, McGill University Libraries).
Voos, H., & Dagaev, K. S. (1976). Are All Citations Equal? Or, Did We Op. Cit. Your Idem?. Journal of Academic Librarianship, 1(6), 19-21.
[1]. H-Index
[2]. Normative
[3]. Constructivist
[4]. Cube
[5]. Baldi
[6]. Moravcsik, M. J., & Murugesa
[7]. Liu
[8]. Nicolaisen
[9]. Small
[10].Lipetz
[11]. Herlach
[12]. Voos & Dagaev
[13]. Sula and Miller
[14] . Ma, Nam, & Weihe
[15].Ikram & Afzal
[16] .Aspect based sentiment analysis