
12 مارس 2025
بر اساس یک مطالعه جدید RAND، دو پلتفرم هوش مصنوعی در ارزیابی پاسخهای مناسب به افرادی که افکار خودکشی نشان میدهند، تقریباً با متخصصان سلامت روان برابری میکنند یا گاهی از آنها پیشی میگیرند.اگرچه محققان تعاملات مستقیم این مدلها با افراد خودکشی را ارزیابی نکردند، یافتهها بر اهمیت طراحی ایمن و آزمایشهای دقیق تاکید میکند و ممکن است درسهایی را برای کسانی که ابزارهایی مانند برنامههای سلامت روان ساخته شده بر روی هوش مصنوعی را توسعه میدهند، ارائه دهد.
این مطالعه از یک ابزار ارزیابی استاندارد برای آزمایش دانش سه مدل زبان بزرگ استفاده کرد ChatGPT توسط OpenAI، Claude توسط Anthropic و Gemini توسط Google. این پروژه یکی از اولین پروژه هایی است که دانش ابزارهای هوش مصنوعی را در مورد خودکشی می سنجد.
این ارزیابی برای ارزیابی دانش یک فرد در مورد اینکه چه چیزی پاسخ های مناسب به مجموعه ای از اظهارات ممکن است توسط فردی که افکار خودکشی را تجربه می کند بیان شود، طراحی شده است.
محققان هر یک از مدلهای زبان بزرگ را به ابزار ارزیابی پاسخ دادند و نمرات مدلهای هوش مصنوعی را با مطالعات قبلی که دانش گروههایی مانند معلمان K-12، دانشجویان روانشناسی در سطح کارشناسی ارشد و متخصصان بهداشت روان را ارزیابی میکردند، مقایسه کردند.
هر سه مدل هوش مصنوعی تمایل ثابتی برای بیش از حد ارزیابی مناسب بودن پاسخهای بالینی به افکار خودکشی نشان دادند که فضایی را برای بهبود در کالیبراسیون آنها نشان میدهد. با این حال، عملکرد کلی ChatGPT و کلود با عملکرد مشاوران، پرستاران و روانپزشکان حرفه ای که در طول مطالعات دیگر ارزیابی شدند، قابل مقایسه بود.
این یافته ها توسط مجله تحقیقات اینترنتی پزشکی منتشر شده است.
رایان مکبین، نویسنده اصلی این مطالعه و محقق ارشد سیاست در RAND، یک سازمان تحقیقاتی غیرانتفاعی، گفت: «در ارزیابی تعاملات مناسب با افرادی که افکار خودکشی را ابراز میکنند، متوجه شدیم که این مدلهای زبانی بزرگ میتوانند بهطور شگفتآوری قابل تشخیص باشند. با این حال، سوگیری این مدلها برای رتبهبندی پاسخها به عنوان مناسبتر از آنچه هستند – حداقل به گفته متخصصان بالینی – نشان میدهد که آنها باید بیشتر بهبود یابند.
خودکشی یکی از علل اصلی مرگ و میر افراد زیر 50 سال در ایالات متحده است و میزان خودکشی در سال های اخیر به شدت افزایش یافته است.مدل های زبانی بزرگ به عنوان وسیله ای بالقوه برای کمک یا آسیب رساندن به افراد افسرده و در معرض خطر خودکشی توجه گسترده ای را به خود جلب کرده است. این مدلها برای تفسیر و تولید پاسخهای متنی انسانمانند به پرسشهای نوشتاری و گفتاری طراحی شدهاند و شامل کاربردهای بهداشتی گستردهای هستند.
برای ارزیابی دانش سه مدل زبان بزرگ، محققان از ارزیابی موسوم به پرسشنامه پاسخ به افکار خودکشی (SIRI-2) استفاده کردند که 24 سناریو فرضی را ارائه میکند که در آن بیمار علائم افسردگی و افکار خودکشی را نشان میدهد و به دنبال آن پاسخهای احتمالی پزشک را نشان میدهد.
نمره نهایی تولید شده توسط Gemini تقریباً معادل نمرات گذشته بود که توسط کارکنان مدرسه K-12 قبل از آموزش مهارت های مداخله در خودکشی ایجاد شده بود. امتیاز نهایی تولید شده توسط ChatGPT به امتیازهای ارائه شده توسط دانشجویان دکتری در روانشناسی بالینی یا مشاوران در سطح کارشناسی ارشد نزدیک تر بود. کلود قوی ترین عملکرد را به نمایش گذاشت و از نمرات مشاهده شده حتی در میان افرادی که اخیراً آموزش مهارت های مداخله در خودکشی را به پایان رسانده بودند، و همچنین نمرات حاصل از مطالعات با روانپزشکان و سایر متخصصان سلامت روان را به نمایش گذاشت.
مکبین گفت: «هدف ما کمک به سیاستگذاران و توسعهدهندگان فناوری است که هم وعده و هم محدودیتهای استفاده از مدلهای زبانی بزرگ در سلامت روان را تشخیص دهند. “ما در حال آزمایش فشار معیاری هستیم که میتواند توسط پلتفرمهای فناوری ساخت مراقبتهای بهداشت روانی استفاده شود، که بهویژه در جوامعی که منابع محدودی دارند تاثیرگذار خواهد بود. اما احتیاط ضروری است – این مدلهای هوش مصنوعی جایگزین خطوط بحران یا مراقبتهای حرفهای نیستند.”
محققان می گویند که مطالعات آینده باید مستقیماً شامل مطالعه چگونگی پاسخ ابزارهای هوش مصنوعی به سؤالاتی باشد که ممکن است توسط افرادی که افکار خودکشی دارند یا نوع دیگری از بحران سلامت روان را تجربه می کنند ارسال شود.
حمایت از این مطالعه توسط موسسه ملی سلامت روان ارائه شده است. سایر نویسندگان این مطالعه جاناتان اچ کانتور، لی انگ ژانگ، آرون کوفنر، جاشوا برسلاو، و بردلی استاین، همگی از RAND هستند. اولسیا بیکر، فانگ ژانگ و هائو یو، همه از دانشکده پزشکی هاروارد. آلیسا هالبیسن از موسسه مراقبت های بهداشتی زائران هاروارد؛ و Ateev Mehrotra از دانشکده بهداشت عمومی دانشگاه براون.
مراقبت بهداشتی RAND با بهبود سیستم های مراقبت های بهداشتی در ایالات متحده و سایر کشورها، جوامع سالم تر را ارتقا می دهد.