8 آگوست 2022 -توسط دانشگاه علم و صنعت ملک عبدالله -چارچوبی که توسط آماردانان KAUST ایجاد شده است، مدلسازی طیفی از مجموعه دادههای هواشناسی و محیطی را از حداکثر 2 میلیون مکان در سراسر جهان ممکن میسازد. اعتبار: KAUST; هنو هوانگ
یک طرح مدلسازی سریعتر و دقیقتر از نظر آماری، پیشبینی بهتر آب و هوا و شرایط محیطی را در مقیاسهای بسیار بزرگ امکانپذیر میسازد.
ترکیب روشهای آماری دقیق با یک پلتفرم محاسباتی موازی قوی، یک طرح مدلسازی را فعال کرده است که شرایط محیطی را بهتر پیشبینی میکند و در عین حال به اندازه کافی کارآمد است که میلیونها مکان نظارت را پوشش دهد.
رویکرد مدلسازی جدید توسعهیافته توسط KAUST با یک مانع طولانیمدت برای بهبود پیشبینی آب و هوا و آب و هوا مقابله میکند: نحوه پیادهسازی آمار غیرگاوسی برای مجموعه دادههای جغرافیایی بسیار بزرگ.
ساگنیک موندال، دکترا، ازگروه تحقیقاتی آمار مارک جنتون. توضیح میدهد: «در آمار فضایی، هدف اصلی استفاده از دادههای مشاهدهشده در ایستگاههای نظارت برای پیشبینی شرایط در مکانهای مشاهدهنشده است». این نوع پیشبینیها برای بسیاری از کاربردهای آب و هوا و آب و هوا ضروری هستند. با این حال، امروزه، تعداد مکانهای رصد میتواند به میلیونها نفر برسد، که فراتر از توانایی روشهای محاسباتی سنتی است، و مدلهای سنتی گاوسی از لحاظ آماری مقادیر شدید را نمیتوانند ثبت کنند. “
یک مدل گاوسی یک توصیف آماری ساده از یک مجموعه داده است که بر اساس یک مقدار متوسط و توزیع متقارن به مقادیر بالاتر و پایین تر – نماد “منحنی زنگ” است. با این حال، بسیاری از متغیرهای محیطی و مشتقات آنها – مانند شدت بارندگی، سرعت باد، روزهای بدون باران یا روزهای بالاتر از دمای معین – در توزیع آنها متقارن نیستند. در عوض، اوج احتمالات آنها نزدیک به صفر است، اما در موارد نادر می توانند به اوج های قابل توجهی برسند. این “دم” طولانی تا مقادیر شدید با احتمال بسیار کم نمی تواند توسط مدل های گاوسی به تصویر کشیده شود، اما تحت تغییرات آب و هوا اهمیت فزاینده ای پیدا می کند.
موندال می گوید: «در این کار، ما مدل Tukey g-and-h را به کار بردیم که یک مدل فضایی غیر گاوسی با دو پارامتر اضافی برای تطبیق با توزیع های نامتقارن و گرفتن بهتر مقادیر شدید است.
در حالی که مدل توکی به وضوح برای داده های آب و هوا مفید است، به اندازه کافی کارآمد نیست که در عمل برای مجموعه داده های جغرافیایی بزرگ به عنوان یک محاسبات متوالی سنتی اعمال شود. با این حال، می توان آن را به طور قابل توجهی با موازی کردن محاسبات بهبود بخشید.
موندال میگوید: «مدلهای گاوسی قبلاً موازیسازی شدهاند، و بنابراین ما تصمیم گرفتیم مدل Tukey را برای اولین بار با استفاده از معماری موازی پیشرفته پیادهسازی کنیم.
تیم تحقیقاتی با اجرای طرح مدلسازی جدید روی ابررایانه شاهینII KAUST، عملکرد مدل را با استفاده از دادههای بارش واقعی از بیش از 300000 مکان در سراسر آلمان و با استفاده از مجموعه داده مصنوعی بیش از 800000 ایستگاه نشان داد.
موندال میگوید: «چارچوب ما به ما امکان میدهد مدل دقیق را با مجموعه دادههایی به بزرگی 1 میلیون مکان و با تقریبهای اضافی تا 2 میلیون مکان تطبیق دهیم. با استفاده از محاسبات موازی، ما راهی برای مدلسازی دادههای مکانی در مقیاس بزرگ فراهم میکنیم.»
این مطالعه به عنوان بخشی از سمپوزیوم بین المللی پردازش موازی و توزیع شده (IPDPS) IEEE در سال 2022 منتشر شد.