الف – مقدمه
در اوایل دهه 1900، با گسترش ایده های مدیریت علمی همراه با تولید انبوه، رویکردهای مدیریتی مدرن با شعار “شما آنچه را که اندازه گیری نمی کنید مدیریت کنید” نیز عنوان شد. این زمان مفهوم اطلاعات و نقش آن در مدیریت بصورتی مبهم وارد محیط اقتصادی شده و از آن زمان، مدیران عملیات در سراسر جهان به اندازه گیری بهره وری مواد، ماشین آلات و کارگران برای کنترل و بهبود کسب و کار خود اقدام کرده اند.
با گسترش علوم کامدیوتر و دانش اطلاعات و نیز فناوری های نوظهور از ابتدای هزاره سوم میلادی با شعار جدید «داده، نفت جدید است»، تأکید بر موضوع دادهها تغییراساسی کرده است .
مفهموم جدید دارایی های نامحسوس که شامل طیف عظیمی از دارایی های معنوی و اطلاعات و ذخیره ذهنی کارکنان می شود و علیرغم تعهد بسیاری از مدیران به اصول تصمیم گیری مبتنی بر داده ها، هنوز هیچ رویکرد جامعی برای سنجش میزان توانایی یک شرکت در بهره برداری از پتانسیل دارایی های معنوی خود و از جمله اطلاعات و داده ها وجود ندارد. به عبارت دیگر می توان اظهار داشت، هیچ معیار ی برای بهرهوری داده وجود ندارد. در کشور ما این امر در مرور ادبیاتی هم دجار کمبود است . برای این مورد میتوان به واژه های متفاوت هوش مصنوعی و یادگیری عمیق و تجزیه و تحلیل داده و …… اشاره نمود . این موارد در کنار موارد دیگری یک مجموعه از امور و حوزه ها هستند که در ابتدا باید آنها را شناخت . در بررسی موردی به این امر پرداخته شده است .
تلاشهایی بصورت متفرفه در این راستا وجود دارد و بنظر میرسد که توسعه راهکارها و راه حل های مدیریت که همه برای تصمیم گیری و تجزیه و تحلیل هستند نیاز به دیدگاه های نوآورانه ای در حوزه های مدیریت ارشد کسب و کار ها و سازمانها دارد .
ب – بررسی موردی از ارتباط مفاهیم مختلف

توسط ایلیا والچانوف، 3veta.
علم داده کلمه ای پر هیاهو است که بسیاری سعی کرده اند آن را از دیدگاه های متفاوتی تعریف کنند.فکر کردن به این مشکل باعث میشود که همه این زمینههای دیگر مرتبط با علم داده – تجزیه و تحلیل تجاری، تجزیه و تحلیل دادهها، هوش تجاری، تجزیهوتحلیل پیشرفته، یادگیری ماشینی و در نهایت هوش مصنوعی را دنبال کنید.
با پرداختن به این موضوع، ما متوجه شدیم که “تعریف مطلق” علم داده به پیشینه “علم داده” زیادی نیاز دارد تا درک شود، که یک مشکل بازگشتی و دوره ای است. فرضیه در اینجا این است که آماردانان یا برنامه نویسان می دانند چه داده هایی وجود دارد. تاریخدانان یا زبانشناسان میگویند علم داده ها بسیار سادهتر از آن است، این امر ما را به این ایده می رساند که «تعریف نسبی» علم داده ممکن است بسیار مفیدتر باشد و در اینجا طرح پیشنهادی ما آمده است.
این یک نمودار اویلر است که تمام زمینه های ذکر شده در بالا را نشان می دهد. هر رنگ میدان متفاوتی را نشان میدهد (رنگهای مختلط نشاندهنده تقاطعها هستند)، یک جدول زمانی و نمونههای استفاده از داده در آن وجود دارد.
کسب و کار
برای ساده سازی موضوع، فرض می کنیم که کلمه “کسب و کار” نیازی به تعریف ندارد. چند نمونه از فعالیت های تجاری در رابطه با داده ها عبارتند از:
- مطالعات موردی کسب و کار
- تجزیه و تحلیل کیفی
- گزارش داده های اولیه
- گزارش با تصاویر بصری
- ایجاد داشبورد
- پیش بینی فروش
- تجزیه و تحلیل کسب و کار
مشاهده می کنید که آنها راحت در مستطیل آبی نشسته اند.
داده ها
در اینجا نمودار اویلر واقعی شروع می شود. اگر داده ها را در تصویر قرار دهیم، دو فیلد بزرگ و تقاطع آنها یا در مجموع سه بخش خواهیم داشت.با توجه به انتخاب عبارت اولیه ما، می توانیم چهار عبارت آخر را در تقاطع Business و Data که در حال حاضر به عنوان ناحیه بنفش در تصویر نشان داده شده است، جابه جا کنیم. به این دلیل که «گزارش دادههای اولیه»، «گزارش با تصاویر بصری»، «ایجاد داشبورد» و «پیشبینی فروش» همه فعالیتهای تجاری مبتنی بر داده هستند.
آنها را میتوان با «مطالعات موردی تجاری» و «تحلیلهای کیفی» بطور معکوس استفاده کرد، زیرا آنها در تجارت هستند، اما مبتنی بر دانش، تجربه و رفتار گذشته هستند. همه مهم هستند اما همانطور که به زودی خواهید دید – نه واقعاً مشابه علم داده.
- داده های تجزیه و تحلیل کسب و کار
- تجزیه و تحلیل در مقابل تجزیه و تحلیل
تجزیه و تحلیل به فرآیند تقسیم مشکل به تکه هایی برای راحتی قابل هضم اشاره دارد که می توانید به صورت جداگانه آنها مطالعه و نحوه ارتباط آنها را با یکدیگر بررسی کنید.تجزیه و تحلیل، از سوی دیگر، استفاده از استدلال منطقی و محاسباتی برای اجزای به دست آمده در یک مطالعه ی تجزیه و تحلیل است و در انجام این کار، فرد به دنبال الگوهایی اغلب در حال بررسی این است که در آینده چه کاری می تواند با آنها انجام دهد.
بنابراین به جای Business and Data بهتر است از Business Analytics و Data Analytics استفاده کنیم.
زمان
قبل از ادامه، اجازه دهید یک جدول زمانی را معرفی کنیم زیرا مشخص میشود که برای تقسیمبندی بعدی بسیار مهم است.ما از سه حالت گذشته، حال و آینده استفاده خواهیم کرد.خطی وجود خواهد داشت که از نمودار عبور می کند و لحظه حال را برای هر مشکل تحلیلی نشان می دهد. همه چیز در سمت چپ به تجزیه و تحلیل هایی اشاره دارد که به گذشته نگاه می کنند. تمام آنچه در سمت راست است به تجزیه و تحلیل پیش بینی کننده اشاره دارد.دو بخش آخر تحلیل ما به این نقطه رسید.
تجزیه و تحلیل
پیشبینی فروش ، به سمت راست منتقل شد، زیرا نام آن حاکی از یک فرآیند تحلیلی آیندهنگر است. به طور کلی، “تحلیل کیفی” استفاده از شهود و تجربه شما برای برنامه ریزی حرکت بعدی است – بنابراین اصطلاح دیگری است که به آینده نگاه می کند.
علم داده
برای اکثر خوانندگان این نقطه اوج است. علم داده رشتهای است که بدون داده کار نمیکند. بنابراین، کاملاً در قلمرو Data Analytics است. اما در مورد رابطه آن با Business Analytics چطور؟
با کمی دقت معلوم می شود که همه آنچه که در بخش تجزیه و تحلیل داده و تجزیه و تحلیل تجاری مطرح است، در واقع علم داده است.
علم داده ، گذشته در مقابل آینده
فرآیندهایی از علم داده وجود دارد که مستقیماً و بطور صریح تجزیه و تحلیل تجاری نیستند، بلکه تجزیه و تحلیل داده هستند. به عنوان مثال، “بهینه سازی عملیات حفاری” به ابزارها و تکنیک های علم داده نیاز دارد. دانشمندان داده ممکن است این کار را روزانه انجام دهند. با این حال، در حالی که در حوزه «کسب و کار نفت» واقعاً نمیتوان گفت که مستقیماً به تجزیه و تحلیل تجاری مرتبط است.
با قدم گذاشتن بر مفهوم «تعریف نسبی»، برای نشان دادن بهتر این نکات، «پردازش سیگنال دیجیتال» نمونهای از فعالیتی است که بخشی از تجزیه و تحلیل دادهها است، اما علم داده و تجزیه و تحلیل تجاری نیست. داده ها، برنامه نویسی و ریاضیات وارد بازی می شوند، اما نه به همان روشی که ما از آنها در علم داده استفاده می کنیم.
برای یکپارچگی، اجازه دهید این را با جدول زمانی تمام کنیم – علم داده هم در سمت چپ و هم در سمت راست خط (مانند بقیه)که ما را به این سوال می رساند: آیا رشته ای وجود دارد که صرفاً گذشته محور باشد؟
هوش تجاری
هوش تجاری (BI) فرآیند تجزیه و تحلیل و گزارش داده های تاریخی است.
آیا گذشته گرا است؟ نه لزوما، اما هیچ تجزیه و تحلیل پیش بینی کننده ای در کار نیست. رگرسیون، طبقهبندی و سایر روشهای پیشبینیکننده دیگر بخشی از علم داده هستند، اما نه BI آنجاست که خط کشیده می شود.
علاوه بر این، هوش تجاری کاملاً زیرمجموعه ای از علم داده است. بنابراین، زمانی که فردی با آمار توصیفی، گزارش یا تجسم رویدادهای گذشته سر و کار دارد، هم به BI و هم علم داده می پردازد.
یادگیری ماشین و هوش مصنوعی
در اینجا تعاریف کمی مبهم خواهند بود، زیرا فقط توضیح ML و AI منجر به از دست دادن تمرکز می شود. هوش مصنوعی (AI) هر نوع هوشی است که توسط یک ماشین نشان داده می شود و شبیه هوش طبیعی (انسانی) است مانند برنامه ریزی، یادگیری، حل مسئله و غیره.
یادگیری ماشینی (ML) توانایی ماشینها برای پیشبینی نتایج بدون برنامهریزی صریح برای انجام این کار است.
ML رویکردی به هوش مصنوعی است، با این حال، این دو اغلب با هم اشتباه گرفته میشوند، زیرا ML در واقع تنها مسیر قابل دوام برای هوش مصنوعی است که ما بهعنوان انسان تاکنون توسعه دادهایم. بنابراین، هنگامی که ما در مورد برنامه های کاربردی واقعی هوش مصنوعی که شرکت ها از آن استفاده می کنند صحبت می کنیم، در واقع به ML اشاره می کنیم.
یادگیری ماشین کاملاً در تجزیه و تحلیل داده ها است، زیرا بدون داده نمی توان آن را انجام داد. همچنین با Data Science همپوشانی دارد، زیرا یکی از بهترین ابزارها در زرادخانه دانشمند داده است. در نهایت، تا زمانی که تجزیه و تحلیل پیشبینیکننده وجود نداشته باشد، در BI نیز شرکت میکند.
نمونههای ML در علم داده عبارتند از «حفظ مشتری»، «جلوگیری از تقلب» و «ایجاد داشبوردهای بلادرنگ همچنین بخشی از BI نمونه های برجسته عبارتند از “تشخیص گفتار” و “تشخیص تصویر”. هر دو را می توان در داخل یا خارج از Data Science در نظر گرفت، به همین دلیل است که ما آنها را در مرز قرار داده ایم.
برای پایان دادن به همه روابط، ML کاملاً در هوش مصنوعی است، اما خود هوش مصنوعی دارای زیرشاخه هایی است که حتی با تجزیه و تحلیل تجاری و داده ها ارتباطی ندارند! یکی از نمونه هایی که ما انتخاب کرده ایم «استدلال نمادین» است.
تجزیه و تحلیل پیشرفته
فیلد نهایی در تحلیل ما Advanced Analytics است. این یک اصطلاح علم داده نیست، بلکه یک اصطلاح بازاریابی است. از آن برای توصیف تحلیلهای «نه چندان آسان» استفاده میشود. از نظر ذهنی، برای یک مبتدی همه چیز در این نمودار پیشرفته است. اگرچه بهترین اصطلاح نیست، اما قطعاً جمعآوری تمام این اصطلاحات «مناسب» که در طول مقاله استفاده کردیم مفید است.

ج- تعاریفی دیگر
داده ها تقریباً همه جا هستند. حجم داده های دیجیتالی که در حال حاضر وجود دارد، اکنون با سرعت زیادی در حال رشد است. این تعداد هر دو سال یکبار دو برابر می شود و حالتی وجود ما را کاملاً متحول می کند. بر طبق مقاله ای از IBM، حدود 2.5 میلیارد گیگابایت داده به صورت روزانه در سال 2012 تولید شده است. مقاله دیگری از فوربس به ما اطلاع می دهد که داده ها با سرعتی سریعتر از همیشه در حال رشد هستند. همان مقاله نشان می دهد که تا سال 2020، حدود 1.7 میلیارد اطلاعات جدید در هر ثانیه برای همه ساکنان انسان در این سیاره ایجاد می شود. از آنجایی که داده ها با سرعت بیشتری در حال رشد هستند، اصطلاحات جدید مرتبط با پردازش و مدیریت داده ها در حال ظهور هستند. اینها شامل علم داده، داده کاوی و یادگیری ماشینی است.
علم داده چیست؟
علم داده با داده های ساختاریافته و بدون ساختار سروکار دارد. این زمینه ای است که شامل همه چیزهایی است که با پالایش، آماده سازی و تجزیه و تحلیل نهایی داده ها مرتبط است. علم داده ترکیبی از برنامه نویسی، استدلال منطقی، ریاضیات و آمار است. دادهها را به هوشمندانهترین راهها جمعآوری میکند و توانایی نگاه کردن به چیزها را با دیدگاهی متفاوت تشویق میکند. به همین ترتیب، داده ها را نیز تمیز، آماده و تراز می کند. به بیان ساده تر، علم داده چتری از چندین تکنیک است که برای استخراج اطلاعات و بینش داده ها استفاده می شود. دانشمندان داده مسئول ایجاد محصولات داده و چندین برنامه کاربردی دیگر مبتنی بر داده هستند که با داده ها به گونه ای سروکار دارند که سیستم های معمولی قادر به انجام آن نیستند.
داده کاوی چیست؟
دادهکاوی صرفاً فرآیند جمعآوری اطلاعات از پایگاههای داده عظیم است که قبلاً نامفهوم و ناشناخته بود و سپس استفاده از آن اطلاعات برای تصمیمگیری تجاری مرتبط. به بیان ساده تر، داده کاوی مجموعه ای از روش های مختلف است که در فرآیند کشف دانش برای تشخیص روابط و الگوهایی که قبلا ناشناخته بودند استفاده می شود. بنابراین میتوان دادهکاوی را ترکیبی از زمینههای مختلف دیگر مانند هوش مصنوعی، مدیریت پایگاه مجازی اتاق داده، تشخیص الگو، تجسم دادهها، یادگیری ماشین، مطالعات آماری و غیره نامید. هدف اولیه فرآیند داده کاوی استخراج اطلاعات از مجموعه های مختلف داده در تلاش برای تبدیل آن به ساختارهای مناسب و قابل درک برای استفاده نهایی است. بنابراین داده کاوی فرآیندی است که توسط دانشمندان داده و علاقه مندان به یادگیری ماشینی برای تبدیل مجموعه های بزرگ داده به چیزی قابل استفاده تر استفاده می شود.
یادگیری ماشینی چیست؟
یادگیری ماشینی نوعی هوش مصنوعی است که مسئول فراهم کردن توانایی رایانهها برای یادگیری مجموعههای داده جدیدتر بدون برنامهریزی از طریق منبع صریح است. در درجه اول بر توسعه چندین برنامه رایانه ای تمرکز دارد که می توانند در صورت قرار گرفتن در معرض مجموعه های جدیدتر از داده ها تغییر کنند. یادگیری ماشین و داده کاوی روند نسبتاً مشابهی را دنبال می کنند. اما آنها ممکن است یکسان نباشند. یادگیری ماشینی از روش تجزیه و تحلیل داده پیروی می کند که مسئول خودکارسازی ساخت مدل به روش تحلیلی است. از الگوریتم هایی استفاده می کند که به طور مکرر از داده ها دانش کسب می کند و در این فرآیند این امر به رایانه ها اجازه می دهد تا بینش های ظاهراً پنهان را بدون هیچ کمکی از یک برنامه خارجی پیدا کنند. برای به دست آوردن بهترین نتایج از داده کاوی، الگوریتم های پیچیده با فرآیندها و ابزارهای مناسب جفت می شوند.
تفاوت این سه اصطلاح چیست؟
همانطور که قبلاً اشاره کردیم، دانشمندان داده مسئول ارائه محصولات و برنامه های مبتنی بر داده هستند که داده ها را به گونه ای مدیریت می کنند که سیستم های معمولی نمی توانند. فرآیند علم داده بسیار بیشتر بر توانایی های فنی مدیریت هر نوع داده متمرکز است. برخلاف داده کاوی و یادگیری ماشینی داده، مسئول ارزیابی تأثیر داده ها در یک محصول یا سازمان خاص است.
در حالی که علم داده بر داده ها متمرکز است، داده کاوی با این فرآیند سروکار دارد. این به فرآیند کشف الگوهای جدیدتر در مجموعه داده های بزرگ می پردازد. ظاهراً ممکن است شبیه به یادگیری ماشینی باشد، زیرا الگوریتمها را دستهبندی میکند. با این حال، بر خلاف یادگیری ماشینی، الگوریتم ها تنها بخشی از داده کاوی هستند. در یادگیری ماشینی از الگوریتم ها برای کسب دانش از مجموعه داده ها استفاده می شود. با این حال، در داده کاوی الگوریتم ها تنها به عنوان بخشی از یک فرآیند ترکیب می شوند. برخلاف یادگیری ماشینی، به طور کامل بر روی الگوریتم ها تمرکز نمی کند.

د – نگاه به آینده نزدیک فناوری های مرتبط
10 روند فناوری هوش مصنوعی که دانشمندان داده باید بدانند
لیزا مورگان 08 ژوئن 2021
پذیرش هوش مصنوعی در سراسر صنایع، با ترکیبی از نتایج ملموس، انتظارات بالا و پول زیاد، در حال افزایش است. در میان بسیاری از مفاهیم و تکنیکهای جدید هوش مصنوعی که تقریباً روزانه راهاندازی میشوند، 10 گرایش فناوری هوش مصنوعی بهویژه توجه دانشمندان داده را به خود جلب میکنند.
- MLOps
عملیات یادگیری ماشین (MLOps) مفهوم جدیدی نیست، اما یک روش نسبتاً جدید “Ops” است که مدل های یادگیری ماشینی را عملیاتی می کند. MLOps به دنبال این است که بفهمد چه چیزی در یک مدل کار می کند و چه چیزی کار نمی کند تا در آینده مدل های قابل اعتمادتری ایجاد کند.
لی رهوینکل، معاون علم در شرکت نرمافزاری قیمتگذاری و فروش B2B Zilliant، گفت: این آخرین راه ساخت مدلهای یادگیری ماشینی بصورت عملی است که در طول تاریخ چندان مورد توجه قرار نگرفته است.
این یکی از دلایلی است که بسیاری از مدلها هرگز نور روز را نمیبینند، اما بسیار مهم است [زیرا] شما یک مدل میسازید، اما چگونه میتوانید از زمان به کارگیری آن مدل مطلع شوید؟ چقدر سریع پیشبینی میکند؟ آیا این کار را انجام میدهد. نیاز به آموزش یا بازآموزی دارید؟
2. یادگیری متضاد
یادگیری متضاد یک تکنیک یادگیری ماشینی است که چیزهای مشابه و غیر مشابه را در یک مجموعه داده بدون برچسب پیدا می کند. می توان از آن در پایگاه داده تصویر استفاده کرد، به عنوان مثال، برای یافتن تصاویر مشابه یکدیگر.
کامرون فن، سرپرست تحقیقات AI مدیریت سرمایه گفت: “یادگیری متضاد در حال تبدیل شدن به الگوی جدید در یادگیری بدون نظارت است. دلیل مفید بودن یادگیری بدون نظارت این است که اینترنت گنجینه ای از داده های بدون برچسب متن و تصاویر است.”.
معمولاً میتوانید این کار را با یادگیری انتقالی انجام دهید، اما چیزی که یادگیری متضاد را بسیار هیجانانگیز میکند این است که میتوانید این کار را با دادههایی که برای برچسبگذاری بسیار گران هستند و با مجموعه دادههای بسیار بزرگتری نسبت به تنظیم دقیق طبقهبندیکننده تصویر از پیش ساخته شده در ImageNet انجام دهید. “.
3. ترانسفورمرها
ترانسفورمرها یک معماری شبکه عصبی است که مانند شبکه های عصبی بازگشتی (RNN) داده های ورودی متوالی را مدیریت می کند. این به طور گسترده در مدل های زبان، از جمله ترجمه زبان و برنامه های کاربردی گفتار به متن استفاده می شود.
ترانسفورمرها که توسط محققان گوگل در سال 2017 ایجاد شدند، جایگزین مدلهای محبوب RNN، مانند الگوریتم حافظه کوتاهمدت بلند مدت (LSTM) که در برنامههای پردازش زبان طبیعی استفاده میشود، آمدهاند.
فن گفت، ترانسفورمر “یاد می گیرد که وزن های بالاتری را در دوره های زمانی که می خواهد به آنها توجه کند قرار دهد و میانگین وزنی ورودی های شما را برای تغذیه به مدل ایجاد کند.” “این اجازه می دهد تا مدل موازی شود و حافظه طولانی تری از مدل های LSTM داشته باشد.
4. ردپای کربن
ذخیره سازی داده ها و نیازهای محاسباتی بیشتر برای بارهای کاری هوش مصنوعی، انتشار کربن شرکت را در دوره ای افزایش می دهد که بسیاری از کشورها در توافقنامه پاریس شرکت می کنند و فرمانداران ایالت های ایالات متحده به اتحاد آب و هوای ایالات متحده می پیوندند.
از آنجایی که شرکتها از فضای ذخیرهسازی و محاسبات بیشتری برای استفاده از یادگیری عمیق استفاده میکنند، ردپای کربن خود را افزایش میدهند، که مستقیماً با الزامات «پایداری» (کاهش انتشار کربن) شرکت در تضاد است.
Ravi Guntur، رئیس یادگیری ماشین در Traceable.ai، که امنیت API و برنامهها را برای برنامههای بومی ابری امکانپذیر میکند، میگوید: «درباره هزینه اجرای یادگیری عمیق مشکلاتی وجود دارد. “[دانشگاه ماساچوست در آمهرست] دریافت که آموزش یک مدل یادگیری عمیق [626000 پوند دی اکسید کربن که باعث گرم شدن سیاره می شود] تولید می کند که برابر با انتشار پنج خودرو در طول زندگی آنها است.”
5. هزینه پولی یادگیری عمیق
یادگیری ماشینی هزینه مالی نیز دارد. به عنوان مثال، اجرای یک شبکه عصبی برای یک روز کامل کاملاً ممکن است، فقط برای اینکه متوجه شوید مشکل بیش از حد ی وجود دارد. هزینه های ذخیره سازی و محاسبه داده ها وجود دارد، و به طور بالقوه زمان تلف شده یک دانشمند داده در انتظار نتایج بودن است.
Guntur گفت: “هزینه یادگیری ماشینی روی تمرین کنندگان تاثیر می گذارد. ما دائماً به این فکر میکنیم که آیا به این خوشه نیاز داریم یا به این خوشه از ماشینها و پردازندههای گرافیکی. بنابراین، سوالی که به تیم مهندسی برمیگردد این است که آیا الگوریتم جایگزینی وجود دارد که بتوانیم از آن استفاده کنیم تا مجبور نباشیم برای پردازندهها و پردازندههای گرافیکی پیشپرداخت بپردازیم. پردازندههای گرافیکی مورد نظر ما؟ چرا نمیتوانید الگوریتمی بسازید که کارآمدتر باشد؟»
6. نمودارها
نمودارها همه در مورد روابط هستند. از گرهها – که یک موضوع را نشان میدهند، مانند شخص، شی یا مکان – و لبهها – که روابط بین گرهها را نشان میدهند – تشکیل شدهاند – نمودارها میتوانند روابط پیچیده را ثبت کنند.
شبکههای عصبی گراف (GNN) نوعی معماری شبکه عصبی هستند که میتوانند به درک نمودارها کمک کنند و افراد را قادر به پیشبینی گره ها یا لبهها کنند. به عنوان مثال، با استفاده از GNN، کسی میتواند پیشبینی کند که یک بازیگر در کدام ژانر فیلم بازی میکند، یا عوارض جانبی که ممکن است یک داروی جدید غیرقانونی باشدچیست.
گونتور گفت: «این نوع نمودارها روز به روز محبوبتر میشوند، زیرا غنی از اطلاعات هستند. او افزود، کار با نمودارها به دلیل اطلاعاتی که در آنها وجود دارد، چالش برانگیز است.
7. مجموعه ابزارهای یکپارچه ای که استفاده از آنها آسان تر است
تیم علم داده رهبری میکند و دانشمندان داده بهطور سنتی مجبور شدهاند ابزارهایی را برای ساخت، آزمایش، آموزش و استقرار در کنار هم را بسازند. با این حال، در سالهای اخیر، فروشندگان بزرگ فناوری تواناییهایی را به دست آوردهاند تا پیشنهادات خود را کامل کنند تا بتوانند فروشگاهی یکجا باشند.
این به دانشمندان داده امکان می دهد تا از یک پلتفرم واحد، به جای چندین پلتفرم و ابزار، برای کار استفاده کنند و مشکلات ناشی از انتقال داده ها و مدل ها بین ابزارها را حذف کنند. بسیاری از این پلتفرمها همچنین دارای برنامههای کمکد یا بدون کد هستند، به این معنی که استفاده از آنها برای دانشمندان داده سریعتر و آسانتر است.
رهوینکل گفت: «من میتوانم یک مدل پیشبینیکننده بسیار خوب بسازم بدون اینکه لزوماً در عمق هر نوع کدی کنم. “این واقعا به من کمک می کند تا توانایی خود را برای حل مسئله تسریع کنم.”
8. مدل هایی که مدل های دیگر را توضیح می دهند
در سال 2020، افزایش قابل توجهی در مقررات هوش مصنوعی و تلاش برای پیش نویس مقررات بیشتر آن رخ داد. نکته قابل توجه دستورالعملهای منتشر شده توسط کمیسیون تجارت فدرال ایالات متحده در مورد “حقیقت، انصاف و برابری” در هوش مصنوعی بود که هشداری را به شرکتهایی که از الگوریتمهای خافکارانه استفاده میکردند صادر کرد. کمیسیون اروپا همچنین پیشنهادی را برای تنظیم مقررات هوش مصنوعی منتشر کرد که شامل جریمه های سنگین برای عدم رعایت آن می شود.
با افزایش مقررات، فروشندگان بیشتری از هوش مصنوعی مدلهای خود را منتشر میکنند که میتواند به توضیح مدلهای دیگر کمک کند، واین امر شناخت دلایل زیربنایی مدلهایشان را برای پیشبینیهای خاص آسانتر میکند.
جاش پودوسکا، دانشمند ارشد داده در آزمایشگاه داده دومینو گفت: به زودی از مدل هایی برای توضیح مدل ها استفاده خواهیم کرد. تفسیرپذیری، توضیح و ممیزی مدلهای یادگیری عمیق ماشینی به دلیل افزایش فشار نظارتی و نیاز به توضیح چرایی و چگونگی پیشبینیها، نه فقط چیستی، حیاتی میشود.
کریس برگ، مدیر عامل و بنیانگذار DataOps، فروشنده پلتفرم DataOps، DataKitchen، گفت: از آنجایی که برخی از سیستمهای هوش مصنوعی تصمیمات را خودکار میکنند، این امر «برابر به عنوان کد» را ایجاد میکند.
Bergh گفت: “دانشمندان داده و ذینفعان کسب و کار ابتدا باید با یکدیگر همکاری کنند تا معیارهای خاص برنامه را ایجاد کنند که سوگیری را آزمایش کند. سپس این معیارها می توانند در طول فرآیند توسعه مدل اعمال شوند تا اطمینان حاصل شود که یک برنامه کاربردی مغرضانه هرگز به کار گرفته نمی شود.” Equity-as-code میتواند در صورت تقاضا برای شناسایی سوگیری و اطمینان از عدم استفاده از آن اجرا شود.
9. تعبیه های متنی کلمه
جاسازی کلمات ایستا کلمات را به عنوان موجودیت های ریاضی نشان می دهد (به عنوان مثال، بردارها در یک فضای برداری)، به استفاده از ریاضیات اجازه می دهد تا ارتباط معنایی کلمات را با شباهت های جاسازی آنها تجزیه و تحلیل کند. مثلاً «سیب» به «لیمو» نزدیکتر است تا خانه.
Silke Dodel، معمار یادگیری ماشین در ارائهدهنده راهحل ترجمه محاورهای Language I/O میگوید: «یکی از تأثیرگذارترین روندها حرکت از جاسازی کلمات stasis مانند word2vec و GloVe به جاسازیهای متنی کلمه مانند ELMo و BERT بوده است.
BERT و ELMo علاوه بر اینکه شخصیتهای Sesame Street هستند، مدلهای زبانی هستند که زمان آموزش را کاهش میدهند و عملکرد مدلهای پیشرفته را افزایش میدهند.
او می گوید: «جاسازی واژه های متنی مشکل وابستگی معنایی یک کلمه به بافت آن را حل می کند، مانند «بانک» در بافت «پارک» معنای متفاوتی با «بانک» در بافت «پول» دارد.
10. داده های کوچک
در عصر کلان داده امروزی، این تصور غلط وجود دارد که کلان داده برای درک هر چیزی ضروری است. با این حال، در داده های کوچک نیز ارزش وجود دارد.دادههای کوچک، دادههایی هستند که به اندازه کافی کوچک هستند تا مردم بتوانند آن را درک کنند، مانند کدهای پستی ایالات متحده.
گونتور گفت: هنگامی که با داده های کوچک سروکار دارید، باید به برخی از مفاهیم قدیمی در یادگیری ماشینی و دانشمندان داده بازگردید. برای حل برخی از این داده های کوچک و مشکلات داده های اختصاصی باید برخی از مقالات قدیمی را مطالعه کنید. . پردازش دادههای کوچک و ارائه الگوریتمهایی برای آنها بسیار متفاوت از روند فعلی است که در آن همه سعی میکنند از یک شبکه عصبی یا همه تغییرات یادگیری عمیق استفاده کنند.
ه – نتیجه گیری
در ابتدای مطلب با این موضوع شروع کردیم که چرا مدیریت داده برای شرکت ها بسیار مهم است؟ داده ها بخشی مهم از دارایی ها هستند که در مدلهای تجاری جدید بعنوان بستر و زیر ساخت حضور دارند . اما متاسفانه بسیاری از شرکت ها متوجه نیستند که داده های آنها چقدر مهم است. آنها میدانند که این دادهها را دارند و میدانند که مفید است، اما نمیدانند که اگر آنها را از دست بدهند، و یا مورد سواستفاده واقع شودچه تأثیری بر سازمان خواهد داشت.
در اینجا برای نتیجه گیری چند مورد را که در مدیریت داده و نرم افزار مهم هستند درج کرده ایم تا به کمک آنها گامهای توسعه راهکار ها و راهکارهای توسعه ای را با تکیه به آنها انجام شوند .
- مدیریت داده ها بهره وری را افزایش می دهد.
- سازماندهی داده های و داشتن مدیریت مناسب داده در شرکت امری الزامی برای شروع کارهاست .
- مدیریت داده ها خطرات امنیتی مرتبط با دارایی های نامحسوس را کاهش می دهد.
- مدیریت مستمر داده ها کیفیت داده ها و در نتیجه سازمان را بهبود می بخشد.
مدیریت زنجیره ارزش در هر سازمان بدون مدیریت داده و سایر دارایی های نامحسوس امکان پذیر نیست