ضرورت استفاده از روشهای یادگیری ماشین برای مدرنسازی آمارهای رسمی
به گزارش رویداد ایران به نقل از ایسنا، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرنسازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق میشود که توسط نظام آماری ملی کشورها تولید میشود. نظام آماری ملی شامل سازمانها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام میدهند.
وی با بیان اینکه لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آنها مشخص است. از اینرو سازمانهای آماری برای پیادهسازی و مدرنسازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات بهطور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید دادهها در سازمانهای آماری بهینه و کارآمد باشد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا بهروز میشود، خاطرنشان کرد: در این مدل ۸ فرآیند و یکسری زیرفرآیندها وجود دارد.
دکتر رضایی با اشاره به ۸ فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی دادهها، طراحی، ساخت، جمعآوری، پردازش دادهها، تحلیل، انتشار و ارزیابی آمارها و دادهها، خاطرنشان کرد: بهعلت تحولاتی که طی ۲۰ سال اخیر در حوزه دادهها و انقلاب دادهها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روشها و تکنولوژیهای روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمعآوری شود.
ضرورت بازنگری نظامها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید
وی در تعریف مفهوم مدرنسازی آمارهای رسمی گفت: باید نظامها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینهسازی و کارآیی فرآیندها اتفاق افتد.
وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساختها، ظرفیتسازی و آموزش نیروی انسانی براساس تخصصهای جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعملهای جدید برای روشها و نیازهای جدید است.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه میتوان با روشهای یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین بهطور خودکار انجام داد، افزود: بخشهای باقیمانده که امکان بررسی آنها به طور خودکار وجود ندارد، میتواند به روشهای دیگر و بررسیهای دقیق کارشناسی انجام شود.
الزام حرکت به سمت استفاده از روشهای ترکیبی در گردآوری دادهها
دکتر رضایی با بیان اینکه هزینه گردآوری دادهها زیاد است و بیپاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روشهای ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه دادههای سازمانهای آماری با استفاده از روشهای اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسشهایی که اطلاعات آن در پایگاه دادههای دستگاههای دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاهها دریافت شود.
وی با بیان اینکه یکی از فعالیتهای مراکز آماری کدگذاری پرسشهای متن باز نظیر شغل، تحصیلات، نوع بیماری و ... است، افزود: این کدگذاریها میتواند با استفاده از روشهای یادگیری ماشین انجام شود.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر بهصورت دستی یا نرمافزار انجام میشد، اما هماکنون با روشهای یادگیری ماشین بهطور خودکار انجام میشود. پس باید تغییراتی در روشها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.
استفاده از روشهای یادگیری ماشین برای شناسایی دادههای پرت، پر کردن اطلاعات گم شده
دکتر رضایی با اشاره به اینکه بحث شناسایی دادههای پرت، پر کردن اطلاعات گم شده، اتصال پایگاه دادهها، محرمانهسازی اطلاعات و بسیاری از فعالیتهای مراکز آماری میتواند با استفاده از روشهای یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرنسازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعملها و چارچوبهایی است که به مدرنسازی آمارهای رسمی منجر شود.
وی با تأکید بر ضررورت به اشتراکگذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روشهای یادگیری ماشین در آمارهای رسمی دارد و در آن پروژههایی را به اشتراک میگذارد و با تشکیل تیمهای کاری، دستورالعمل و روشهای جدید را تهیه میکنند.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه موضوع مدرنسازی آمارهای رسمی در چهلوپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمانهای آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار میشود و موضوعات روز دنیا مطرح و دستورالعملهایی که گروههای کاری مختلف، آنها را تهیه کردهاند، در جلسات کمیسیون مطرح و در صورت تصویب ابلاغ میشود.
وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.
شروع بحث مدرنسازی آمارهای رسمی در سطح بینالملل
دکتر رضایی با بیان اینکه بحث مدرنسازی آمارهای رسمی در سالهای ۲۰۱۴ و ۲۰۱۵ در سازمان ملل مطرح شد، تصریح کرد: هماکنون به مدت ۶ تا ۷ سال است که مدرنسازی آمارهای رسمی در سطح بینالملل مطرح و به همه کشورهای جهان ابلاغ شده است.
وی با بیان اینکه یکی از بحثهای اصلی مرتبط با مدرنسازی آمارهای رسمی بحث مِهدادهها (Data Big) است، خاطرنشان کرد: مفهوم مِهدادهها در قرن ۲۱ مطرح شده است. در قرن ۲۱ زیرساختها و روشهای گردآوری و ذخیرهسازی این نوع دادهها با سرعت چشمگیری رشد کرد. گوگل که در سال ۱۹۹۸ ایجاد شد، برای ذخیرهسازی دادههای تولید شده در این فضاهای مجازی با این حجم از دادهها و سرعت و تنوع زیاد، با مشکل روبرو بود.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل دادههای ساختاریافته، نیمهساختاریافته و غیرساختاریافته است، به ایجاد پایگاه دادههای جدید NoSQL ، زیرساخت و پلتفرمهای جدیدی منجر شد.
دکتر رضایی با بیان اینکه تا پیش از قرن ۲۱ اکثر دادهها ساختاریافته بود، خاطرنشان کرد: پس از قرن ۲۱، دادهها به نیمهساختاریافته و غیرساختاریافته تغییر کرد.
کاربرد Data Big در دادههای حاصل از ابزارهای ردیابی مانند تلفن همراه
وی ادامه داد: یک تقسیمبندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از دادههای جدید مانند دادههای اداری، دادههای حسگرها یا دوربینهای ثبت تخلفات و ترددها، دادههای تصاویر ماهوارهای برای برآورد محصولات حوزه کشاورزی، دادههای حاصل از خرید و فروش اینترنتی، دادههای وب سایتها، دادههای حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت دادهها میتواند به مرور زمان و رفع خطاها، بهعنوان آمارهای رسمی با استفاده از تکنولوژیهای روز دنیا استفاده شود.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: بهعنوان مثال، پس از راستیآزمایی دادههای تلفن همراه، میتوان از دادههای تلفن همراه برای جابجایی و شناسایی بیماریها از جمله کووید ۱۹ و یا پیشبینی جمعیت مهاجر، برآورد جمعیت و ... استفاده کرد.
دکتر رضایی با بیان اینکه تولید دادههای جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روشهای علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه دادههای NoSQL به جای پایگاه دادههای رابطهای که امکان ذخیرهسازی و پردازش دادههای ساختاریافته را دارند، استفاده کرد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیتهای مراکز آماری از جمله کدگذاری پرسشهای باز را یکی از فعالیتهای مراکز آماری و سازمانها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماریها و ... میتواند با استفاده از روشهای یادگیری ماشین بهجای روشهای دستی و سنتی انجام شود.
وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بینالمللی ISIC یا ISCO یا هر کد دیگر به پرسشهای باز بهصورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچههای ردهبندیهای بینالمللی مانند ردهبندی رشته فعالیتهای اقتصادی و دستنوشتههای مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیتهای اقتصادی بهصورت نیمهخودکار فراهم میشود.
امکان انتساب آدرسهای آماری به آدرسهای پستی به روش خودکار
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه امکان انتساب آدرسهای آماری به آدرسهای پستی به روش خودکار با استفاده از روشهای یادگیری آماری وجود دارد و در سرشماریهای ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرسهای پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماریهای سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا بهصورت سریهای زمانی در پایینترین سطوح جغرافیایی نیز فراهم میشود.
دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرسهای پستی نیست. با استفاده از روشهای یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرسهای پستی، امکان انتساب کد آماری به آدرسهای پستی منطبق نشده فراهم میشود.