پاسخ علمی به دروغ شریفی زارچی - پایگاه خبری خبرواقعی

کد خبر: 7733 |

تاریخ انتشار : 08 اردیبهشت 1405 - 9:35 |

می پسندم

پاسخ علمی به دروغ شریفی زارچی

شریفی زارچی با استناد به خروجی API سایت janfadaa.ir، آمار ۳۰ میلیونی ثبت‌نام در پویش جان‌فدا را دروغین خوانده است. این توئیت حیرت‌آور نشان می‌دهد او که خود را متخصص هوش مصنوعی معرفی می‌کند، تفاوت بین ثبت‌نام و کامنت گذاشتن را نمی‌فهمد. زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنت‌ها صرفاً یعنی ۴ میلیون نفر کامنت […]

شریفی زارچی با استناد به خروجی API سایت janfadaa.ir، آمار ۳۰ میلیونی ثبت‌نام در پویش جان‌فدا را دروغین خوانده است.
این توئیت حیرت‌آور نشان می‌دهد او که خود را متخصص هوش مصنوعی معرفی می‌کند، تفاوت بین ثبت‌نام و کامنت گذاشتن را نمی‌فهمد.

زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنت‌ها صرفاً یعنی ۴ میلیون نفر کامنت گذاشته‌اند، نه اینکه ثبت‌نام کرده‌باشند.

هرچند نیازی به پاسخ علمی نیست، اما به احترام مخاطب، پاسخ را به صورت علمی ارائه می‌دهیم.
بررسی‌های فنی نشان می‌دهد که این استدلال دچار چندین خطای بنیادی در حوزه مهندسی نرم‌افزار و تحلیل داده است:
۱. خلط مبحث میان «جدول کامنت‌ها» و «جدول کاربران»
۲. نادیده گرفتن ماهیت فنی APIهای عمومی و محدودیت نمایش (Pagination)
۳. استناد به آدرسی (Endpoint) که امروز از دسترس خارج شده و امکان بازتولید مستقل ادعا را سلب می‌کند.

دلیل اول – تفکیک موجودیت‌ها (Entity Separation)

طراحان پایگاه داده (Database Design)، اطلاعات کاربران را در یک جدول و کامنت‌های آن‌ها را در جدولی دیگر ذخیره می‌کنند. هر کامنت دارای یک user_id است.
وجود ۴ میلیون شناسهٔ یکتا در جدول کامنت‌ها، فقط ثابت می‌کند که ۴ میلیون نفر «کامنت گذاشته‌اند».
لزوماً همه کسانی که در یک پویش ثبت‌نام می‌کنند، کامنت نمی‌گذارند. بنابراین آمار جدول کامنت‌ها همیشه زیرمجموعه‌ای از آمار کل کاربران است و نمی‌تواند سقف کل ثبت‌نامی‌ها را تعیین کند.

دلیل دوم – خطای صفحه‌بندی (Pagination) و کش (Caching)

در سیستم‌های با ترافیک بالا، فراخوانی داده‌ها از طریق دستوراتی مثل getComments هرگز کل دیتابیس را یک‌جا برنمی‌گرداند.
مکانیزم فنی: APIها معمولاً داده‌ها را در دسته‌های کوچک (مثلاً ۲۰ تایی) ارسال می‌کنند. شناسه‌هایی که در یک فراخوانی ساده مشاهده می‌کنیم، مربوط به آخرین فعالیت‌ها یا دسته‌ای خاص هستند.
نتیجه: بدون پیمایش (Iteration) تمام صفحات API و استخراج کل دیتای یکتا، ادعای تعیین سقف عددی دیتابیس از نظر علمی فاقد اعتبار است.

دلیل سوم – عدم امکان راستی‌آزمایی (Reproducibility)

یکی از اصول فکت‌چکینگ، قابلیت بازتولید نتیجه است. امروز دستور ارائه‌شده (curl) خطای ۴۰۴ Not Found یا ۴۰۳ Forbidden برمی‌گرداند.
استناد به یک خروجی که دیگر وجود ندارد یا در لحظه‌ای خاص ثبت شده، بدون داشتن مستندات کامل از معماری سمت سرور (Backend)، نمی‌تواند به عنوان یک سند قطعی برای رد یک آمار رسمی استفاده کند.

دلیل چهارم – شناسه‌های ترتیبی و شکاف‌ها (Gaps)

او ادعا کرده که فواصل شناسه‌ها نشان‌دهنده تعداد واقعی است. در سیستم‌های توزیع‌شده (Distributed Systems)، شناسه‌ها لزوماً پشت سر هم نیستند. حذف کاربران، تلاش‌های ناموفق برای ثبت‌نام، یا استفاده از روش‌های تخصیص شناسه به صورت دسته‌ای (High-Low sequence)، شکاف در اعداد ایجاد می‌کند. بنابراین تخمین دقیق از روی ظاهر اعداد غیرممکن است.

نتیجه‌گیری

استدلال شریفی زارچی بر پایه یک «خطای تعمیم» استوار است؛ یعنی تعمیم آمار یک بخش فرعی (کامنت) به کل سامانه (ثبت‌نام). از منظر مهندسی نرم‌افزار، تعداد موجودیت‌های یک جدولِ مرتبط، نشان‌دهنده سقف موجودیت‌های جدول اصلی نیست.

برچسب ها:

به اشتراک بگذارید:

sn_facebook sn_googleplus sn_telegram sn_facenama sn_cloob sn_whatsapp sn_twitter

لینک کوتاه خبر:

https://khabarevaghei.ir/?p=7733