شریفی زارچی با استناد به خروجی API سایت janfadaa.ir، آمار ۳۰ میلیونی ثبتنام در پویش جانفدا را دروغین خوانده است. این توئیت حیرتآور نشان میدهد او که خود را متخصص هوش مصنوعی معرفی میکند، تفاوت بین ثبتنام و کامنت گذاشتن را نمیفهمد. زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنتها صرفاً یعنی ۴ میلیون نفر کامنت […]
شریفی زارچی با استناد به خروجی API سایت janfadaa.ir، آمار ۳۰ میلیونی ثبتنام در پویش جانفدا را دروغین خوانده است.
این توئیت حیرتآور نشان میدهد او که خود را متخصص هوش مصنوعی معرفی میکند، تفاوت بین ثبتنام و کامنت گذاشتن را نمیفهمد.
زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنتها صرفاً یعنی ۴ میلیون نفر کامنت گذاشتهاند، نه اینکه ثبتنام کردهباشند.
هرچند نیازی به پاسخ علمی نیست، اما به احترام مخاطب، پاسخ را به صورت علمی ارائه میدهیم.
بررسیهای فنی نشان میدهد که این استدلال دچار چندین خطای بنیادی در حوزه مهندسی نرمافزار و تحلیل داده است:
۱. خلط مبحث میان «جدول کامنتها» و «جدول کاربران»
۲. نادیده گرفتن ماهیت فنی APIهای عمومی و محدودیت نمایش (Pagination)
۳. استناد به آدرسی (Endpoint) که امروز از دسترس خارج شده و امکان بازتولید مستقل ادعا را سلب میکند.
دلیل اول – تفکیک موجودیتها (Entity Separation)
طراحان پایگاه داده (Database Design)، اطلاعات کاربران را در یک جدول و کامنتهای آنها را در جدولی دیگر ذخیره میکنند. هر کامنت دارای یک user_id است.
وجود ۴ میلیون شناسهٔ یکتا در جدول کامنتها، فقط ثابت میکند که ۴ میلیون نفر «کامنت گذاشتهاند».
لزوماً همه کسانی که در یک پویش ثبتنام میکنند، کامنت نمیگذارند. بنابراین آمار جدول کامنتها همیشه زیرمجموعهای از آمار کل کاربران است و نمیتواند سقف کل ثبتنامیها را تعیین کند.
دلیل دوم – خطای صفحهبندی (Pagination) و کش (Caching)
در سیستمهای با ترافیک بالا، فراخوانی دادهها از طریق دستوراتی مثل getComments هرگز کل دیتابیس را یکجا برنمیگرداند.
مکانیزم فنی: APIها معمولاً دادهها را در دستههای کوچک (مثلاً ۲۰ تایی) ارسال میکنند. شناسههایی که در یک فراخوانی ساده مشاهده میکنیم، مربوط به آخرین فعالیتها یا دستهای خاص هستند.
نتیجه: بدون پیمایش (Iteration) تمام صفحات API و استخراج کل دیتای یکتا، ادعای تعیین سقف عددی دیتابیس از نظر علمی فاقد اعتبار است.
دلیل سوم – عدم امکان راستیآزمایی (Reproducibility)
یکی از اصول فکتچکینگ، قابلیت بازتولید نتیجه است. امروز دستور ارائهشده (curl) خطای ۴۰۴ Not Found یا ۴۰۳ Forbidden برمیگرداند.
استناد به یک خروجی که دیگر وجود ندارد یا در لحظهای خاص ثبت شده، بدون داشتن مستندات کامل از معماری سمت سرور (Backend)، نمیتواند به عنوان یک سند قطعی برای رد یک آمار رسمی استفاده کند.
دلیل چهارم – شناسههای ترتیبی و شکافها (Gaps)
او ادعا کرده که فواصل شناسهها نشاندهنده تعداد واقعی است. در سیستمهای توزیعشده (Distributed Systems)، شناسهها لزوماً پشت سر هم نیستند. حذف کاربران، تلاشهای ناموفق برای ثبتنام، یا استفاده از روشهای تخصیص شناسه به صورت دستهای (High-Low sequence)، شکاف در اعداد ایجاد میکند. بنابراین تخمین دقیق از روی ظاهر اعداد غیرممکن است.
نتیجهگیری
استدلال شریفی زارچی بر پایه یک «خطای تعمیم» استوار است؛ یعنی تعمیم آمار یک بخش فرعی (کامنت) به کل سامانه (ثبتنام). از منظر مهندسی نرمافزار، تعداد موجودیتهای یک جدولِ مرتبط، نشاندهنده سقف موجودیتهای جدول اصلی نیست.