سبد خرید شما

اطلاعات داده

حجم: ۲۳.۴۵ MB
فرمت: data
وضعیت دریافت: درون سازمانی

پیکره تشخیص خودکار جنسیت

معرفی: 

پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بی‌جن‌خان و داستان‌های دیگر برگرفته از اینترنت به دست آمد. برای حذف تأثیر عامل جنسیت مترجم بر روی متن اصلی اثر، تمامی داستان‌ها و رمان‌های غیرفارسی از مجموعه حذف شد. در نهایت در هر دو دسته زن و مرد تعداد مساوی ۲۵۴ داستان در مجموعه قرار داده شد. ۲ - بخش متون غیررسمی. برای تهیه این بخش، از رویکرد وب برای پیکره استفاده شد. مهم‌ترین چالش، شناسایی سایتی فارسی بود که اولاً محتوای متنی آن توسط خود کاربر نوشته شده باشد و ثانیاً نام نویسنده هر متن نیز مشخص شده باشد. برای این منظور از نظرات کاربران در سایت «هلو کیش» استفاده شد. برای استخراج نظرات مرتبط با نظردهندگان زن و مرد، ابتدا لیستی از اسامی فارسی زن و مرد تفکیک‌شده تهیه گشت. سپس نام نویسنده نظر با این لیست اسامی تطبیق داده شد و نظرات برحسب این لیست تفکیک‌شده، در دو دسته زن و مرد قرار گرفت.

*اطلاعات ارجاع: 

مرادی، مهدی، و بحرانی، محمد. (۱۳۹۴). تشخیص خودکار جنسیت نویسنده در متون فارسی. پردازش علائم و داده‌ها، ۱۲ (۴)، ۸۳-۹۴.

اطلاعات انتشار:

ناشر
شخصی
شرایط استفاده

جهت دریافت رمز داده با پست الکترونیکی نگارنده (mehdi.moradi.cl@gmail.com) مکاتبه فرمایید.

مجوز
نامشخص
تاریخ ثبت در پیکره‌گان
۱۳۹۵-۰۳-۱۹
تاریخ آخرین تغییر
۱۳۹۷-۰۳-۲۲
شناسه
D3950319
آمار بازدید
۳۷۹۸