تبلیغات
زبان شناسی همگانی - «پیکره تاریخی زبان فارسی و برچسب‌دهی دستوری آن در پایگاه داده های زبان فارسی»
 
زبان شناسی همگانی
درباره وبلاگ


سایت زبان شناسی همگانی در جهت گسترش و معرفی رشته زبان شناسی همگانی آغاز به کار کرد
rezasalimi18@yahoo.com

مدیر وبلاگ : رضا سلیمی
مطالب اخیر
نویسندگان

سخنرانی «پیکره تاریخی زبان فارسی و برچسب‌دهی دستوری آن در پایگاه داده های زبان فارسی»، با حضور استادان و پژوهشگران و علاقه‌مندان صبح روز شنبه 29 فروردین 94 از ساعت 10 تا 12 در پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد.

مجری این طرح، دکتر مصطفی عاصی، عضو هیئت علمی پژوهشگاه علوم انسانی و مطالعات فرهنگی، اولین سخنران این نشست بود. طرح پیکره تاریخی، بخشی از طرح بزرگ پایگاه داده‌های زبان فارسی است که به گفتۀ سخنران، طرحی طولانی و مداوم است. این طرح دربرگیرنده مجموعه‌ای از اطلاعات درباره زبان فارسی است و کلیه پژوهشگرانی که در مورد زبان فارسی پژوهش می‌کنند می‌توانند از آن استفاده کنند. بخش بعدی سخنرانی دکتر عاصی، توضیح درباره زبان‌شناسی پیکره‌ای و پیشینۀ آن در ایران و جهان از جمله آثار الخلیل و سیبویه و در حوزه فرهنگ‌نگاری لغت فرس اسدی از اسدی طوسی بود. پیکره، در مفهوم عام در برگیرنده چند واژه،  جمله یا متن کوتاه یا طولانی پراکنده یا برگزیده در یک حوزه خاص زبانی است. ایشان همچنین به ورود رایانه به این حوزه و امکان ذخیرۀ حجم بزرگی از داده‌های نوشتاری و گفتاری، جستجو و دسته‌بندی و پردازش و به روز کردن و امکان بررسی تحولات زبانی اشاره کرد. بخش دیگر سخنان دکتر عاصی در مورد تغییر دیدگاه پیکره‌ای از قرن بیستم و تلاش برای به کارگیری داده‌های طبیعی و واقعی با حجم بیشتر بود. به عقیدۀ سخنران، زبان‌شناسی پیکره‌ای شاخه‌ای از زبان‌شناسی کاربردی و میان‌رشته‌ای است و کاربرد این حوزه در آموزش زبان، تحلیل گفتمان، سبک‌شناسی، ترجمه و زبان‌شناسی حقوقی و اجتماعی، فرهنگ‌نگاری و دستورنگاری، تغییرات زبان و معنی‌شناسی و به‌ویژه در حوزه‌های جدید پیکره‌بنیاد آن است. مهم‌ترین کاربرد پیکرۀ تاریخی، در بررسی روند تحول زبان  به عنوان پایشگر (monitoring corpora) است. پایان‌بخش سخنان دکتر عاصی، معرفی پایگاه داده‌های زبان فارسی و وجود سبک‌های رسمی و ادبی و روزنامه‌ای و کودک و ... در آن بود. این پایگاه، روزآیند نیز می‌شود و امکان جستجو و گزینش پیکره‌های مختلف ارائۀ فهرست بسامدی و فهرست واژه‌نما Concordance از متن در آن وجود دارد و از طریق نشانی Pldb.ihcs.ac.ir در دسترس است.

دیگر سخنران این نشست، سعیده قندی (‌این طرح موضوع پایان‌نامه کارشناسی ارشد وی است)، در آغاز در مورد پیکره‌های تاریخی و چالش‌های ساخت آن سخن گفت. در این طرح که با حمایت مالی صندوق حمایت از پژوهشگران و فناوران بنیاد ریاست جمهوری انجام شده است، بازۀ زمانی قرن پنجم تا هفتم در نظر گرفته شده است و پیکره، دربرگیرندۀ  50 متن کامل و 4میلیون واژه است. در این پیکره از هر ژانر حداقل یک متن وجود دارد و به علت یافت نشدن پیکره‌ای از زبان زنان، نمونه‌ای از زبان زنان در آن وجود ندارد. اشاره به پیکرۀ هلسینکی 1984 به عنوان بزرگترین پیکره که 10  قرن را پوشش می‌دهد و پیکرۀ فرهنگستان زبان برای فرهنگ جامع زبان فارسی که گزینشی است، از دیگر بخش‌های سخنرانی بود. ویژگی‌های این پیکرۀ تاریخی نوشتاری، داشتن متن نثر  و تک‌زبانی و درزمانی و مرجع بودن و پویا بودن آن است. در بخش پایانی پژوهشگر به نکته‌هایی در مورد شیوۀ تایپ و ویرایش متن‌ها، مشکل نیم‌فاصله و هم‌نویسه‌ها و وجود فاصله بین اجزای تصریفی افعال در متن‌های تاریخی اشاره کرد. این پیکره در پایگاه داده‌های زبان فارسی، برچسب‌دهی آوایی خودکار شده و برچسب‌دهی دستی دستوری 20 متن آن توسط پژوهشگر و همکار ایشان انجام شده است.

در هنگام برچسب‌دهی، به تناسب نمونه‌های تاریخی، برچسب‌های مقوله‌ای جدید فعل دعایی و شاخص اضافه شده است. به گفتۀ سعیده قندی، «ر‌ا‌» گاهی حرف اضافه، گاهی نشانۀ مفعول و گاهی نشانۀ گفتمانی است. البته در این پروژه برچسب گفتمانی وجود ندارد. کاربران این پیکره می توانند سازمان‌ها و مراکزی از جمله مرکز تحقیقات مخابرات، فرهنگستان زبان و ادب فارسی، آموزش و پرورش، سازمان‌های چاپ و نشر و مرکز اسناد و رسانه‌ها باشند که برخی از آنها امروزه از این پیکره استفاده می‌کنند. اشاره به جای خالی پیکره‌ها درپژوهش دانشجویان ادبیات زبان فارسی و برچسب‌دهی معنایی پیکره در فازهای بعدی از دیگر نکته‌های این سخنرانی بود.

امکانات پیکره به صورت جستجوی کلیدواژه و مفهوم و واژه‌های همایند و همسایه و گزارش آماری و واژگانی و بسامدی در دسترس است. این پیکره برخط و رایگان استدر پایان نیز سخنرانان با نمایش وبگاه پایگاه داده‌ها، برخی قابلیت‌ها و امکانات آن را توضیح دادند و گفته شد که 80 کشور تا به حال از این پیکره استفاده کرده‌اند. یکی از نکته‌های جالب این طرح آن است که همۀ اعضای آن خانم هستند.





نوع مطلب :
برچسب ها :
لینک های مرتبط :
 
لبخندناراحتچشمک
نیشخندبغلسوال
قلبخجالتزبان
ماچتعجبعصبانی
عینکشیطانگریه
خندهقهقههخداحافظ
سبزقهرهورا
دستگلتفکر


آمار وبلاگ
  • کل بازدید :
  • بازدید امروز :
  • بازدید دیروز :
  • بازدید این ماه :
  • بازدید ماه قبل :
  • تعداد نویسندگان :
  • تعداد کل پست ها :
  • آخرین بازدید :
  • آخرین بروز رسانی :