
پیکرههای زبان فارسی
خلاصه
پیکره یکی از پروژههای زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب میشود و به حجم عظیمی از دادههای زبانی گفته میشود که براساس معیارهای مشخص برای هدف معینی جمعآوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعهاند.معرفی کتاب
برای دیدن بخشی از صفحات کتاب، لینک فایل پی دی اف (pdf) را ببینید.
پیکره یکی از پروژههای زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب میشود و به حجم عظیمی از دادههای زبانی گفته میشود که براساس معیارهای مشخص برای هدف معینی جمعآوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعهاند. معیارهای انتخاب زبانی که در طراحی یک پیکره در نظر گرفته میشوت عبارتاند از نوع متن (گفتاری، نوشتای یا حتی الکترونیکی)، زبان یا گونۀ زبانی (گونۀ معیار، فوق معیار، زیرمعیار)، نوع رسانه (کتاب، نشریه، آگهی و ...) محل تولید متن و بازۀ زمانی تولید متن. پیکرهها براساس اهداف پردازش زبان طبیعی در سطوح مختلف زبانی (آواشناسی، تکواژی، نحوی، گفتمان و کاربردشناسی) انجام میپذیرند و هر یک حجم متفاوتی از متون را دربرمیگیرد.
پیکرههای زبانی براساس هدف غایی خود انواع مختلفی دارند: پیکرۀ نوشتاری، پیکرۀ گفتاری، پیکرۀ تاریخی، پیکرۀ زبان کودک، پیکرۀ چند زبانه، پیکرۀ زبانآموز، پیکرۀ موازی و پیکرۀ نحوی (بانک درختی).
طراحی پیکره یکی از زیر ساختهای ضروری برای انجام تحقیقات زبانی و پردازش زبان طبیعی است. از کاربردهای پردازش زبان طبیعی میتوان به ترجمۀ ماشینی، بازیابی اطلاعات، استخراج اطلاعات، خلاصهسازی خودکار، نویسهخوان نوری و بسیاری از کاربردهای دیگر اشاره کرد. برای هر یک از این اهداف به طراحی یک پیکرۀ زبانی خاص در یکی از سطوح زبانی نیاز داریم. سطوح تحلیل زبان عبارتاند از سطح آواشناسی، واژگانی، نحوی، معناشناسی، گفتمان و کاربردشناسی. پس از طراحی چنین پیکرهای از ابزراهایی برای تحلیل زبانی این پیکرهها استفاده میشود. این ابزارها نرمافزارهایی هستند که کار تحلیل زبانی را سریعتر و با دقت نسبتاً بالایی انجام میدهند.
امروزه زبان فارسی به عنوان زبان معیار در کشور ایران در تمام محافل ارتباطی یا چالشهایی روبهروست. یکی از این چالشها استفاده از زبان فارسی در فضای مجازی و تأثیری است که فضای مجازی بر آن میگذارد. زبان بهمثابۀ یکی از ویژگیهای خاص بشر همواره ماهیتی پویا و متغیر داشته و دارد. با تغییر فرهنگ و سبک زندگی بشر در طول تاریخ همواره زبان وی نیز دستخوش تغییر و دگرگونی بوده است. زبان فارسی هم در طی زندگی طولانی خود دچار دگرگونیهای اساسی شده است؛ اما آنچه در این مجال باعث نگرانی است، تغییرات زبانی است که در فضای مجازی از روند طبیعی و تدریجی خود خارج شده است. در فضای مجازی عواملی در گسترش و تسریع این تغییرات دخیلاند که جنبههای مختلفی از فرهنگ و منش کاربران اینترنت را پوشش میدهند. خط و زبان فارسی به دلیل ویژگیهای خاصی که دارد در فضای مجازی با مسائلی روبهروست که عدم توجه به آنها ممکن است آسیبهای جبران ناپذیری به این زبان وارد نماید. با بررسی مشکلات زبان فارسی در فضای مجازی ریشهیابی آنها و ارائۀ راهکارهایی میتوان تا حد زیادی بر این مشکلات غلبه و از زبان فارسی در برار تغییرات ناگهانی، نادرست و سهلانگرانه محافظت کرد. یکی از راهکارهای اصلی برای به حداقل رساندن این آسیبها تقویت و گسترش پیکرههای زبان فارسی است.
امروزه روشهای آماری و مبتنی بر یادگیری ماشینی در پردازش زبان طبیعی و ایجاد سامانههایی چون سامانههای ترجمۀ ماشینی، پرسش و پاسخ خودکار، تبدیل رایانهای متن به گفتار و بالعکس، بازیابی اطلاعات و ... کاربرد فراوانی یافتهاند. یکی از ملزومات استفاده از روشهای آماری در پردازش زبان طبیعی، دسترسی به دادههای زبانی شامل پیکرههای متنی، پیکرههای درختی، واژگان، بانگهای صوتی و ... است و عدم دسترسی مناسب به چنین دادههایی مشکلات فراواتی را پیش پای پژوهشگران قرار میدهد.
از سوی دیگر بسیاری از زبانشناسان در پژوهشهای خود از پیکرههای زبانی بهره میگیرند و به بررسی ویژگیها و کشف قواعد زبان از طریق اطلاعات موجود در دادههای زبانی میپردازند.
این نوشتار مروری بر پیکرههای به وجود آمده برای زبان فارسی و مراحل ساخت، ویژگیها، امکانات، کاربردهای آن است و نیز ناکارآمدیها و نواقص هر کدام از این پیکرهها را مورد بررسی قرار میدهد.
فصل اول کتاب به تعریف پیکره و مسایل نظری مربوط به تهیه پیکرهها میپردازد و در فصلهای بعدی انواع پیکرههای ایجاد شده برای زبان فارسی را تا سال 1394 به تفکیک نوع معرفی میکند و ویژگیهای هر یک را شرح میدهد.
فهرست مطالب کتاب:
پیشگفتار
فصل اول: کلیات
فصل دوم: پیکرههای متنی فارسی
فصل سوم: پیکرههای گفتاری
فصل چهارم: پیکرههای نحوی
فصل پنجم: مجموعه دادگان
فصل ششم: پیکرههای موازی
فصل هفتم: پیکرههای سیستمهای نویسهخوان نوری
منابع و مآخذ
پربازدید ها بیشتر ...

ماهنامۀ سیاسی، فرهنگی، اجتماعی و اقتصادی تالش، سال چهاردهم، دی 1396، شماره 110
جمعی از نویسندگان به سردبیری شهرام آزمودهصدودهمین شماره از ماهنامۀ تالش ویژۀ دی 1396 منتشر شده است.

ماهنامۀ فرهنگی و اجتماعی اوحدی، سال اول، شمارۀ اول، مهرماه 1395
جمعی از نویسندگان به مدیرمسئولی طغرل طهماسبیاولین شماره از ماهنامۀ فرهنگی و اجتماعی «اوحدی» ویژۀ مهرماه سال 1395 به مدیرمسئولی طغرل طهماسبی و سر
نظری یافت نشد.