۸۴
۳۱
پیکره‌های زبان فارسی

پیکره‌های زبان فارسی

پدیدآور: حیات عامری ناشر: دولت علمتاریخ چاپ: ۱۳۹۷مکان چاپ: تهرانتیراژ: ۵۰۰شابک: 4ـ4ـ98180ـ600ـ978 تعداد صفحات: ۱۹۸

خلاصه

پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند.

معرفی کتاب

برای دیدن بخشی از صفحات کتاب، لینک فایل پی دی اف (pdf) را ببینید.

 

پیکره یکی از پروژه‌های زیرساختی در زمینۀ تحلیل زبانی و همچنین پردازش زبان طبیعی محسوب می‌شود و به حجم عظیمی از داده‌های زبانی گفته می‌شود که براساس معیارهای مشخص برای هدف معینی جمع‌آوری و ذخیره شده باشند، به طوری که نمایندۀ زبان یا گویش مورد مطالعه‌اند. معیارهای انتخاب زبانی که در طراحی یک پیکره در نظر گرفته می‌شوت عبارت‌اند از نوع متن (گفتاری، نوشتای یا حتی الکترونیکی)، زبان یا گونۀ زبانی (گونۀ معیار، فوق معیار، زیرمعیار)، نوع رسانه (کتاب، نشریه، آگهی و ...) محل تولید متن و بازۀ زمانی تولید متن. پیکره‌ها براساس اهداف پردازش زبان طبیعی در سطوح مختلف زبانی (آواشناسی، تکواژی، نحوی، گفتمان و کاربردشناسی) انجام می‌پذیرند و هر یک حجم متفاوتی از متون را دربرمی‌گیرد.

پیکره‌های زبانی براساس هدف غایی خود انواع مختلفی دارند: پیکرۀ نوشتاری، پیکرۀ گفتاری، پیکرۀ تاریخی، پیکرۀ زبان کودک، پیکرۀ چند زبانه، پیکرۀ زبان‌آموز، پیکرۀ موازی و پیکرۀ نحوی (بانک درختی).

طراحی پیکره یکی از زیر ساخت‌های ضروری برای انجام تحقیقات زبانی و پردازش زبان طبیعی است. از کاربردهای پردازش زبان طبیعی می‌‌توان به ترجمۀ ماشینی، بازیابی اطلاعات، استخراج اطلاعات، خلاصه‌سازی خودکار، نویسه‌خوان نوری و بسیاری از کاربردهای دیگر اشاره کرد. برای هر یک از این اهداف به طراحی یک پیکرۀ زبانی خاص در یکی از سطوح زبانی نیاز داریم. سطوح تحلیل زبان عبارت‌اند از سطح آواشناسی، واژگانی، نحوی، معناشناسی، گفتمان و کاربردشناسی. پس از طراحی چنین پیکره‌ای از ابزراهایی برای تحلیل زبانی این پیکره‌ها استفاده می‌شود. این ابزارها نرم‌افزارهایی هستند که کار تحلیل زبانی را سریع‌تر و با دقت نسبتاً بالایی انجام می‌دهند.

امروزه زبان فارسی به عنوان زبان معیار در کشور ایران در تمام محافل ارتباطی یا چالش‌هایی روبه‌روست. یکی از این چالش‌ها استفاده از زبان فارسی در فضای مجازی و تأثیری است که فضای مجازی بر آن می‌گذارد. زبان به‌مثابۀ یکی از ویژگی‌های خاص بشر همواره ماهیتی پویا و متغیر داشته و دارد. با تغییر فرهنگ و سبک زندگی بشر در طول تاریخ همواره زبان وی نیز دستخوش تغییر و دگرگونی بوده است. زبان فارسی هم در طی زندگی طولانی خود دچار دگرگونی‌های اساسی شده است؛ اما آنچه در این مجال باعث نگرانی است، تغییرات زبانی است که در فضای مجازی از روند طبیعی و تدریجی خود خارج شده است. در فضای مجازی عواملی در گسترش و تسریع این تغییرات دخیل‌اند که جنبه‌های مختلفی از فرهنگ و منش کاربران اینترنت را پوشش می‌دهند. خط و زبان فارسی به دلیل ویژگی‌های خاصی که دارد در فضای مجازی با مسائلی روبه‌روست که عدم توجه به آنها ممکن است آسیب‌های جبران ناپذیری به این زبان وارد نماید. با بررسی مشکلات زبان فارسی در فضای مجازی ریشه‌یابی آنها و ارائۀ راهکارهایی می‌توان تا حد زیادی بر این مشکلات غلبه و از زبان فارسی در برار تغییرات ناگهانی، نادرست و سهل‌انگرانه محافظت کرد. یکی از راهکارهای اصلی برای به حداقل رساندن این آسیب‌ها تقویت و گسترش پیکره‌های زبان فارسی است.

امروزه روش‌های آماری و مبتنی بر یادگیری ماشینی در پردازش زبان طبیعی و ایجاد سامانه‌هایی چون سامانه‌های ترجمۀ ماشینی، پرسش‌ و پاسخ خودکار، تبدیل رایانه‌ای متن به گفتار و بالعکس، بازیابی اطلاعات و ... کاربرد فراوانی یافته‌اند. یکی از ملزومات استفاده از روش‌های آماری در پردازش زبان طبیعی، دسترسی به داده‌های زبانی شامل پیکره‌های متنی، پیکره‌های درختی، واژگان، بانگ‌های صوتی و ... است و عدم دسترسی مناسب به چنین داده‌هایی مشکلات فراواتی را پیش پای پژوهشگران قرار می‌دهد.

از سوی دیگر بسیاری از زبان‌شناسان در پژوهش‌های خود از پیکره‌های زبانی بهره می‌گیرند و به بررسی ویژگی‌ها و کشف قواعد زبان از طریق اطلاعات موجود در داده‌های زبانی می‌پردازند.

این نوشتار مروری بر پیکره‌های به وجود آمده برای زبان فارسی و مراحل ساخت، ویژگی‌ها، امکانات، کاربردهای آن است و نیز ناکارآمدی‌ها و نواقص هر کدام از این پیکره‌ها را مورد بررسی قرار می‌دهد.

فصل اول کتاب به تعریف پیکره و مسایل نظری مربوط به تهیه پیکره‌ها می‌پردازد و در فصل‌های بعدی انواع پیکره‌های ایجاد شده برای زبان فارسی را تا سال 1394 به تفکیک نوع معرفی می‌کند و ویژگی‌های هر یک را شرح می‌دهد.

فهرست مطالب کتاب:

پیشگفتار

فصل اول: کلیات

فصل دوم: پیکره‌های متنی فارسی

فصل سوم: پیکره‌های گفتاری

فصل چهارم: پیکره‌های نحوی

فصل پنجم: مجموعه دادگان

فصل ششم: پیکره‌های موازی

فصل هفتم: پیکره‌های سیستم‌های نویسه‌خوان نوری

منابع و مآخذ

نظر شما ۰ نظر

نظری یافت نشد.

پربازدید ها بیشتر ...

لقمان حکیم (در فرهنگ و ادب ایران)

لقمان حکیم (در فرهنگ و ادب ایران)

حسین نوربخش

این کتاب به زندگی و زمانه لقمان پرداخته و می‌کوشد تا افزون بر روایتی از زندگی لقمان، به گوشه‌های مبه

مجموعه مقالات سومین همایش ملی زبان‌شناسی پیکره‌ای

مجموعه مقالات سومین همایش ملی زبان‌شناسی پیکره‌ای

جمعی از نویسندگان به کوشش آزاده میرزائی

سومین همایش ملی زبان‌شناسی پیکره‌ای، در اردیبهشت 1398 در پژوهشگاه علوم انسانی و مطالعات فرهنگی به هم

منابع مشابه

مجموعه مقالات سومین همایش ملی زبان‌شناسی پیکره‌ای

مجموعه مقالات سومین همایش ملی زبان‌شناسی پیکره‌ای

جمعی از نویسندگان به کوشش آزاده میرزائی

سومین همایش ملی زبان‌شناسی پیکره‌ای، در اردیبهشت 1398 در پژوهشگاه علوم انسانی و مطالعات فرهنگی به هم