آنتروپی شانون

آنتروپی شانون : در تئوری اطلاعات برای سنجش “عدم قطعیت[۱]” موجود در یک فرایند تصادفی یا میزان دشواری “حدس زدن نتیجه” از تابعی ریاضی استفاده می کنیم که آنتروپی شانون نامیده می شود.

با این توصیف سوالی که پیش می آید این است که بین آنتروپی در ریاضی با آنتروپی تعریف شده در فیزیک و شیمی ارتباط هست یا نه؟ پاسخ مثبت است چرا که تئوری اطلاعات مبنائی برای تحلیل مفهوم آنتروپی در فیزیک و شیمی فراهم می اورد.

زمانی که با تعریف آنتروپی شانون بیشترآشنا شدیم قادر خواهیم بود این نکته را به وضوح برای خود اثبات کنیم. پس اجازه دهید به تعریف آنتروپی بپردازیم.

تعریف: برای متغیر تصادفی X که مقادیر X1, X2, …, Xn را با احتمالP1, P2, P3,…, Pn اختیار می کند وآنتروپی شانون عبارت است از:

(۲-۱۲)

واحد سنجش آنتروپی “بیت[۲]” است و نشان دهنده این است که آنتروپی بیشتر یک متغیر تصادفی، به معنای محتوای اطلاعاتی بیشتر آن متغیر نیز هست.

حال اجازه دهید آنتروپی چند فرایند تصادفی ساده را محاسبه کنیم تا از این طریق درکی شهودی از تابع آنتروپی، مفهوم آنتروپی شانون وکاربرد آن پیدا کنیم.

با ساده ترین مثال ممکن شروع می کنیم.

مثال ۱ : سکه ای را پرتاب می کنیم ونتیجه شیر یا خط خواهد بود و به عبارت ریاضی متغیر X مقادیر “شیر”و”خط”را هر کدام با احتمال (۵/۰) اختیار میکند.برای آنتروپی X داریم:

مبنای لگاریتم را ۲ می گیریم (مبنای لگاریتم قانون اختیاری است و ۲ انتخاب مناسبی به نظر می رسد خصوصاً به این دلیل که اغلب با منطق دو دویی کامپیوتر سروکار خواهیم داشت) مقدار H(x) به طور صریح معادل ۱ خواهد شد.

مثال ۲: مثال دیگری از چنین فرایندهای تاس ۶ وجهی است. در مورد ۶N= و هر یک از اعداد ۱ تا ۶ با احتمال ظاهر می­شود.

برای H(x) داریم

به همین ترتیب برای فرایندی تصادفی با N نتیجه ممکن که احتمال هریک مساوی است خواهیم داشت:

(۲-۱۳)

می­بینیم که H(x) به طور لگاریتمی با افزایش N افزایش می­یابد.

شکل (۲-۶) : ارتباط آنتروپی با N متغیر

این رفتار تابع H(x) نشانگر چه مطلبی است؟ پاسخ چندان دشوار نیست با “دشواری حدس زدن نتیجه”، “محتوای ناشناخته اطلاعاتی” یا “عدم قطعیت” یا “بی نظمی” فرآیند X با افزایش تعداد حالت های ممکن برای نتیجه (یعنی N ) به طور لگاریتمی افزایش می یابد. مثلاً در فرآیند تاس ریختن میزان ” اطلاعات جدیدی” که از ریختن تاس حاصل می شود، با ۶/۲H(x)= بیان می شود که ۶/۲ برابر بیشتر از محتوای اطلاعاتی آزمایش پرتاب سکه با آنتروپی ۱ H(x)= است.

بررسی خواص تابع آنتروپی را با مثال جالب توجه دیگر دنبال کنیم که می تواند در ارتباط دادن آنتروپی شانون با آنتروپی فیزیک آماری بسیار راه گشا باشد.

مثال ۳: اگر در فرایندی مانند ریختن تاس نوعی تقلب به کار رود و به طوری که احتمال ۶ آمدن ۵۰%، احتمال ۱ تا ۵ هرکدام ۱۰% باشد، آیا آنتروپی تغییر می­کند؟ به کدام جهت؟ (کمتر می شود یا بیشتر).

می بینیم که آنتروپی به نسبت مورد تاس سالم به اندازه ۵/۳۷ درصد کاهش داشته است. حال اجازه دهید فرض کنیم قدرت تناسب نردباز به قدری بالاست که با احتمال ۹۰%، ۶ ظاهر خواهد شد. احتمال ۵-۱ هرکدام تنها ۲% است. در چنین حالتی:

داریم:

مشاهده می کنیم که در این حالت، آنتروپی نسبت به تاس سالم با آنتروپی ۶/۲، کاهش ۷۲% نشان می دهد. این مطلب به وضوح بیان می کند که وقتی ” نظم” خاصی بر فرایند ما حاکم می شود، (در اینجا این نظم معادل تلاش عامدانه برای آمدن ۶ است) آنتروپی پایین می آید. بیشترین آنتروپی زمانی حاصل می شود که احتمال هر N حالت مساوی باشد یعنی فرایند کاملاً تصادفی صورت بگیرد. این مطلب قضیه ای از ترمودینامیک به خاطر می آورد که بیشترین آنتروپی ترمودینامیکی متعلق به حالتی است که همگن ترین توزیع احتمال را دارد.

در مقایسه H(x) برای پرتاب سکه و ریختن تاس با احتمالهای مساوی برای هر حالت دیدیم که هرچه تعداد حالتهای ممکن برای نتیجه یعنی N بالاتر باشد، آنتروپی نیز بالاتر است.

در بحث بعدی دیدیم برای یک N خاص، H(x) زمانی بیشتری مقدار را دارد که احتمال تمام حالتها مساوی باشند یا به عبارت دیگر فرایند کاملاً تصادفی و رندوم باشد]۵۱- ۴۸[.

به بیان تصویری:

نتیجه: بیشترین آنتروپی x مربوط به زمانی است که الف) تعداد مقادیر ممکن x بیشتر باشد و ب) احتمال توزیع همگن ترین حالت ممکن را داشته باشد یعنی تمام شانس یکسانی برای اتفاق افتادن داشته باشند.هرگاه شانس یک خاص بیشتر از بقیه باشد، آنتروپی کاهش می­یابد و نوعی “نظم” یا “پیش بینی پذیری” بر فرایند x حاکم می شود. برای تحقیق این مطلب حالت اغراق شده ای را در نظر می گیریم که متغیر x با احتمال ۱۰۰% (یعنی قطعیت کامل) مقدار را اختیار می کند و احتمال هر نتیجه دیگری صفر است. برای آنتروپی داریم:

۲-۸-۲ تعبیر مفهوم آنتروپی

دو تعبیر برای مفهوم آنتروپی ممکن است. آنتروپی به عنوان معیاری از تصادفی بودن و بی نظمی.

اکنون با مفهوم آنتروپی شانون برای یک متغیر تصادفی می پردازیم.

مثال: فرض کنید ۸/۰ مول گاز را در محفظه ای مکعبی شکل محصور کرده ایم که خود به ۸ قسمت مساوی تقسیم شده است. از قوانین گازها، یا ساده تر بگوییم از استدلال منطقی مبتنی بر عقل سلیم می دانیم که بسیار بعید است تمام ۸/۰ گاز در یک قسمت از مکعب متمرکز شوند. طبیعی ترین حالت آن است که ۱/۰ مول گاز در هریک از ۸ قسمت مکعب یافت شود.

باید گفت که این مطلب ارتباط نزدیک با آنتروپی شانون دارد چون اگر را احتمال یافت شدن یک مولکول خاصی در بخش iام مکعب فرض کنیم، آنتروپی متناظر با زمانی بیشینه می شود که احتمال تمام ها مساوی باشد یعنی مولکول با احتمال در هریک از هشت بخش مکعب می تواند یافت شود. بدیهی است که این حالت با آنچه در طبیعت اتفاق می افتد بیشترین تطابق را دارد.

ولی اگر فرض کنیم احتمال یافت شدن یک مولکول دلخواه در بخش iام (فرضاً بخش دوم) ۹۰% و در بخش های دیگر هرکدام ۳/۲ درصد است. آنتروپی H(x) به شدت پایین می آید. این متناظر با حالتی غیرطبیعی است در خلاف مشاهدات ما است .دقت کنید که هرچند ما متغیر را به طور کم و بیش دلخواهی تعریف کردیم، بیشینه شدن آنتروپی شانون برای طبیعی ترین حالت اتفاق می­افتد.

تا اینجا با مفهوم سنتی آنتروپی سروکار داشتیم. تعبیر دیگری از آنتروپی به عنوان “محتوای اطلاعاتی[۳]” نیز ممکن است که از جهاتی بسیار جالب توجه است. به عنوان مثال و برای به دست آوردن درکی صحیح از مفهوم محتوای اطلاعاتی و آنتروپی فرض کنید از یکی دوستان سئوالی می کنید و جوابی که می شنوید یکی از ۶ پاسخ ممکن باشد. (در عمل پاسخ­های ممکن نامتناهی هستند اما در اینجا پاسخ های ممکن را برای ساده سازی مسئله به ۶ مورد محدود می کنیم.)

این حالت ها را در نظر بگیرید:

A. سلام. از دیدارتان بسیار خوشحال شدم. متأسفم که دیر رسیدم. حال شما خوب است؟
B. یکی از این پاسخ ها را می­دهد:

۱- سلام. متشکرم ]یا چیزی با این مفهوم[

۲- آتش سوزی شده. فرار کنیم!

۳- ساعت چند است؟ فکر کنم ناهار تمام شد.

۴- ببخشید اسم شما را یادم رفته.

۵- ببخشید بوداپست پایتخت کجاست؟ مجارستان یا لهستان

۶- حالم خیلی بد است.

فرض معقولی است اگر بگوییم در یک مکالمه دوستانه احتمال مورد ۱، ۹۰% و احتمال موارد ۲-۶ هرکدام ۲% است. یعنی مسئله به لحاظ ریاضی مشابه مثال تاس ریختن با احتمال ۹۰% برای ۶ و ۲% برای دیگر ارقام است.

مثال ۲:

A می­پرسد: دیروز می­خواستم به شما سر بزنم اما شماره پلاک منزلتان را فراموش کرده بودم و ۶ شماره در کوچه شما بود و نتوانستم تصمیم بگیرم کدام زنگ را بزنم. ممکن است شماره پلاکتان را بگویید؟

B یکی ازاین پاسخ­ها را می­دهد:

۱) پلاک ۱۰۱ است.

۲) ۱۰۲ است.

۳) ۱۰۳ است.

۴) ۱۰۴ است.

۵) ۱۰۵ است.

۶) ۱۰۶ است.

در حالت کلی معقول است فرض کنیم احتمال هریک از این موارد مساوی و معادل است. به عبارت دیگر مسأله به لحاظ ریاضی مشابه تاس سالم شش وجهی است.

می دانیم که آنتروپی در مثال یک ۷۶/۰ و در مثال دو ۶/۲ است. این مطلب ناشی از این است که در مثال یک پاسخ مخاطب ما با احتمال ۹۰% قابل پیشگویی است و حاوی اطلاعات جدید زیادی نیست. در حالی در مثال دو به طور کلی هیچ تصوری از اینکه پاسخ مخاطب ما چه خواهد بود نداریم و جواب او حاوی اطلاعات جدید قابل توجهی است. بنابراین آنتروپی معیاری از دشواری حدس زدن جواب است] ۶۰-۵۹ [.

۲-۸-۳ قضیه بایز

در نظریه احتمالات، قضیه بایز[۴] که گاهی قانون بایز نیز خوانده می شود، احتمالات مجزا[۵] و شرطی[۶] دو متغیر تصادفی را به هم مربوط می کند.

قضیه بایز نقش محوری در ریاضیات احتمالات دارد و بیان ویژه ای از آمار را پایه ریزی می کند که آمار بایزی خوانده می شود و با نظریه اطلاعات پیوند تنگاتنگی دارد.

قضیه بایز احتمالات مجزا و شرطی دو واقعه A,B را که احتمال غیر صفر دارند به این شکل به هم مربوط می کند.

(۲-۱۴) P(A|B)= P(B|A) P(A) / P(B)

در این فرمول :

P(A) احتمال مجزا یا پیشینی[۷] خوانده می شود. لفظ پیشینی به این معناست که ما احتمال A را به عنوان یک رویداد مستقل بدون توجه به B می سنجیم.

P(A|B) احتمال A به شرطB .این مقدار را احتمال شرطی یا پسینی [۸]می گوییم. این احتمالA است پس از اینکه دانستیمB اتفاق افتاده است.

P(B|A)عکس مورد فوق است یعنی احتمال B به شرط A .

P(B) احتمال پیشینی B به عنوان یک رویداد مستقل است.

مثال ۱ :

فرض کنید یک کلاس درس از ۶۰% دانشجوی پسر و ۴۰ % دانشجوی دختر تشکیل شده باشد. در این کلاس دانشجویان دختر به نسبت ۵۰/۵۰ لباسهای قرمز و سبز می پوشند. دانشجویان پسر همه سبز می پوشند. شخصی از دور دانشجویی می بیند که لباس سبز پوشیده است. احتمال اینکه دانشجوی مورد نظر دختر باشد چقدر است؟

روشن است که احتمال دختر بودن دانشجوی دیده شده از ۴۰ % کمتر است. اما چقدر کمتر؟ آیا نصف ۴۰% است به این دلیل که نصف دختر ها سبز می پوشند؟ جواب دقیق را از قضیه بایز استنتاج می کنیم.

فرض کنید واقعهA دختر بودن یک دانشجو باشد و واقعهB سبز پوش بودن یک دانشجو باشد. ما می خواهیم احتمال A به شرط B را محاسبه کنیم. برای محاسبه P(A|B) می بایست این احتمالات را بدانیم:

P(A) احتمال دختر بودن دانشجوی مشاهده شده بدون وجود اطلاعات دیگر درباره رنگ لباس و غیره. چون شانس مشاهده شدن تمام دانشجوها مساوی است این احتمال مساوی ۴/۰ می شود.

P(A’) احتمال این است که دانشجوی مشاهده شده پسر باشد. در این مورد این احتمال ۶/۰ می شود.

P(B|A) احتمال سبز پوش بودن یک دانشجو به شرط دختر بودن است که بنابر فرض مساله ۵/۰ است.

P(B|A’) احتمال اینکه دانشجو سبز پوش باشد به شرط اینکه دانشجو پسر باشد. بنا به فرض تمام دانشجویان پسر سبز پوشند بنا براین این احتمال ۱ است.

P(B) احتمال اینکه یک دانشجو که به طور تصادفی انتخاب شده، بدون توجه به جنسیت، سبز پوش باشد. داریم :

P(B)=P(B|A) P(A)+P(B|A’) P(A’) =0.5 ×۰٫۴+۱×۰٫۶=۰٫۸

با توجه به این اطلاعات، احتمال اینکه دانشجوی مشاهده شده دختر باشد به شرط سبز پوش بودن آن مساوی است با :

P(A|B)= P(B|A) P(A)/P(B) = 0.5 × ۰٫۴/۰٫۸=۰٫۲۵

مطابق انتظار ما، این احتمال کمتر از ۴۰% است اما از نصف ۴۰% یعنی ۲۰% بیشتر می شود.

مثال ۲:

از قضیه بایز می توان در تعبیر نتایج تست سوء مصرف مواد نیز استفاده کرد. فرض کنیم یک تست خاص قادر باشد در ۹۹% موارد سوء مصرف مواد را بر ملا کند و در ۹۹% موارد شخص سالم را از اتهام سوء مصرف مبرا سازد. در نظر اول این تست بسیار دقیق به نظر می رسد اما قضیه بایز نشان می دهد که به سادگی نمی توان از نتایج این تست در باره اعتیاد افراد نتیجه گیری کرد. فرض کنیم موسسه ای تصمیم می گیرد با این تست کارکنان معتاد را شناسایی نماید. ضمنا از قبل می دانیم که ۵/۰ % کارکنان اعتیاد دارند. ما می خواهیم احتمال این مطلب را به دست آوریم که شخصی که تستش مثبت است واقعا معتاد باشد. فرض کنیم واقعه D سوء مصرف مواد و واقعهN عدم سوء مصرف باشد. فرض کنید “+” به معنی نتیجه مثبت در تست باشد. برای محاسبه اینکه پاسخ مثبت تست با چه احتمالی به معنای اعتیاد واقعی است. می بایست این احتمالات را بدانیم:

P(D) یا احتمال اینکه یک کارمند معتاد باشد با توجه به اینکه ۵/۰% کارمندان معتاد هستند، P(D) معادل ۰۰۵/۰ است.

P(N) یا احتمال اینکه یک کارمند که به طور تصادفی انتخاب شده معتاد نیاشد به وضوح P(N)=1-P(D)= 0.995

P(+|D) یا احتمال اینکه تست در باره یک معتاد واقعی نتیجه مثبت بدهد. طبق فرض ما این احتمال ۹۹% است.

P(+|N) احتمال اینکه تست اشتباها یک برای یک شخص سالم منجر به جواب مثبت شود. این احتمال ۱% است یعنی تست تنها یرای ۱% از اشخاص سالم نتیجه مثبت اشتباه می دهد.

P(+)احتمال مثبت بودن تست بدون توجه به اطلاعات دیگر. این احتمال ۰۱۴۹/۰ یا ۴۹/۱% است. این مقدار را می توان با جمع کردن احتمال پاسخ مثبت برای شخص معتاد ۹۹% × ۰٫۵ % = ۰٫۴۹۵ %) (و احتمال پاسخ مثبت نادرست برای شخص سالم

(۱%×۹۹٫۵%=۰٫۹۹۵%) به دست آورد که ۰٫۴۹۵%+۰٫۹۹۵%=۱٫۴۹%

می شود. این احتمال مجزا یا پیشینی واقعه + است.

[۱]. Uncertainty

[۲]. Bit

۱٫ Information content
Byes
Marginal Probabilities
Conditional Probabilities

[۷]. Prior

[۸]. Posterior

0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *