021-22889554
021-26703715
مشاوره آموزشی رایگان

021-22889554  |  021-26703715 مشاوره آموزشی رایگان

پیامدهای شگفت انگیز و هولناک رایانه هایی که می توانند یاد بگیرند

Jeremy Howard

The wonderful and terrifying implications of computers that can learn

What happens when we teach a computer how to learn? Technologist Jeremy Howard shares some surprising new developments in the fast-moving field of deep learning, a technique that can give computers the ability to learn Chinese, or to recognize objects in photos, or to help think through a medical diagnosis. (One deep learning tool, after watching hours of YouTube, taught itself the concept of "cats.") Get caught up on a field that will change the way the computers around you behave ... sooner than you probably think.


تگ های مرتبط :

AI, Algorithm, Computers
در گذشته اگه می خواستین یه رایانه کار جدیدی انجام بده، باید برنامه اش رو بهش می دادین. خوب، برای اونایی که تا حالا برنامه ننوشتن، این کار نیاز به تعریف جزئیات طاقت فرسای تک تک مراحلی داره که می‌خواین رایانه انجام بده تا به هدف مورد نظر شما برسه. حالا، اگه بخواین کاری انجام بدین که خودتون نمی دونین چطور انجام میشه، با چالش بزرگی روبرو میشین. خوب، این چالشی بود که رو در روی این مرد، آرتور ساموئل، قرار داشت. او در سال ۱۹۵۶، می خواست این رایانه بتونه اونو تو بازی چکرز (دام، جنگ نادر) شکست بده. چطور می‌تونین برنامه‌ای بنویسین، که با تمام جزئیات طاقت فرسا، به رایانه بگه چجوری می تونه تو بازی چکرز از شما بهتر باشه؟
خوب، ایده ای به ذهنش رسید: اجازه داد رایانه هزاران بار با خودش بازی کنه، و یاد بگیره چطور چکرز بازی کنه. و در واقع موفق شد، و در عمل، تا سال ۱۹۶۲، این رایانه تونسته بود قهرمان ایالت کانکتیکات رو شکست بده. پس آرتور ساموئل پدر یادگیری ماشینی بود، و من دین بزرگی بهش دارم، چون کارم یادگیری ماشینیه. من رئیس کاگل بودم، با بیش از دویست هزار نفر که کارشون یادگیری ماشینیه. کاگل مسابقاتی برگزار می کنه و از شرکت کننده ها می خواد مسئله هایی رو که قبلاً حل نشده ن حل کنن، و این رقابت صدها بار موفق بوده.
پس به دلیل همین امتیاز، تونستم چیزای زیادی درباره کارهایی بفهمم که یادگیری ماشینی در گذشته می تونست بکنه، امروز می تونه بکنه، و در آینده می تونه بکنه. احتمالاً اولین موفقیت بزرگ تجاری یادگیری ماشینی گوگل بود، گوگل نشون داد یافتن اطلاعات از راه الگوریتم رایانه امکان پذیره، و اساس این الگوریتم، یادگیری ماشینیه. از اون هنگام، یادگیری ماشینی به موفقیتهای تجاری بسیاری دست یافته. شرکت هایی مانند آمازون و نتفلیکس برای پیشنهاد محصولاتی که احتمالاً دوست دارین بخرین از یادگیری ماشینی استفاده می کنن، یا فیلمهایی که احتمالاً دوست دارین ببینین. گاهی این کار به طور نامحسوس انجام می شه.
شرکتهایی مانند لینکدین و فیسبوک گاهی به شما درباره دوستهاتون می گن و شما نمی دونین این کارو چجوری انجام میدن، و دلیلش اینه که از قدرت یادگیری ماشینی استفاده می کنن. اینها الگوریتم هایی هستن که یاد گرفتن این کار رو با داده ها انجام بدن به جای اینکه با دست برنامه ربزی بشن. آی بی ام هم به همین ترتیب موفق شد کاری بکنه که واتسون در مسابقه تلویزیونی "محک" دو نفر از قهرمانان جهان رو شکست بده، با پاسخ به پرسشهای بسیار ریز و پیچیده مانند این یکی. [شیء باستانی "شیر نیمرود" در سال ۲۰۰۳ (به همراه اشیای دیگر) از موزه ملی این شهر به سرقت رفت] همچنین به همین دلیله که حالا می تونیم اولین خودروهای بدون راننده رو ببینیم.
اگه بخواین تفاوت یه درخت و یه عابر پیاده رو تشخیص بدین، خوب، این خیلی مهمه. نمی دونیم چطور این برنامه ها رو با دست بنویسیم، اما حالا با یادگیری ماشینی، این کار امکان پذیره. و در واقع، این ماشین بیش از یک و نیم میلیون کیلومتر بدون هیچ تصادفی در جاده های عادی راه رفته. پس حالا می دونیم که رایانه ها می تونن یاد بگیرن، و رایانه ها می تونن کارهایی رو یاد بگیرن که در واقع خود ما گاهی نمی تونیم انجام بدیم، یا شاید اونا بهتر از ما انجام می دن. یکی از عجیب ترین نمونه های یادگیری ماشینی که دیده ام در پروژه ای بود که در کاگل داشتم
و در اون گروهی به سرپرستی جفری هینتون از دانشگاه تورونتو برنده مسابقه ی کشف خودکار دارو شد. خوب، نکته فوق العاده فقط این نبود که اونها همه الگوریتم های طراحی شده توسط مِرک یا دانشگاههای بین المللی رو شکست دادن، بلکه این بود که هیچ یک از اعضای گروه، هیچ زمینه ای از شیمی یا زیست شناسی یا علوم زیستی نداشتن، و این کار رو در دو هفته انجام دادن. چطور این کار رو کردن؟ اونها از الگوریتم فوق العاده ای به نام یادگیری عمیق استفاده کردن. این خبر چنان مهم بود که موفقیت اونها چند هفته بعد روی جلد نیویورک تایمز منعکس شد. این جفری هینتونه اینجا سمت چپ.
یادگیری عمیق الگوریتمی بر اساس نحوه کار مغز انسانه، و در نتیجه الگوریتمیه که از نظر تئوری هیچ محدودیتی در توانایی انجام کار نداره. هر چه داده بیشتری به اون بدین، و با گذشت زمان بهتر می شه. همچنین نیویورک تایمز در این مطلب به یه نتیجه خارق العاده دیگه از یادگیری عمیق اشاره کرد که حالا به شما نشون میدم. اینجا می بینین که رایانه ها می تونن گوش بدن و بفهمن. (ویدئو) ریچارد رشید: حالا، آخرین مرحله ای که میخوام انجام بدم در واقع اینه که به زبان چینی با تو صحبت کنم. نکته ی مهم اینه که
تونستیم حجم بالایی از اطلاعات رو از تعداد زیادی چینی زبان جمع کنیم و یه سیستم نوشتار-به-گفتار ایجاد کنیم که نوشته های چینی رو به زبان چینی تبدیل می کنه، و بعد حدود یه ساعت از صدای خودمو ضبط کردیم و از اون برای تنظیم سیستم استاندارد نوشتار-به-گفتار استفاده کردیم تا شبیه من بشه. باز هم نتیجه ایده آل نیست. در واقع اشتباههایی وجود داره. (به زبان چینی) (تشویق) در این زمینه کار زیادی باید انجام بشه. (به زبان چینی) (تشویق) جرمی هووارد: خوب، اینجا یه کنفرانس درباره یادگیری ماشین تو چینه.
در واقع در اغلب کنفرانسهای دانشگاهی، حضار اینطوری خودبخود تشویق نمی کنن، البته گاهی در کنفرانسهای تدکس پیش میاد، راحت باشین. همه چیزهایی که اونجا دیدین حاصل یادگیری عمیق بود. (تشویق) متشکرم. رونویسی به انگلیسی یادگیری عمیق بود. رونویسی به چینی و نوشته ی بالا سمت راست، یادگیری عمیق، و شکل گیری صدا نیز یادگیری عمیق بود. یادگیری عمیق چنین پدیده ی خارق العاده ایه. یه الگوریتم واحد که به نظر میرسه بتونه تقریباً هر کاری بکنه، و فهمیدم که یه سال قبل، دیدن رو هم یاد گرفته. در این مسابقه عجیب از آلمان به نام مسابقه تشخیص تابلوهای ترافیکی آلمان،
یادگیری عمیق تابلوهایی مثل این رو یاد گرفته بود. نه تنها میتونست تابلوها رو بهتر از هر الگوریتم دیگه ای بشناسه، بلکه جدول نشون میداد از انسان هم بهتره، تقریباً دو برابر بهتر از انسان. پس تا سال ۲۰۱۱، اولین نمونه ی رایانه هایی رو داشتیم که بهتر از انسان می بینن. از اون موقع، اتفاقات زیادی افتاده. گوگل در سال ۲۰۱۲ اعلام کرد که دارای الگوریتم یادگیری عمیقی که ویدئوهای یوتیوب رو می بینه هستند و داده های اونو در عرض یه ماه تو ۱۶ هزار رایانه پردازش میکنه، و رایانه بطور مستقل موضوعاتی مثل آدمها و گربه ها رو یاد گرفته فقط با تماشای ویدئو.
تا حدود زیادی شبیه یادگیری آدمه. برای یاد گرفتن آدمها لازم نیست به اونا بگین چیزی که می بینن چیه، بلکه خودشون یاد میگیرن این چیزها چیه. همین طور در سال ۲۰۱۲، جفری هینتون که قبلاً دیدیمش، مسسابقه ی بسیار معروف ایمیج نت رو برنده شد، که باید یک و نیم میلیون عکس رو نگاه می کرد و می گفت عکس چی هستن. حالا در سال ۲۰۱۴ تونستیم خطا رو به شش درصد در شناسایی تصویر پایین بیاریم. این هم بهتر از آدمه. پس ماشین تو این کار خیلی بهتره، و حالا دارن تو صنعت ازش استفاده میکنن. مثلاً گوگل سال پیش اعلام کرد
نقشه ی همه جای فرانسه رو در عرض دو ساعت تهیه کرده، و این کارو با استفاده از تصاویر دوربینهای خیابان انجام دادن و یه الگوریتم یادگیری عمیق که میتونست شماره خیابونها رو بخونه و بشناسه. تصور کنین قبلاً می تونست چقدر طول بکشه: چندین نفر، چندین سال. همین اتفاق داره تو چین میفته. بایدو یه جور گوگل چینیه، فکر کنم، و چیزی که اینجا سمت چپ و بالا می بینین نمونه ای از تصویریه که من در سیستم یادگیری عمیق بایدو آپلود کردم، و پایینش می تونین ببینین که سیستم فهمیده اون تصویر چیه و تصاویر مشابه رو پیدا کرده. تصاویر مشابه در واقع دارای زمینه مشابه،
و جهت مشابه چهره ها هستن، حتی زبون بعضیا بیرونه. این جستجوی واضح یه متن از یه صفحه وب نیست. تمام چیزی که آپلود کردم یه تصویر بود. پس حالا رایانه هایی داریم که چیزی رو که می بینن واقعاً میفهمن و بنابراین میتونن بانکهای اطلاعاتی صدها میلیون تصویری رو در یه لحظه جستجو کنن. پس حالا اینکه رایانه ها میتونن ببینن یعنی چی؟ خوب، فقط این نیست که رایانه ها میتونن ببینن. در واقع، یادگیری عمیق بیشتر از این انجام داده. جملات پیچیده و ظریف مثل این یکی حالا با الگوریتم های یادگیری عمیق قابل فهمه. همون طور که میتونین اینجا ببینین،
این سیستم مستقر در استنفورد که نقطه قرمزی اون بالا داره به این نتیجه رسیده که این جمله بار عاطفی منفی داره. حالا در واقع یادگیری عمیق به عملکرد انسان نزدیک شده در فهم اینکه جمله ها درباره ی چیه وهر جمله درباره اون چیزها چی میگه. هم چنین، یادگیری عمیق برای خواندن متون چینی به کار رفته، باز هم در سطحی که معادل حرف زدن یه آدم چینی تبار اصیله، این الگوریتم در سویس ساخته شده توسط افرادی که هیچ کدوم نمی تونن چینی حرف بزنن یا بفهمن. همون طور که گفتم، با استفاده از یادگیری عمیق یعنی استفاده از بهترین سیستم موجود در دنیا در این مورد، حتی در مقایسه با فهم یه آدم بومی اصیل. این سیستمیه که ما تو شرکتمون جمع کردیم
که نشون میده همه این چیزها کنار هم جمع شده. اینها تصاویریه که هیچ متنی به اونها پیوست نیست، و همینکه اینجا جمله هایی تایپ میکنم، در همون لحظه داره اون تصاویر رو میفهمه و داره تصمیم میگیره موضوع اونا چیه و تصاویری رو که شبیه متنیه که من دارم می نویسم پیدا می کنه. پس می تونین ببینین که در واقع جمله های منو میفهمه و در واقع این تصاویر رو میفهمه. میدونم یه چیزی شبیه اینو تو گوگل دیدین، اونجا میتونین چیزهایی تایپ کنین و تصاویری به شما نشون میده، اما در واقع کاری که انجام میده اینه که صفحه وب رو دنبال اون متن میگرده. این با فهم واقعی تصاویر خیلی فرق داره.
این چیزیه که رایانه ها فقط تونستن برای اولین بار در چند ماه اخیر انجامش بدن. پس حالا می بینیم که رایانه ها هم می تونن ببینن و هم میتونن بخونن، و البته، نشون دادیم که میتونن چیزی رو که می شنون بفهمن. شاید حالا عجیب نباشه که میخوام بگم میتونن بنویسن. این متنیه که دیروز با یه الگوریتم یادگیری عمیق ایجاد کردم. و این متنیه که یه الگوریتم از استنفورد ایجاد کرده. هر دو جمله توسط الگوریتم یادگیری عمیق برای توصیف این تصاویر ایجاد شده. این الگوریتم قبلاً هرگز ندیده بود یه مرد با پیراهن مشکی گیتار بنوازد. قبلاً یه مرد دیده بود، قبلاً مشکی دیده بود، قبلاً یه گیتار دیده بود،
اما بدون کمک کسی توانست چنین توصیف نابی از این تصویر ایجاد کند. البته هنوز به سطح عملکرد انسان نرسیده ایم، اما به آن نزدیک شده ایم. در آزمونها، افراد توصیف های رایانه رو به نسبت یک به چهار ترجیح میدن. حالا این سیستم فقط دو هفته س به وجود اومده، بنابراین در عرض یه سال آینده، الگوریتم رایانه ای احتمالاً انسان رو پشت سر میذاره با این سرعت که کارها پیش میره. پس رایانه ها نوشتن هم بلدن. پس همه ی اینها رو کنار هم میذاریم و نتیجه ش فرصت های بسیار مهیجی میشه. مثلاً، در پزشکی، یه گروه در بوستون اعلام کرده چندین ویژگی مهم یالینی
از تومورها رو پیدا کرده که به دکترها در تعیین پیش آگهی سرطان کمک می کنن. به طرز بسیار مشابه، در استنفورد، یه گروه اعلام کرده، با نگاه کردن به بافتها، با بزرگنمایی بالا، یه سیستم بر اساس یادگیری ماشینی درست کردن که در واقع بهتر از دکترهای آسیب شناس میزان بقای مبتلایان به سرطان رو پیش بینی می کنه. در هر دو مورد فوق، نه تنها پیش بینی ها دقیق تره، بلکه جنبه های جدیدی از بصیرت علمی به وجود اومده. در مورد رادیولوژی، شاخص های بالینی جدیدی به دست اومده که انسان قادر به فهم اونهاست. در این مورد آسیب شناسی، سیستم رایانه ای در واقع فهمید که سلولهای اطراف سرطان
به اندازه ی خود سلولهای سرطانی در رسیدن به تشخیص مهم هستن. این برخلاف چیزیه که دهها ساله به آسیب شناسها یاد میدن. در هر یک از دو مورد فوق، اون سیستمها با ترکیبی از نظر خبرگان پزشکی و خبرگان یادگیری ماشینی شکل گرفت، اما از سال گذشته تا حالا از اون هم جلوتر رفتیم. این نمونه ای از تشخیص نواحی سرطانی بافتهای انسان در زیر میکروسکوپه. سیستمی که اینجا نشون داده شده میتونه اون نواحی رو دقیق تر از یا با دقت معادل دکترهای آسیب شناس تشخیص بده، اما به طور کامل توسط یادگیری عمیق و بدون کمک تخصصی پزشکی ساخته شده توسط افرادی که هیچ سابقه ای در این زمینه ندارن.
به طور مشابه، اینجا، این قطعه قطعه شدن عصب. ما حالا میتونیم اعصاب رو با دقت مشابه انسان قطعه قطعه کنیم، اما این سیستم با یادگیری عمیق ایجاد شده توسط افرادی که هیچ سابقه ی پزشکی ندارن. پس خودم، به عنوان کسی که هیچ سابقه ی پزشکی ندارم، به نظر میرسه کاملاً آمادگی دارم یه شرکت جدید پزشکی تأسیس کنم، که همین کارو کردم. یه جورایی از انجام این کار میترسیدم، اما به طور نظری امکانش بود که با این فنون تحلیل داده بتونم کار پزشکی بسیار مفیدی انجام بدم. و شُکر که بازخوردش خارق العاده بوده، نه تنها از رسانه ها بلکه از جامعه ی پزشکی،
که خیلی حمایت کردن. فرضیه اینه که میتونیم قسمت وسط فرآیند پزشکی رو بگیریم و اونو تا حد امکان به تحلیل داده ها تبدیل کنیم، و کارهایی رو که دکترها بهتر انجام میدن به اونها بسپاریم. میخوام یه مثال براتون بزنم. حالا به وجود اومدن یه آزمایش تشخیصی جدید حدود ۱۵ دقیقه طول میکشه و حالا اینو به طور زنده به شما نشون میدم، اما با برش چند قسمت فشرده ش کردم به سه دقیقه. بجای آزمایش تشخیص پزشکی میخوام یه آزمایش تشخیص تصاویر خودرو براتون بسازم، چون چیزیه که همه ی ما میفهمیم. پس اینجا با حدود یک و نیم میلیون تصویر خودرو شروع می کنیم،
و میخوام چیزی درست کنم که بتون اونها رو بر اساس زاویه ی عکاسی دسته بندی کنه. خوب همه ی این تصاویر بدون برچسب هستن، پس ناچارم از اول شروع کنم. با الگوریتم یادگیری عمیق ما، این سیستم میتونه به طور خودکار ساختارهای هر تصویر رو شناسایی کنه. خوب نکته ی مثبت اینه که حالا انسان و رایانه میتونن با هم کار کنن. پس انسان، همون طور که اینجا میتونین ببینین، داره موارد مورد نظر رو به رایانه میگه و از رایانه میخواد با استفاده از اونها الگوریتم خودشو بهتر کنه. حالا این سیستمهای یادگیری عمیق در واقع در فضای ۱۶ هزار بعدی هستن، پس اینجا می تونین ببینین رایانه اینو در اون فضا میچرخونه، و سعی میکنه ساختارهای جدید رو پیدا کنه.
و وقتی این کار رو با چنین موفقیتی انجام میده، فردی که داره هدایتش میکنه میتونه نواحی مورد نظر رو نشون بده. پس اینجا، رایانه موفق شده نواحی، مثلاً زاویه ها رو پیدا کنه. پس طی این فرآیند، به تدریج به رایانه نکات بیشتر و بیشتری درباره ی انواع ساختارهای مورد نظرمون میگیم. میتونین فرض کنین در یه آزمایش تشخیصی این میتونه یه آسیب شناس باشه که مثلاً نواحی آسیب رو شناسایی می کنه، یا یه رادیولوژیست که گره های بالقوه مشکل دار رو نشون میده. و این گاهی ممکنه برای الگوریتم مشکل باشه. در این مورد، یه جورایی سردرگم شد. جلو و عقب خودروها همه در همه.
پس اینجا باید کمی بیشتر دقت کنیم، با دست جلو و عقب رو مشخص کنیم، بعد به رایانه بگیم این نوع گروهیه که منظور ماست. پس این کار رو مدتی انجام میدیم، کمی ازش رد میشیم، و بعد به الگوریتم یادگیری ماشینی آموزش میدیم بر اساس این چند صد چیز، و امیدواریم خیلی بهتر بشه. حالا میتونین ببینین که بعضی از این تصاویر داره محو میشه، که نشون میده خودش کم کم بعضی از اینا رو میشناسه. پس میتونیم از این مفهوم تصاویر مشابه استفاده کنیم، و با استفاده از تصاویر مشابه، حالا میتونین ببینین که، رایانه در این نقطه میتونه فقط جلوی خودروها رو کاملاً بشناسه.
پس در این نقطه، انسان میتونه به رایانه بگه، خوب، بله، کارت خوب بود. گاهی، البته، حتی در این نقطه، جدا کردن گروهها مشکله. در این مورد، حتی بعد از اینکه رایانه مدتی اینجا میچرخه، هنوز می بینیم که سمت چپ و راست تصاویر همه در همه. پس دوباره میتونیم به رایانه کمک کنیم، و بگیم خوب، حالا سعی کن زائده ای رو پیدا کنی که سمت چپ و راست رو تا حد امکان مشخص کنه به کمک این الگوریتم یادگیری عمیق. و با این کمک-- آهان، بله، موفق شده. تونسته راهی پیدا کنه که درباره این اشیا فکر کنه
و اینها رو از هم جدا کنه. پس ایده رو اینجا گرفتین. اینجا رایانه جای انسان رو نمی گیره، بلکه با هم کار میکنن. کاری که اینجا می کنیم اینه که کاری که وقت یه گروه پنج یا شش نفره رو حدود هفت سال می گرفت به سیستمی میدیم که همون کار رو در عرض ۱۵ دقیقه انجام میده فقط با یه نفر که به تنهایی کار میکنه. پس این فرآیند حدود چهار یا پنج بار تکرار میشه. می تونین ببینین که حالا موفق شدیم ۶۲ درصد از یک و نیم میلیون تصویر رو دسته بندی کنیم. و در این نقطه، میتونیم با سرعت تمام دسته ها رو به طور کامل بگیریم،
و هر کدوم رو چک کنیم تا مطمئن بشیم اشتباه نشده. در صورت اشتباه، میتونیم اینو به رایانه اطلاع بدیم. و با این نوع فرآیند برای هر یک از گروههای مختلف، حالا به موفقیت ۸۰ درصد در طبقه بندی یک و نیم میلیون تصویر رسیدیم. و این نقطه، جاییه که تعداد کمی تصویر درست طبقه بندی نشده، و سعی می کنه بفهمه چرا. و با استفاده از روش فوق، در عرض ۱۵ دقیقه به میزان طبقه بندی ۹۷ درصد رسیدیم. پس این نوع تکنیک به ما امکان داد یه مشکل بزرگ رو حل کنیم، این مشکل که با کمبود نیروی تخصصی پزشکی در جهان روبرو هستیم. مجمع جهانی اقتصاد اعلام کرده بین ۱۰ تا ۲۰ برابر
کمبود پزشک در جهان در حال توسعه وجود داره، و حدود ۳۰۰ سال طول میکشه تا تعداد کافی پزشک برای حل این مشکل تربیت بشه. پس تصور کنین اگه بتونیم کارایی اونا رو افزایش بدیم با اساتفاده از این روشهای یادگیری عمیق، چی میشه؟ خوب این فرصتها منو به شدت هیجان زده کرده. همچنین نگران مشکلات هستم. اینجا مشکل اینه که هر ناحیه آبی رنگ در این نقشه جاییه که میزان اشتغال در خدمات بیشتر از ۸۰ درصده. چه خدماتی؟ این خدمات. اینها دقیقاً همون چیزهایی هستن که رایانه ها یاد گرفتن انجام بدن. پس ۸۰ درصد اشتغال در جهان توسعه یافته
مربوط به کارهاییه که رایانه ها بلد هستن. مفهومش چیه؟ خوب، مشکلی نیست. میتونن در مشاغل دیگه جایگزین بشن. به عنوان مثال، موقعیتهای شغلی بیشتری برای دانشمندان علوم داده ایجاد میشه. خوب، نه واقعاً. دانشمندان علوم داده زمان زیادی برای ساختن این چیزها صرف نکردن. به عنوان مثال، این چهار الگوریتم همگی توسط یه نفر ساخته شده. پس اگه فکر کنید، اوه، قبلاً مشابه همین اتفاق افتاده، نتیجه شو در گذشته دیدیم وقتی چیزهای جدید وارد میشه و شغلهای جدید جای اونا رو میگیره، این شغلهای جدید چه خواهد بود؟ برآوردش برامون خیلی سخته،
چون عملکرد انسانی به تدریج رشد می کنه، اما حالا سیستمی داریم به نام یادگیری عمیق، که در واقع میدونیم که از نظر توانایی، سرعت رشد تصاعدی داره. و ما اینجاییم. پس در حال حاضر، چیزهای اطرفمون رو می بینیم و میگیم، "اوه، رایانه ها هنوز خیلی عقب هستن." درسته؟ اما در عرض پنج سال، رایانه ها از این جدول خارج خواهند شد. پس لازمه همین الان شروع به فکر درباره ی این قابلیت کنیم. البته اینو قبلاً یه بار دیدیم. در انقلاب صنعتی، با ورود موتورها شاهد یک گام تغییر در قابلیت بودیم. اما نکته این است که پس از مدتی، همه چیز خراب شد.
گسست اجتماعی اتفاق افتاد، اما وقتی استفاده از موتورها برای تولید نیرو در موقعیتهای مختلف شروع شد، همه چیز واقعاً عادی شد. انقلاب یادگیری ماشینی بسیار متفاوت از انقلاب صنعتی خواهد بود، چون انقلاب یادگیری ماشینی، هرگز عادی نمی شود. هر چه رایانه ها در امور ذهنی بهتر می شوند، می تونن رایانه های بهتری بسازن که در امور ذهنی بهتر هستن، پس این نوعی تغییر خواهد بود که جهان هرگز پیش از این تجربه نکرده، پس فهم قبلی شما متفاوت با چیزیه که ممکنه. این قبلاً در حال تحت تأثیر قرار دادن ماست. در عرض ۲۵ سال اخیر، با افزایش بهره وری سرمایه،
بهره وری کار ثابت مانده، در واقع کمی هم افت کرده. بنابراین میخوام این بحث رو الان شروع کنیم. میدونم که اغلب وقتی درباره ی این وضعیت به افراد توضیح میدم، ممکنه کسی اعتنا نکنه. خوب، رایانه ها در واقع نمی تونن فکر کنن، اونها احساس ندارن، شعر رو نمی فهمن، ما در واقع نمیدونیم چطور کار میکنن. پس چه؟ رایانه ها همین الان میتونن کارهایی بکنن که انسانها بیشتر وقتشون رو صرفش می کنن و در مقابلش پول میگیرن، پس الان وقت آن است که شروع کنیم به فکر درباره ی اینکه چطور قراره ساختارهای اجتماعی و ساختارهای اقتصادی خودمونو تغییر بدیم
تا از این واقعیت جدید آگاه بشیم. متشکرم. (تشویق)
It used to be that if you wanted to get a computer to do something new, you would have to program it. Now, programming, for those of you here that haven't done it yourself, requires laying out in excruciating detail every single step that you want the computer to do in order to achieve your goal. Now, if you want to do something that you don't know how to do yourself, then this is going to be a great challenge. So this was the challenge faced by this man, Arthur Samuel. In 1956, he wanted to get this computer to be able to beat him at checkers. How can you write a program,
lay out in excruciating detail, how to be better than you at checkers? So he came up with an idea: he had the computer play against itself thousands of times and learn how to play checkers. And indeed it worked, and in fact, by 1962, this computer had beaten the Connecticut state champion. So Arthur Samuel was the father of machine learning, and I have a great debt to him, because I am a machine learning practitioner. I was the president of Kaggle, a community of over 200,000 machine learning practictioners. Kaggle puts up competitions to try and get them to solve previously unsolved problems,
and it's been successful hundreds of times. So from this vantage point, I was able to find out a lot about what machine learning can do in the past, can do today, and what it could do in the future. Perhaps the first big success of machine learning commercially was Google. Google showed that it is possible to find information by using a computer algorithm, and this algorithm is based on machine learning. Since that time, there have been many commercial successes of machine learning. Companies like Amazon and Netflix use machine learning to suggest products that you might like to buy, movies that you might like to watch.
Sometimes, it's almost creepy. Companies like LinkedIn and Facebook sometimes will tell you about who your friends might be and you have no idea how it did it, and this is because it's using the power of machine learning. These are algorithms that have learned how to do this from data rather than being programmed by hand. This is also how IBM was successful in getting Watson to beat the two world champions at "Jeopardy," answering incredibly subtle and complex questions like this one. ["The ancient 'Lion of Nimrud' went missing from this city's national museum in 2003 (along with a lot of other stuff)"]
This is also why we are now able to see the first self-driving cars. If you want to be able to tell the difference between, say, a tree and a pedestrian, well, that's pretty important. We don't know how to write those programs by hand, but with machine learning, this is now possible. And in fact, this car has driven over a million miles without any accidents on regular roads. So we now know that computers can learn, and computers can learn to do things that we actually sometimes don't know how to do ourselves, or maybe can do them better than us. One of the most amazing examples I've seen of machine learning
happened on a project that I ran at Kaggle where a team run by a guy called Geoffrey Hinton from the University of Toronto won a competition for automatic drug discovery. Now, what was extraordinary here is not just that they beat all of the algorithms developed by Merck or the international academic community, but nobody on the team had any background in chemistry or biology or life sciences, and they did it in two weeks. How did they do this? They used an extraordinary algorithm called deep learning. So important was this that in fact the success was covered in The New York Times in a front page article a few weeks later.
This is Geoffrey Hinton here on the left-hand side. Deep learning is an algorithm inspired by how the human brain works, and as a result it's an algorithm which has no theoretical limitations on what it can do. The more data you give it and the more computation time you give it, the better it gets. The New York Times also showed in this article another extraordinary result of deep learning which I'm going to show you now. It shows that computers can listen and understand. (Video) Richard Rashid: Now, the last step that I want to be able to take in this process
is to actually speak to you in Chinese. Now the key thing there is, we've been able to take a large amount of information from many Chinese speakers and produce a text-to-speech system that takes Chinese text and converts it into Chinese language, and then we've taken an hour or so of my own voice and we've used that to modulate the standard text-to-speech system so that it would sound like me. Again, the result's not perfect. There are in fact quite a few errors. (In Chinese) (Applause) There's much work to be done in this area.
(In Chinese) (Applause) Jeremy Howard: Well, that was at a machine learning conference in China. It's not often, actually, at academic conferences that you do hear spontaneous applause, although of course sometimes at TEDx conferences, feel free. Everything you saw there was happening with deep learning. (Applause) Thank you. The transcription in English was deep learning. The translation to Chinese and the text in the top right, deep learning, and the construction of the voice was deep learning as well. So deep learning is this extraordinary thing.
It's a single algorithm that can seem to do almost anything, and I discovered that a year earlier, it had also learned to see. In this obscure competition from Germany called the German Traffic Sign Recognition Benchmark, deep learning had learned to recognize traffic signs like this one. Not only could it recognize the traffic signs better than any other algorithm, the leaderboard actually showed it was better than people, about twice as good as people. So by 2011, we had the first example of computers that can see better than people. Since that time, a lot has happened.
In 2012, Google announced that they had a deep learning algorithm watch YouTube videos and crunched the data on 16,000 computers for a month, and the computer independently learned about concepts such as people and cats just by watching the videos. This is much like the way that humans learn. Humans don't learn by being told what they see, but by learning for themselves what these things are. Also in 2012, Geoffrey Hinton, who we saw earlier, won the very popular ImageNet competition, looking to try to figure out from one and a half million images what they're pictures of.
As of 2014, we're now down to a six percent error rate in image recognition. This is better than people, again. So machines really are doing an extraordinarily good job of this, and it is now being used in industry. For example, Google announced last year that they had mapped every single location in France in two hours, and the way they did it was that they fed street view images into a deep learning algorithm to recognize and read street numbers. Imagine how long it would have taken before: dozens of people, many years. This is also happening in China.
Baidu is kind of the Chinese Google, I guess, and what you see here in the top left is an example of a picture that I uploaded to Baidu's deep learning system, and underneath you can see that the system has understood what that picture is and found similar images. The similar images actually have similar backgrounds, similar directions of the faces, even some with their tongue out. This is not clearly looking at the text of a web page. All I uploaded was an image. So we now have computers which really understand what they see and can therefore search databases
of hundreds of millions of images in real time. So what does it mean now that computers can see? Well, it's not just that computers can see. In fact, deep learning has done more than that. Complex, nuanced sentences like this one are now understandable with deep learning algorithms. As you can see here, this Stanford-based system showing the red dot at the top has figured out that this sentence is expressing negative sentiment. Deep learning now in fact is near human performance at understanding what sentences are about and what it is saying about those things. Also, deep learning has been used to read Chinese,
again at about native Chinese speaker level. This algorithm developed out of Switzerland by people, none of whom speak or understand any Chinese. As I say, using deep learning is about the best system in the world for this, even compared to native human understanding. This is a system that we put together at my company which shows putting all this stuff together. These are pictures which have no text attached, and as I'm typing in here sentences, in real time it's understanding these pictures and figuring out what they're about
and finding pictures that are similar to the text that I'm writing. So you can see, it's actually understanding my sentences and actually understanding these pictures. I know that you've seen something like this on Google, where you can type in things and it will show you pictures, but actually what it's doing is it's searching the webpage for the text. This is very different from actually understanding the images. This is something that computers have only been able to do for the first time in the last few months. So we can see now that computers can not only see but they can also read, and, of course, we've shown that they can understand what they hear.
Perhaps not surprising now that I'm going to tell you they can write. Here is some text that I generated using a deep learning algorithm yesterday. And here is some text that an algorithm out of Stanford generated. Each of these sentences was generated by a deep learning algorithm to describe each of those pictures. This algorithm before has never seen a man in a black shirt playing a guitar. It's seen a man before, it's seen black before, it's seen a guitar before, but it has independently generated this novel description of this picture. We're still not quite at human performance here, but we're close. In tests, humans prefer the computer-generated caption
one out of four times. Now this system is now only two weeks old, so probably within the next year, the computer algorithm will be well past human performance at the rate things are going. So computers can also write. So we put all this together and it leads to very exciting opportunities. For example, in medicine, a team in Boston announced that they had discovered dozens of new clinically relevant features of tumors which help doctors make a prognosis of a cancer. Very similarly, in Stanford, a group there announced that, looking at tissues under magnification,
they've developed a machine learning-based system which in fact is better than human pathologists at predicting survival rates for cancer sufferers. In both of these cases, not only were the predictions more accurate, but they generated new insightful science. In the radiology case, they were new clinical indicators that humans can understand. In this pathology case, the computer system actually discovered that the cells around the cancer are as important as the cancer cells themselves in making a diagnosis. This is the opposite of what pathologists had been taught for decades.
In each of those two cases, they were systems developed by a combination of medical experts and machine learning experts, but as of last year, we're now beyond that too. This is an example of identifying cancerous areas of human tissue under a microscope. The system being shown here can identify those areas more accurately, or about as accurately, as human pathologists, but was built entirely with deep learning using no medical expertise by people who have no background in the field. Similarly, here, this neuron segmentation. We can now segment neurons about as accurately as humans can,
but this system was developed with deep learning using people with no previous background in medicine. So myself, as somebody with no previous background in medicine, I seem to be entirely well qualified to start a new medical company, which I did. I was kind of terrified of doing it, but the theory seemed to suggest that it ought to be possible to do very useful medicine using just these data analytic techniques. And thankfully, the feedback has been fantastic, not just from the media but from the medical community, who have been very supportive. The theory is that we can take the middle part of the medical process
and turn that into data analysis as much as possible, leaving doctors to do what they're best at. I want to give you an example. It now takes us about 15 minutes to generate a new medical diagnostic test and I'll show you that in real time now, but I've compressed it down to three minutes by cutting some pieces out. Rather than showing you creating a medical diagnostic test, I'm going to show you a diagnostic test of car images, because that's something we can all understand. So here we're starting with about 1.5 million car images, and I want to create something that can split them into the angle
of the photo that's being taken. So these images are entirely unlabeled, so I have to start from scratch. With our deep learning algorithm, it can automatically identify areas of structure in these images. So the nice thing is that the human and the computer can now work together. So the human, as you can see here, is telling the computer about areas of interest which it wants the computer then to try and use to improve its algorithm. Now, these deep learning systems actually are in 16,000-dimensional space, so you can see here the computer rotating this through that space, trying to find new areas of structure.
And when it does so successfully, the human who is driving it can then point out the areas that are interesting. So here, the computer has successfully found areas, for example, angles. So as we go through this process, we're gradually telling the computer more and more about the kinds of structures we're looking for. You can imagine in a diagnostic test this would be a pathologist identifying areas of pathosis, for example, or a radiologist indicating potentially troublesome nodules. And sometimes it can be difficult for the algorithm. In this case, it got kind of confused.
The fronts and the backs of the cars are all mixed up. So here we have to be a bit more careful, manually selecting these fronts as opposed to the backs, then telling the computer that this is a type of group that we're interested in. So we do that for a while, we skip over a little bit, and then we train the machine learning algorithm based on these couple of hundred things, and we hope that it's gotten a lot better. You can see, it's now started to fade some of these pictures out, showing us that it already is recognizing how to understand some of these itself. We can then use this concept of similar images,
and using similar images, you can now see, the computer at this point is able to entirely find just the fronts of cars. So at this point, the human can tell the computer, okay, yes, you've done a good job of that. Sometimes, of course, even at this point it's still difficult to separate out groups. In this case, even after we let the computer try to rotate this for a while, we still find that the left sides and the right sides pictures are all mixed up together. So we can again give the computer some hints, and we say, okay, try and find a projection that separates out the left sides and the right sides as much as possible
using this deep learning algorithm. And giving it that hint -- ah, okay, it's been successful. It's managed to find a way of thinking about these objects that's separated out these together. So you get the idea here. This is a case not where the human is being replaced by a computer, but where they're working together. What we're doing here is we're replacing something that used to take a team of five or six people about seven years and replacing it with something that takes 15 minutes for one person acting alone. So this process takes about four or five iterations.
You can see we now have 62 percent of our 1.5 million images classified correctly. And at this point, we can start to quite quickly grab whole big sections, check through them to make sure that there's no mistakes. Where there are mistakes, we can let the computer know about them. And using this kind of process for each of the different groups, we are now up to an 80 percent success rate in classifying the 1.5 million images. And at this point, it's just a case of finding the small number that aren't classified correctly, and trying to understand why.
And using that approach, by 15 minutes we get to 97 percent classification rates. So this kind of technique could allow us to fix a major problem, which is that there's a lack of medical expertise in the world. The World Economic Forum says that there's between a 10x and a 20x shortage of physicians in the developing world, and it would take about 300 years to train enough people to fix that problem. So imagine if we can help enhance their efficiency using these deep learning approaches? So I'm very excited about the opportunities. I'm also concerned about the problems.
The problem here is that every area in blue on this map is somewhere where services are over 80 percent of employment. What are services? These are services. These are also the exact things that computers have just learned how to do. So 80 percent of the world's employment in the developed world is stuff that computers have just learned how to do. What does that mean? Well, it'll be fine. They'll be replaced by other jobs. For example, there will be more jobs for data scientists. Well, not really. It doesn't take data scientists very long to build these things.
For example, these four algorithms were all built by the same guy. So if you think, oh, it's all happened before, we've seen the results in the past of when new things come along and they get replaced by new jobs, what are these new jobs going to be? It's very hard for us to estimate this, because human performance grows at this gradual rate, but we now have a system, deep learning, that we know actually grows in capability exponentially. And we're here. So currently, we see the things around us and we say, "Oh, computers are still pretty dumb." Right?
But in five years' time, computers will be off this chart. So we need to be starting to think about this capability right now. We have seen this once before, of course. In the Industrial Revolution, we saw a step change in capability thanks to engines. The thing is, though, that after a while, things flattened out. There was social disruption, but once engines were used to generate power in all the situations, things really settled down. The Machine Learning Revolution is going to be very different from the Industrial Revolution, because the Machine Learning Revolution, it never settles down.
The better computers get at intellectual activities, the more they can build better computers to be better at intellectual capabilities, so this is going to be a kind of change that the world has actually never experienced before, so your previous understanding of what's possible is different. This is already impacting us. In the last 25 years, as capital productivity has increased, labor productivity has been flat, in fact even a little bit down. So I want us to start having this discussion now. I know that when I often tell people about this situation, people can be quite dismissive.
Well, computers can't really think, they don't emote, they don't understand poetry, we don't really understand how they work. So what? Computers right now can do the things that humans spend most of their time being paid to do, so now's the time to start thinking about how we're going to adjust our social structures and economic structures to be aware of this new reality. Thank you. (Applause)