Cara Menjelajahi Pembelajaran Mesin dan Pemrosesan Bahasa Alami sebagai Siswa Sekolah Menengah Atas

Panduan sederhana dan realistis dari satu HS gal ke HS gal lainnya

Hei! Apakah Anda suka menguraikan nuansa bahasa, merenungkan penulisan kreatif, atau menerbitkan sejumlah besar berita terbaru di surat kabar sekolah Anda? Tetapi mungkin pada saat yang sama, setelah ujian Ap Computer Science pada bulan Mei, apakah Anda terpesona oleh semua hal funky yang dapat Anda lakukan dengan string?

Sobat, kamu banyak mengingatkanku pada diriku sendiri! Dan jika Anda di sini setelah menemukan WHOA – ada disiplin ilmu interdisipliner yang menerapkan ilmu komputer dan bahasa (* analisis komputasi bahasa *), tetapi Semua panduan online ditujukan untuk orang dewasa atau terlalu mengintimidasi untuk beberapa tujuan eksplorasi – yah, panduan ini sangat cocok untuk yaws!

Pada akhirnya, Anda akan mendapatkan ide bagus tentang pandangan umum pembelajaran mesin dan pemrosesan bahasa alami, termasuk konsep-konsep penting dan mengapa mereka begitu penting saat ini hanya karena latar belakang sekolah menengah. Ketika datang ke produk tertentu, Anda dapat pergi dengan proyek mini kecil dan menerapkan pengetahuan itu untuk upaya masa depan!

 

Perkenalan

Sekarang, sebelum saya mulai, saya ingin membuat penafian: Jika Anda ingin menjadi ahli dalam pembelajaran mesin (ML) dan pemrosesan bahasa alami (NLP), panduan ini bukan untuk Anda. Panduan ini dimaksudkan untuk membantu siswa sekolah menengah dan jiwa-jiwa penasaran lainnya yang benar-benar tertarik pada bidang yang menarik ini dan menyukai titik awal untuk menjelajahi item tindakan langsung dan mudah didekati di lapangan, bahkan tanpa penelitian atau mentor universitas / industri. (Bahkan, jika Anda menyelesaikan panduan ini, saya pikir ini adalah cara yang bagus untuk menunjukkan minat pada ML dan NLP nanti ketika Anda mendaftar untuk program musim panas studi musim panas yang membutuhkan pengetahuan latar belakang di lapangan!)

DR –  Saya    membangun panduan ini dengan mempertimbangkan hambatan biasa yang dimiliki siswa sekolah menengah mengenai tingkat dan waktu pendidikan mereka (termasuk kurangnya pengalaman penelitian / proyek sebelumnya) Saya membuat generalisasi tertentu yang berlaku untuk saya dan banyak hal yang saya tahu. Tentu saja, ada banyak pengecualian (faktanya, saya tahu begitu banyak teman sekelas yang luar biasa maju, berbakat, rendah hati, dan teman sekelas), tetapi saya harap panduan ini dapat diakses oleh semua orang, terlepas dari tingkat pemula.

Karena itu, mari kita jelajahi!

 Prasyarat

Sementara melatih pengetahuan tentang kalkulus, aljabar linier, dan fondasi mendalam lainnya sangat ideal (dari perspektif tingkat profesional), siapa pun yang saat ini atau telah mengalami sistem sekolah Amerika dapat memperhatikan hal-hal berikut:

  • Keterbatasan matematika: Kebanyakan orang tidak belajar kalkulus sampai tahun pertama atau senior (kelas satu atau dua, terutama untuk orang yang ambisius), jadi secara realistis, mereka penasaran  Seorang anak berusia 14 tahun membeli buku teks aljabar linier dan menghormati aljabar 2 di sekolah (prasyarat untuk Pra-Kalk) Mungkin sulit untuk menjelajahi lapangan dengan mencoba memahami dasar-dasarnya ketika Anda belum selesai.
  • Waktu dan Prioritas: Baik itu musik, olahraga, seni, tari, klub, bimbingan lokal atau minat lainnya, waktu adalah yang terpenting karena siswa memiliki banyak hal di piring mereka.

Akibatnya, prasyarat ini menyadari dua peringatan di atas dan pada saat yang sama membuat eksplorasi menjadi sangat menyenangkan jika Anda benar-benar terpesona oleh lapangan. (Jika Anda sudah tahu Python dasar, lewati ini!)

 

1. Pelajari pemrograman dasar…

… Baik di sekolah atau online, atau di lokasi yang nyaman  (APCS, Summer Community College, Udemy, Edx, dll.). Bagian ini tidak dapat dihindari, tetapi bukan tidak mungkin!

Jika Anda seperti saya yang mengetahui tentang ML setelah mengikuti ujian AP Computer Science A atau kursus Java I community college musim panas, Anda sempurna! Jika Anda memiliki pengetahuan yang baik tentang kelas, fungsi, array, dan pemrograman dasar, Anda akan siap untuk prasyarat ini dan dapat langsung melompat ke langkah 2.

Jika Anda tidak memilikinya, jangan khawatir. Mengingat bahwa banyak siswa menyelesaikan APCS pada tahun kedua mereka, itu bukan peregangan besar. Jika Anda perlu memulai di suatu tempat, kalimat lucu Isaac Lyman “Ketika Anda selesai membaca ini, Anda akan belajar cara membuat kode” adalah titik masuk yang baik. Dari sana, temukan kursus Python sederhana secara online atau daftar selama satu semester di community college setempat untuk menguasai dasar-dasarnya.

Saya akan terus berasumsi bahwa Anda belajar Java di sekolah menengah di intro untuk CS atau APCS.

 

2. Belajar Python untuk Ilmu Data

Python, bahasa penting untuk membuat proyek ML, berdasarkan pemrograman (mungkin Java), membuatnya cukup mudah dipelajari!

Situs web, yang digunakan MIT untuk Beaverworks Summer Institute for High School Students, berfokus secara khusus pada “aplikasi STEM seperti analitik data, pembelajaran mesin, dan pekerjaan numerik.”  Hanya dengan membaca dua modul pertama, Anda  akan memiliki pemahaman yang baik tentang bahasa dalam format yang mudah dipahami tanpa harus memahami konsep yang tidak terkait dengan ML.

 

3. Kenali perpustakaan khusus ini

Untuk ML dan NLP, memahami perpustakaan  panda terlebih dahulu sangat membantu karena membuatnya lebih mudah untuk memanipulasi data. Serial YouTube ini merangkumnya dengan sangat baik (tetapi jika Anda benar-benar kekurangan waktu, Anda dapat melewati langkah ini dan meluangkan waktu untuk menjelajah nanti).  Sedikit membaca tentang grafik (matplotlib, seaborn) yang dapat dengan mudah ditemukan dengan pencarian Google sederhana akan membuat pengalaman jauh lebih menyenangkan.

 

4. Jaga rasa ingin tahu Anda!

Mungkin prasyarat terpenting dari sini adalah pola pikir yang ingin tahu. Tidak ada yang lebih penting daripada kemauan sederhana untuk menggali dan belajar. Dengan asumsi Anda sudah memiliki latar belakang pengetahuan yang setara dengan APCS, jika Anda memutuskan untuk ambisius, hal di atas dapat diselesaikan dalam seminggu. Saya sengaja mewujudkannya karena saya sepenuhnya berempati dengan kendala kehidupan sekolah menengah saya yang sibuk!

Jadi, seperti yang akan segera saya jelaskan di bawah ini, banyak hal yang mungkin pada akhirnya Anda temukan sebagai siswa sekolah menengah bukan berasal dari kursus, tetapi dari penggalian Anda sendiri ke Stack Overflow, YouTube, dan Google. Anda benar-benar belajar lebih dalam dengan cara itu. Persiapan. Baca terus!

 

Membaca Cepat & Instalasi Perangkat Lunak

Ada banyak kursus hebat seperti kursus Stanford ML Andrew Ng yang terkenal, jadi jika itu cara Belajar Anda, silakan! Namun, saya ingin artikel khusus ini menjadi panduan eksplorasi, jadi daripada penyelaman resmi ke lapangan, artikel ini dapat diselesaikan dengan relatif cepat untuk menilai minat di lapangan dan mungkin menyelesaikan proyek mini. Jika sumber daya di bawah ini menarik dan Anda ingin menghabiskan lebih banyak waktu, dengan segala cara, ikuti semua kelas open source online yang hebat! Tapi inilah cara mengetahui hal-hal keren yang dapat Anda lakukan dengan sedikit pengetahuan latar belakang:

 

1. Baca tentang dampak ML dan NLP  sekarang:

Sedikit rusak? Saya tahu. Kita semua ingin langsung masuk ke waktu proyek, tetapi menurut saya, faktor terpenting untuk memulai sesuatu bukan hanya apa yang Anda “lakukan”, tetapi juga “mengapa” Anda melakukannya. Jadi, jika Anda melakukan sedikit riset di situs-situs berikut, Anda bisa mendapatkan pemahaman yang lebih dalam tentang dampaknya terhadap dunia nyata. (Dan hei, itu dorongan motivasi, jadi mengapa tidak?)

  • Majalah SpeechTek: Oh, astaga, saya benar-benar tidak bisa menahan kegembiraan saya! Dari membantu dokter hingga meningkatkan efektivitas strategi pemasaran hingga menyediakan akses ke penyandang disabilitas di seluruh dunia, tidak ada cara yang lebih baik untuk mempelajari semua kemegahan yang dapat dilakukan pemrosesan bahasa alami di dunia saat ini, dan kompilasi terbaru dari teknologi NLP inovatif terbaru. Saat saya menemukan ini, mengingat pola pikir jurnalistik saya (kami pasti membuat banyak dorongan), dan saya tentu berharap itu akan memiliki efek yang sama pada Anda.
  • Google: Apakah ini cukup jelas dan sama sekali tidak perlu untuk menuliskannya? Ya. Apakah saya masih mempromosikannya di sini? Ya! Jika SpeechTek Mag bukan motivasi Anda, pergilah ke sana dan lakukan sedikit riset sendiri tentang mengapa NLP sangat penting! Ini akan menjadi perjalanan liar, tapi itu sepadan.

2. Gambaran luas konsep konseptual dalam ML dan NLP

Selain kegembiraan siswi, ada beberapa bacaan untuk membuat ML dan NLP menjadi gambaran umum yang mudah dicerna, termasuk terminologi teknis, saluran pipa, dan alat penting lainnya saat Anda bersemangat dan siap untuk pergi. (Hingga 30 menit, belum ada pengkodean!)

 

A) Ikhtisar ML:

 

  • Pembelajaran mesin yang dijelaskan MIT Sloan didasarkan pada apa itu ML, dan  tiga subkategori  ML: pembelajaran yang diawasi, tanpa pengawasan, dan penguatan.  ), subbidang  AI lainnya, dan penerapannya memberi Anda ide gambaran besar.
  • ML For Dummies menjelaskan cara kerja ML di bawah dan cara kerjanya, tiga subkategori, dan istilah kunci  (Pelatihan/Verifikasi/ pengujian, dll.), Dan deskripsi yang lebih rinci tentang potensi bias dijelaskan secara akurat.

B) Ikhtisar NLP:

 

  • Pemrosesan bahasa alami adalah pemahaman konseptual yang cepat tentang apa itu NLP dan bagaimana cara penggunaannya.
  • Awal yang lembut untuk pemrosesan bahasa alami menggunakan Python oleh Rahil Shaikh. Ini memberikan pengantar yang sangat singkat untuk NLP dan bagaimana menerapkan ide-ide dari artikel sebelumnya menggunakan kode. Anda belum perlu mengkodekan apa pun. (Kami akan melakukannya di bagian berikutnya.) Baca saja sebagai permulaan!
  • Ekstra: Linguistik Komputasi Kursus Kilat Jika Anda tumbuh dengan video sejarah kursus kilat dengan John Green, Anda beruntung! Ini adalah video linguistik komputasi yang menyenangkan yang saya temukan dalam seri linguistik mereka.

3. Instalasi Perangkat Lunak

Sekarang anda hampir tidak memiliki pembacaan gambaran besar konseptual, saatnya untuk menginstal lingkungan aktual yang ingin anda gunakan.

 

  • Opsi 1: Instal Jupyter Notebook, aplikasi web untuk membuat kode interaktif sederhana (IDE membosankan yang biasa jauh lebih menyenangkan). Anda dapat menggunakannya secara lokal kapan saja, jadi Anda tidak perlu terhubung ke Internet. Lihat ini, ini, dan ini untuk instruksi tentang cara menginstal dan menggunakan notebook Jupyter.
  • Opsi 2: Dengan Google Colab, versi berbasis cloud dari Jupyter Notebook Google, Google Sama seperti berbagi dokumen, Anda dapat berbagi kode dengan orang lain dengan sangat mudah.  Pelajari cara menggunakan Google Colab di sini.

 

Waktu Proyek!( NLP & ML)

Masih bersamaku? Pergilah rentang perhatian besar Anda bersama Anda!

Mungkin bagian paling menarik dari panduan eksplorasi ini adalah kesempatan untuk mengotori tangan Anda dengan kode awal yang menyenangkan dan menunggunya… Proyek Mini! Dan penantian selesai. Ini dia wow!

 

1. Panduan pengkodean dasar untuk digunakan

Ventsislav Yordanov telah menciptakan serangkaian  artikel yang sangat mencengangkan dan mudah dipahami yang memandu Anda melalui konsep dan kode aktual dari berbagai aspek pipa NLP, mulai dari analisis eksplorasi hingga prapemrosesan. Panduan sederhana dan halus ini sangat disarankan bagi Anda untuk bekerja sendiri dengan urutan sebagai berikut:

  • (1) Pengantar memuat, mensubsetting, dan memfilter data panda
  • (2) Gambaran Visualisasi Data
  • (3) Pengantar pemrosesan bahasa alami teks

 

2. Proyek NLP yang Komprehensif

Women Who Code akan memandu Anda selama proses pembuatan proyek NLP, dari intro dasar hingga konsep dan alur kerja NLP hingga proses analisis eksplorasi langkah demi langkah yang terperinci, bersama dengan kode proyek sumber terbuka, tayangan slide, dan sumber daya yang sesuai. Beberapa seri bisa mendapatkan begitu banyak pujian dari saya karena seri open source yang luar biasa dari lima kuliah video dari Anda.  Prapemrosesan, metode pengkodean yang berbeda, dan pembuatan dan evaluasi model.

Hah? Ya, Anda mendengar suara saya dengan benar.

Apa yang saya temukan ini di YouTube adalah seorang leprechaun yang mendapatkan jackpot pada Hari St. Patrick, dan rasanya seperti menyadari bahwa itu bukan pot koin emas yang saya temukan, tetapi sepanci raksasa hot pot pedas yang tidak pernah habis. (Hah?) Jika Anda terjebak di sebuah pulau, pot jauh lebih baik. Tapi saya ngelantur… Jika Anda ingin membuat proyek mini dengan panduan daripada bocah nakal ini, ada beberapa penawaran yang lebih baik yang bisa Anda dapatkan.

DR? Mari kita tautkan video dan kode lagi untuk menyoroti betapa hebatnya sumber daya ini! agresi pasif terhadap kemenangan >:))

 

3. Panduan ML Tambahan

Jika Anda lapar akan rasa  lain setelah #2, di sini, dan berikut adalah beberapa panduan dan sumber daya tambahan yang memungkinkan Anda menangani beberapa proyek dengan himpunan data yang tersedia dari repositori terbuka. Ada banyak di internet, jadi ayo berburu harta karun! Ingat motif yang  diulang-ulang?

 

Linguistik Komputasi Amerika Utara Terbuka (sebelumnya Olimpiade)

Hei, Anda telah menyelesaikan proyek pertama Anda! Sekarang, sebagai panduan eksplorasi yang ditujukan terutama untuk siswa sekolah menengah, ini adalah salah satu Olimpiade resmi Amerika Serikat, Amerika Utara Terbuka dalam Linguistik Komputasi (NACLO) (AMC untuk Matematika, CS Seiring dengan USACO dan lainnya) tidak akan lengkap tanpa menyebutkan – Olimpiade ini akan fokus pada teka-teki linguistik dengan penekanan khusus pada linguistik komputasional!

Hal yang hebat tentang NACLO adalah bahwa ia secara khusus menargetkan siswa sekolah menengah seperti Olympian lainnya, jadi Anda berasumsi bahwa Anda sama sekali tidak tahu apa-apa tentang CS atau linguistik (sebagai  semi-finalis NACLO, Anda tidak perlu khawatir tentang hal itu). Saya bisa membuktikannya. Saya pada dasarnya melakukan teka-teki mereka tanpa pengetahuan latar belakang apa pun. Dengan kata lain, Anda dapat menggunakan logika untuk memecahkan teka-teki murni sambil secara bersamaan menemukan aspek-aspek menarik dari NLP. Berikut adalah beberapa favorit saya tentang pemrosesan bahasa alami dan pembelajaran mesin.

  • (Bersih) Tidak ada yang lain selain bekerja
  • Lorut
  • fiksi penggemar
  • Ya bot
  • Varietas DAWG
  • Nomor Transisi (Al)

Sumber Daya Lainnya

Selamat sampai akhir!

Sebelum diakhiri dengan panduan eksplorasi ini, jika Anda ingin masuk lebih dalam, saya merekomendasikan panduan ini, yang ditulis oleh beberapa siswa sekolah menengah lain yang sangat berbakat yang memiliki tips yang sangat bagus tentang cara memulai AI / ML selama sekolah menengah (meskipun saya tidak mengenal siapa pun secara pribadi, saya kenal orang lain). Saya telah mereferensikan artikel mereka di web di masa lalu dan bidangnya adalah milik saya sendiri.

 

kesimpulan

Sementara saya bereksperimen dengan proyek saya sendiri, dan dalam program magang sains di Universitas Santa Cruz (UCSC SIP, sangat direkomendasikan!) Dalam kombinasi dengan program seperti itu, saya menemukan semua sumber daya di atas secara online. Dari penyelaman mendalam di industri YouTube hingga sumber daya hebat yang dibuat oleh siswa sekolah menengah lainnya tentang cara belajar, kemungkinannya tidak terbatas – dan itu benar-benar dapat didekati oleh remaja! Lihat semua iterasi di luar sana?

Jadi, tunggu apalagi? Jelajahi dan beri tahu saya bagaimana kelanjutannya! Jika Anda ingin tahu lebih banyak tentang siapa saya, baca sedikit tentang saya di sini atau terhubung dengan saya di sini. Dan akhirnya, jika Anda memiliki umpan balik atau saran, kami ingin mendengarnya di komentar!  ❤

 

 

Leave a Reply

Your email address will not be published.