5/5 (1)

Apa itu Data Sains?

Seberapa sering Anda pikir Anda tersentuh oleh Data Sains dalam beberapa bentuk atau lainnya? Menemukan jalan Anda ke artikel ini kemungkinan melibatkan sejumlah besar Data Sains(whooaa). Untuk sedikit menyederhanakan, saya akan menjelaskan apa arti Data Sains bagi saya.

“Data Sains adalah seni menerapkan metode analisis ilmiah untuk semua jenis data sehingga kita dapat membuka informasi penting.”

Itu seteguk. Jika kita membongkar itu, semua Data Sains yang sebenarnya berarti menjawab pertanyaan dengan menggunakan matematika dan sains untuk pergi melalui data yang terlalu banyak untuk diproses oleh otak kita.

Data Sains mencakup …

Pembelajaran mesin
Visualisasi data
Analisis prediktif
Asisten suara
… dan semua kata kunci yang kita dengar hari ini, seperti kecerdasan buatan, pembelajaran mendalam, dll.

Untuk menyelesaikan pemikiran saya tentang Data Sains yang digunakan untuk menemukan artikel ini, saya akan meminta Anda memikirkan langkah-langkah yang Anda gunakan untuk sampai ke sini. Demi penjelasan ini, mari kita asumsikan bahwa sebagian besar dari Anda sedang online melihat gambar anak kucing dan anak anjing ketika Anda tiba-tiba menemukan sebuah kata mewah yang berkaitan dengan Data Sains dan ingin tahu apa itu semua. Anda menoleh ke Google berharap untuk menemukan arti dari semua itu, dan Anda mengetik “Apa itu * isi kata kunci yang berhubungan dengan Data Sains Anda *.”

Anda akan memperhatikan bahwa Google berbaik hati untuk menawarkan saran untuk mempersempit istilah pencarian Anda – itu adalah pembuatan teks prediksi. Setelah hasil pencarian muncul, Anda akan melihat sebuah kotak di sebelah kanan yang merangkum hasil pencarian Anda – itu adalah grafik pengetahuan Google. Menggunakan wawasan dari SEO (Optimasi Mesin Pencari) Saya dapat memastikan artikel saya sampai pada Anda dengan mudah, yang merupakan kasus penggunaan Data Sains yang baik dalam dan dari dirinya sendiri. Semua ini adalah cara-cara kecil yang melibatkan Data Sains dalam hal-hal yang kita lakukan setiap hari.

Agar lebih jelas, ke depan saya akan menggunakan Data Sains sebagai istilah umum yang mencakup kecerdasan buatan, pembelajaran mendalam dan hal lain yang mungkin Anda dengar yang relevan dengan data dan sains.

Positif: astrofisika, biologi, dan olahraga


Data Sains membuat dampak positif yang sangat besar pada cara teknologi mempengaruhi kehidupan kita. Beberapa dampak ini sangat baik dan sebagian sebaliknya. * melihat Facebook * Tapi, teknologi tidak bisa baik atau buruk, teknologi adalah … teknologi. Cara kami menggunakannya yang memiliki hasil yang baik atau buruk.

Baru-baru ini kami memiliki terobosan dalam astrofisika dengan gambar lubang hitam pertama. Ini membantu fisikawan mengkonfirmasi lebih dari seabad kerja teori murni di sekitar lubang hitam dan teori relativitas.

Untuk menangkap gambar ini, para ilmuwan menggunakan teleskop sebesar bumi (Event Horizon Telescope atau EHT) dengan menggabungkan data dari array delapan teleskop radio berbasis darat dan memahami semuanya untuk membangun gambar. Menganalisis data dan kemudian memvisualisasikan data itu – terdengar seperti beberapa Data Sains di sini.

Catatan samping yang keren tentang hal ini: pustaka fungsi Python standar untuk Pencitraan EHT dikembangkan oleh Andrew Chael dari Harvard untuk mensimulasikan dan memanipulasi data VLBI (Interferometri garis dasar sangat panjang) yang membantu proses pembuatan gambar lubang hitam.

Olivier Elemento di Cornell menggunakan Big Data Analytics untuk membantu mengidentifikasi mutasi pada genom yang menyebabkan penyebaran sel tumor sehingga mereka dapat terbunuh lebih awal – ini adalah dampak data ilmu yang sangat positif terhadap kehidupan manusia. Anda dapat membaca lebih lanjut tentang penelitiannya yang luar biasa di sini.

Python digunakan oleh para peneliti di lab sambil menguji model statistik dan pembelajaran mesin. Keras, NumPy, Scipy, dan Scikit-learn adalah beberapa pustaka Python terbaik untuk ini.

Baca juga  Cara Memasang Lazy Load Google Adsense di Blog Wordpress

Jika Anda penggemar Liga Primer Inggris, Anda akan menghargai contoh Leicester City yang memenangkan gelar di musim 2015-2016.

Pada awal musim, bandar taruhan kemungkinan Leicester City memenangkan EPL 10 kali lebih kecil dari kemungkinan menemukan monster Loch Ness. Untuk upaya yang lebih rinci dalam menggambarkan pentingnya cerita ini, baca ini.

Semua orang ingin tahu bagaimana Leicester dapat melakukan ini, dan ternyata Data Sains memainkan peran besar! Berkat investasi mereka dalam analitik dan teknologi, klub dapat mengukur tingkat kebugaran dan kondisi tubuh pemain saat mereka berlatih untuk membantu mencegah cedera, semuanya menilai taktik terbaik untuk digunakan dalam permainan berdasarkan tingkat energi para pemain.

Semua sesi pelatihan memiliki rencana yang didukung oleh data nyata tentang para pemain, dan sebagai hasilnya Leicester City mengalami cedera pemain paling sedikit di semua klub musim itu.

Banyak tim top menggunakan analitik data untuk membantu kinerja pemain, mencari bakat, dan memahami cara merencanakan lawan tertentu.

Berikut ini contoh Python yang digunakan untuk membantu beberapa analisis sepakbola. Saya tentu berharap Chelsea F.C. akan menggunakan beberapa teknik ini untuk meningkatkan bentuk menyedihkan mereka dan membuat hidup saya sebagai penggemar lebih baik. Anda tidak perlu analitik untuk melihat bahwa Kante berada di posisi yang salah, dan Jorginho tidak boleh berada di tim itu dan … Oke saya ngelantur – kembali

Sekarang kita telah membahas beberapa hal luar biasa yang ditemukan oleh sains data, saya akan menyentuh beberapa hal negatif juga – penting untuk berpikir kritis tentang teknologi dan bagaimana pengaruhnya terhadap kita.

Jumlah yang mempengaruhi teknologi kehidupan kita akan semakin meningkat seiring waktu, dan kita tidak harus membatasi pemahaman kita tanpa menyadari implikasi positif dan negatif yang dapat dimilikinya.

Beberapa kekhawatiran saya mengenai ekosistem ini adalah privasi data (saya yakin kita semua memiliki banyak contoh yang terlintas dalam pikiran), bias dalam prediksi dan klasifikasi, dan dampak personalisasi dan iklan pada masyarakat.

Negatif: bias gender dan banyak lagi


Makalah ini diterbitkan dalam NIPS berbicara tentang bagaimana untuk melawan bias gender dalam kata embeddings sering digunakan dalam ilmu data.

Bagi mereka yang tidak terbiasa dengan istilah tersebut, embedding kata adalah cara yang cerdas untuk merepresentasikan kata sehingga jaringan saraf dan algoritma komputer lainnya dapat memprosesnya.

Data yang digunakan untuk membuat Word2Vec (model untuk embeddings kata yang dibuat oleh Google) telah menghasilkan bias gender yang menunjukkan hubungan erat antara “pria” dan kata-kata seperti “ilmuwan komputer”, “arsitek”, “arsitek”, “kapten”, dll. Sambil menunjukkan ” wanita “untuk berhubungan dekat dengan” ibu rumah tangga “,” pengasuh “,” perawat “, dll.

inilah kode Python yang digunakan oleh para peneliti yang menerbitkan makalah ini. Kemudahan penggunaan Python menjadikannya pilihan yang baik untuk beralih dari ide ke implementasi dengan cepat.

Tidak selalu mudah untuk mencegah bias seperti ini dari memengaruhi model kami. Kami bahkan mungkin tidak menyadari bahwa bias semacam itu ada dalam data yang kami kumpulkan.

Sangat penting bahwa fokus yang sama ditempatkan pada kurasi, verifikasi, pembersihan, dan sampai batas tertentu de-biasing data.

Saya akan mengakui bahwa tidak selalu layak untuk membuat semua dataset kami adil dan tidak memihak. Beruntung bagi kami, ada beberapa penelitian bagus yang diterbitkan yang dapat membantu kami memahami jaringan saraf kami dan algoritma lainnya sejauh kami dapat mengungkap bias laten ini.

Ketika datang ke Data Sains , selalu ingat –

“Sampah masuk sampah keluar.”

Data yang kami latih algoritma kami dengan memengaruhi hasil yang mereka hasilkan. Hasil yang mereka hasilkan sering dilihat oleh kami dan dapat memiliki pengaruh yang langgeng.

Kita harus menyadari dampak dari saran media sosial dan konten terhadap kita. Hari ini, kami memasuki lingkaran di mana kami mengkonsumsi konten yang memperkuat ide-ide kami dan menempatkan orang-orang di silo informasi.

Baca juga  Mengatasi The site is experiencing technical difficulties pada wordpress 5.2

Proyek-proyek penelitian yang memerangi disinformasi dan membantu orang keluar dari siklus penguatan sangat penting bagi masa depan kita. Jika Anda mencoba mencari solusi untuk masalah berita palsu ini, apa yang perlu kita lakukan?

Pertama-tama kita perlu membuat perkiraan yang akurat tentang apa yang merupakan berita “palsu”. Ini berarti membandingkan artikel dengan sumber berita terkemuka, melacak asal-usul sebuah cerita, dan memverifikasi bahwa penerbit artikel adalah sumber yang kredibel.

Anda perlu membuat model yang memberi tag informasi yang belum dikuatkan oleh sumber lain. Untuk melakukan ini secara akurat, orang akan membutuhkan banyak berita yang tidak “palsu” untuk melatih model tersebut. Setelah model tahu bagaimana mengidentifikasi apakah sesuatu itu benar (hingga tingkat kepercayaan yang dapat ditoleransi), maka model tersebut dapat mulai menandai berita yang “palsu.”

Kebenaran bersumber dari orang banyak juga merupakan cara yang bagus untuk mengatasi masalah ini, membiarkan kebijaksanaan orang banyak menentukan apa “kebenaran” itu.

Teknologi Blockchain cocok di sini dengan memungkinkan data mengalir dari orang-orang di seluruh dunia dan mencapai konsensus tentang beberapa kebenaran bersama.

Python adalah bahan yang memungkinkan semua teknologi dan konsep ini untuk bersatu dan membangun solusi kreatif.

Python, sebuah toolset data sains

Saya sudah bicara tentang Data Sains, apa artinya, bagaimana itu membantu kita, dan bagaimana hal itu berdampak negatif pada kita.

Anda telah melihat melalui beberapa contoh bagaimana Python adalah alat serbaguna yang dapat digunakan di berbagai domain, dalam industri dan akademisi, dan bahkan oleh orang-orang tanpa gelar dalam Ilmu Komputer.

Python adalah alat yang membuat penyelesaian masalah sulit sedikit lebih mudah. Apakah Anda seorang ilmuwan sosial, analis keuangan, peneliti medis, guru, atau siapa pun yang perlu memahami data, Python adalah satu hal yang Anda butuhkan di kotak alat Anda.

Karena Python adalah open source, siapa pun dapat berkontribusi pada komunitas dengan menambahkan fungsionalitas keren ke bahasa dalam bentuk pustaka Python.

Pustaka visualisasi data seperti Matplotlib dan Seaborn sangat bagus untuk merepresentasikan data dengan cara yang mudah dimengerti. NumPy dan Pandas adalah perpustakaan terbaik untuk memanipulasi data. Scipy penuh dengan metode ilmiah untuk analisis data.

Apakah Anda ingin membantu memerangi perubahan iklim, menganalisis tim olahraga favorit Anda atau hanya mempelajari lebih lanjut tentang Data Sains , kecerdasan buatan, atau kata kunci favorit Anda berikutnya – Anda akan menemukan tugas yang ada jauh lebih mudah jika Anda mengetahui beberapa Python dasar.

Berikut adalah beberapa pustaka Python yang bagus untuk melengkapi diri Anda dengan:

  • NumPy
  • Pandas
  • Scikit-Learn
  • Keras
  • Matplotlib

Saya akan menggambarkan contoh betapa mudahnya memulai dengan Data Sains menggunakan Python. Berikut adalah contoh sederhana tentang bagaimana Anda dapat menggunakan Scikit-Learn untuk beberapa analisis data yang bermakna.

Contoh Python dengan Scikit-learn

Kode ini tersedia di repositori Blog Layang-layang Blog.

Saya telah menggunakan salah satu dataset Scikit-Learn yang disebut Iris, yang merupakan kumpulan data yang terdiri dari 3 jenis iris yang berbeda (Setosa, Versicolour, dan Virginica) kelopak dan panjang sepal, disimpan dalam numpy.ndarray 150×4. Baris adalah sampel dan kolom adalah: Panjang Sepal, Lebar Sepal, Panjang Petal, dan Lebar Petal.

Saya akan menjalankan regresi linier sederhana untuk menampilkan korelasi antara panjang lebar daun bunga. Satu-satunya perpustakaan yang digunakan di sini adalah scikit-learning (untuk regresi dan kumpulan data) dan matplotlib untuk merencanakan.

from sklearn import datasets, linear_model
import matplotlib.pyplot as plt

iris = datasets.load_iris()

# Data and features are both numpy arrays
data = iris.data
features = iris.feature_names

Sekarang, kami akan merencanakan regresi linier antara panjang dan lebar kelopak untuk melihat bagaimana mereka berkorelasi.

# Create the regression model
regression = linear_model.LinearRegression()

# Reshape the Numpy arrays so that they are columnar
x_data = data[:, 2].reshape(-1, 1)
y_data = data[:, 3].reshape(-1, 1)

# Train the regression model to fit the data from iris (comparing the petal width)
regression.fit(x_data, y_data)


# Display chart
plt.plot(x_data, regression.predict(x_data), color='black', linewidth=3)
plt.scatter(x_data, y_data)
plt.show()

Inilah tutorial yang saya buat untuk mempelajari NumPy, dan inilah buku catatan yang menunjukkan bagaimana Keras dapat digunakan untuk dengan mudah membuat jaringan saraf. Hanya sebanyak ini akan memungkinkan Anda untuk membangun beberapa model keren.

Baca juga  Cara Menghilangkan Auto Ads Adsense dibawah Footer

Pikiran penutup

Sebelum saya berakhir, saya ingin membagikan beberapa ide saya sendiri tentang bagaimana masa depan sains data.

Saya senang melihat bagaimana keprihatinan atas privasi data pribadi membentuk evolusi Data Sains. Sebagai masyarakat, sangat penting bagi kami untuk memperhatikan masalah ini dengan serius dan memiliki kebijakan yang mencegah pengumpulan data kami di tangan para pelaku komersial.

Ketika saya berjalan-jalan di sekitar San Francisco, saya kagum pada jumlah mobil yang saya lihat dengan 500 kamera dan sensor pada mereka, semua berusaha untuk menangkap informasi sebanyak mungkin sehingga mereka dapat menjadi mobil yang bisa menyetir sendiri. Semua data ini sedang dikumpulkan, disimpan, dan sedang digunakan. Kami adalah bagian dari data itu.

Ketika kita semakin dekat ke masa depan di mana mobil yang dikendarai sendiri menjadi bagian yang lebih besar dari hidup kita, apakah kita ingin semua data itu naik di awan? Apakah kami ingin data tentang hal-hal yang kami lakukan di dalam mobil kami tersedia untuk Tesla, Cruise atau Alphabet (Waymo)?

Pasti bagus bahwa algoritma ini dilatih dengan data sebanyak mungkin. Mengapa kita mempercayai mobil yang belum cukup terlatih? Tetapi itu tidak seharusnya mengorbankan privasi kita.

Alih-alih menimbun data pribadi orang di server cloud “aman”, analisis data akan dilakukan sendiri. Ini berarti bahwa alih-alih data pribadi yang meninggalkan perangkat pengguna, itu akan tetap di perangkat dan algoritma akan berjalan di setiap perangkat.

Banyak perkembangan sedang terjadi di bidang Zero Knowledge Analytics yang memungkinkan data dianalisis tanpa perlu melihat apa data itu. Federated Learning memungkinkan orang untuk berkontribusi dalam pelatihan Neural Networks tanpa data mereka meninggalkan perangkat mereka.

Konvergensi teknologi blockchain dan Data Sains akan mengarah pada beberapa perkembangan menarik lainnya. Dengan menghubungkan orang-orang dan perangkat di seluruh dunia, blockchain dapat menyediakan platform yang sangat baik untuk komputasi terdistribusi, berbagi data, dan verifikasi data. Alih-alih beroperasi pada informasi dalam silo, itu dapat dibagikan dan dibuka untuk semua orang. Golem adalah salah satu contohnya.

Hypernet adalah proyek yang lahir dari Stanford untuk memecahkan masalah besar bagi para ilmuwan – bagaimana mendapatkan kekuatan komputasi yang cukup untuk menjalankan simulasi komputasi dan data intensif.

Alih-alih menunggu satu-satunya komputer di universitas dengan bandwidth untuk menyelesaikan tugas dan melalui proses mendapatkan izin untuk menggunakannya, Hypernet memungkinkan pengguna untuk meningkatkan blockchain dan komunitas besar orang dengan sumber daya komputasi cadangan dengan mengumpulkan mereka bersama-sama untuk menyediakan platform yang dibutuhkan untuk tugas-tugas intensif.

Jaringan saraf untuk waktu yang lama terasa seperti sulap. Mereka melakukan pekerjaan dengan baik, tetapi kami tidak begitu yakin mengapa. Mereka memberi kita jawaban yang benar, tetapi kita tidak bisa tahu caranya. Kita perlu memahami algoritma yang akan membangun masa depan kita.

Menurut DARPA, “gelombang ketiga” AI akan tergantung pada model kecerdasan buatan yang dapat menjelaskan keputusan mereka kepada kami. Saya setuju, kita tidak seharusnya bergantung pada keputusan yang dibuat oleh AI.

Saya senang dengan apa yang ada di masa depan bagi kita. Privasi, kebenaran, keadilan, dan kerja sama akan menjadi pilar masa depan Data Sains terbentuk.

Original articles https://kite.com/blog/python/future-of-data-science/

Mohon beri rating

LEAVE A REPLY

Please enter your comment!
Please enter your name here

3 × 4 =