Khóa Học Data Science Khóa Học Tự Nhiên, Trung Tâm Tin Học Đại Học Khoa Học Tự Nhiên

Mặc dù không có gì thực sự thay đổi nhưng những ngày đầu năm mới luôn mang đến cho chúng ta nhiều hy vọng với nhiều thứ mới mẻ hơn. Nếu bạn thêm một kế hoạch, một số mục tiêu rõ ràng và lộ trình học tập, bạn sẽ có một công thức tuyệt vời cho một năm đầy năng lượng.

Đang xem: Khóa học data science khóa học tự nhiên

Bài đăng này nhằm cung cấp cho bạn thông tin, tài nguyên và ý tưởng để giúp bạn xây dựng một danh mục học tập hoặc cải thiện kỹ năng chuyên môn của bạn trong khoa học dữ liệu.

Lưu ý: Lộ trình này dựa trên kinh nghiệm cá nhân của Harshit Tyagi, hiện đang Web và Data Science Consultant, về khoa học dữ liệu. Đây không phải là kế hoạch học tập tất cả và cuối cùng. Bạn có thể điều chỉnh lộ trình này để phù hợp hơn với bất kỳ lĩnh vực hoặc lĩnh vực nghiên cứu cụ thể nào mà bạn quan tâm. Ngoài ra, tác giả đề cập nhiều đến Python vì cá nhân anh thích nó hơn các ngôn ngữ lập trình khác.

Nội dung

1. Học về lập trình hoặc kỹ thuật lập trình2. Học về thu thập và sắp xếp dữ liệu (Data Collection & Wrangling)3. Học về Exploratory Data Analysis, Business Acumen, Storytelling4. Tìm hiểu về Kỹ thuật Dữ liệu5. Học về thống kê ứng dụng và toán học6. Học về Machine Learning và AI

Lộ trình học tập là gì?

Lộ trình học tập là một bản đồ kỹ năng với nhiều cấp độ, nhiều chi tiết về những kỹ năng bạn muốn trau dồi, cách bạn đo lường kết quả ở mỗi cấp độ và các kỹ thuật để thành thạo hơn nữa từng kỹ năng.

Trong lộ trình này bạn sẽ thấy trọng số cho từng cấp độ dựa trên mức độ phức tạp và tính phổ biến của ứng dụng trong thế giới thực. Bạn cũng tìm thấy thời gian ước tính cho người mới bắt đầu để hoàn thành mỗi cấp độ với các bài tập và dự án.

Dưới đây là kim tự tháp mô tả các kỹ năng cấp cao theo thứ tự phức tạp và ứng dụng của chúng trong ngành.

*

Lộ trình học data science theo thứ tự từ đơn giản đến phức tạp.

Mô hình trên là một cơ sở khuôn khổ mà chúng ta sẽ dựa vào đó để thiết lập lộ trình học tập cho mình. Chúng ta sẽ đi sâu vào từng tầng với các chi tiết cụ thể hơn, có thể đo lường được. Trong đó có đề cập cụ thể đến việc kiểm tra các kiến thức quan trọng và các nguồn lực cần thiết để nắm vững các chủ đề đó.

Bạn có thể đo lường kiến thức thu được bằng cách áp dụng các chủ đề đã học vào một số dự án trong thế giới thực. Bạn có thể tìm thấy một số ý tưởng dự án, cổng thông tin và nền tảng có thể sử dụng để đo lường mức độ thành thạo của mình.

1. Học về lập trình hoặc kỹ thuật lập trình

Ước tính thời gian cần: 2 – 3 tháng

Đầu tiên, hãy đảm bảo rằng bạn có kỹ năng lập trình. Mọi công việc liên quan đến khoa học dữ liệu đều yêu cầu kiến thức về lập trình trong ít nhất một ngôn ngữ.

Các chủ đề lập trình cụ thể cần biết

Cấu trúc dữ liệu phổ biến (data types, lists, dictionaries, sets, tuples), viết hàm, logic, luồng điều khiển, thuật toán tìm kiếm và sắp xếp, lập trình hướng đối tượng và làm việc với thư viện bên ngoài. Tập lệnh SQL: Truy vấn cơ sở dữ liệu bằng cách sử dụng các phép nối, tổng hợp và truy vấn con (joins, aggregations, and sub-queries)  Sử dụng tốt Terminal, công cụ kiểm soát phiên bản trong Git và sử dụng GitHub

Các nguồn tài liệu và khóa học về Python

Tài liệu học về Git và GitHub

Tài liệu học SQL

Kiểm tra kiến thức

Bạn có thể kiểm tra kiến thức chuyên môn của mình bằng cách giải quyết nhiều vấn đề và xây dựng ít nhất 2 dự án:

Trích xuất dữ liệu từ trang web / API endpoints- cố gắng viết tập lệnh Python trích xuất dữ liệu từ các trang web cho phép trích xuất như soundcloud.com. Lưu trữ dữ liệu được trích xuất vào tệp CSV hoặc cơ sở dữ liệu SQL. Viết các trò chơi như oẳn tù tì, kéo sợi, treo cổ, mô phỏng lăn xúc xắc, tic-tac-toe, v.v. Viết các ứng dụng web đơn giản như trình tải xuống video YouTube, trình chặn trang web, trình phát nhạc, trình kiểm tra đạo văn, v.v.

Triển khai các dự án này trên các trang GitHub hoặc chỉ cần lưu trữ mã trên GitHub để bạn học cách sử dụng Git.

2. Học về thu thập và sắp xếp dữ liệu (Data Collection & Wrangling)

Ước tính thời gian cần: 2 tháng

Một phần quan trọng của công việc khoa học dữ liệu là tập trung vào việc tìm kiếm dữ liệu phù hợp có thể giúp bạn giải quyết vấn đề của mình. Bạn có thể thu thập dữ liệu từ các nguồn hợp pháp khác nhau – cóp nhặt (nếu trang web cho phép), API, Cơ sở dữ liệu và các kho lưu trữ có sẵn công khai.Sau khi bạn có dữ liệu trong tay, nhà phân tích thường sẽ tự tìm cách làm sạch các tập dữ liệu (dataframes), làm việc với các mảng đa chiều, sử dụng tính toán mô tả / khoa học và thao tác với dataframes để tổng hợp dữ liệu.Dữ liệu hiếm khi sạch và được định dạng để sử dụng trong “thế giới thực”. Pandas và NumPy là hai thư viện cho phép bạn chuyển từ dữ liệu bẩn sang dữ liệu sẵn sàng phân tích.Khi bạn bắt đầu cảm thấy thoải mái khi viết các chương trình Python, hãy bắt đầu tham gia các bài học về cách sử dụng các thư viện như panda và numpy.

Các tài liệu và khóa học về tập hợp và làm sạch dữ liệu

Ý tưởng về dự án thu thập dữ liệu:

Chọn bất kỳ tập dữ liệu nào có sẵn công khai và xác định một bộ câu hỏi mà bạn muốn theo đuổi sau khi xem tập dữ liệu và domain. Thu thập dữ liệu để tìm ra câu trả lời cho những câu hỏi đó bằng cách sử dụng Pandas và NumPy.

3. Học về Exploratory Data Analysis, Business Acumen, Storytelling

Ước tính thời gian cần: 2-3 tháng

Một số thuật ngữ

Business Acumen: Nhạy bén kinh doanhData Storytelling: Kể chuyện bằng dữ liệu

Giai đoạn tiếp theo cần nắm vững là phân tích dữ liệu và kể chuyện. Rút ra thông tin chi tiết từ dữ liệu và sau đó truyền đạt thông tin tương tự bằng các thuật ngữ và hình ảnh hóa đơn giản là trách nhiệm cốt lõi của Nhà phân tích dữ liệu.

Phần kể chuyện đòi hỏi bạn phải thành thạo với việc trực quan hóa dữ liệu cùng với kỹ năng giao tiếp tốt.

Các chủ đề về phân tích dữ liệu thăm dò và dữ liệu kể chuyện

Phân tích dữ liệu thăm dò (Exploratory data analysis) : xác định câu hỏi, xử lý các giá trị bị thiếu, giá trị ngoại lai, định dạng, lọc, phân tích đơn biến và đa biến.Trực quan hóa dữ liệu (Data visualization): vẽ dữ liệu bằng các thư viện như matplotlib, seaborn và plotly. Biết cách chọn biểu đồ phù hợp để truyền đạt kết quả từ dữ liệu.

Xem thêm: Toán Lớp 5 Diện Tích Hình Tròn Trang 100, Toán Lớp 5 Trang 99, 100: Diện Tích Hình Tròn

Phát triển bảng điều khiển (dashboards ): phần lớn các nhà phân tích chỉ sử dụng Excel hoặc một công cụ chuyên dụng như Power BI và Tableau để xây dựng dashboard tóm tắt và tổng hợp dữ liệu nhằm giúp các nhà quản lý đưa ra quyết định.Nhạy bén kinh doanh (Business acumen): đưa ra những câu hỏi phù hợp, những câu hỏi thực sự nhắm mục tiêu đến các chỉ số kinh doanh. Thực hành viết báo cáo, blog và trình bày rõ ràng và ngắn gọn.

Tài liệu và khóa học về phân tích dữ liệu

Ý tưởng dự án phân tích dữ liệu

Phân tích khám phá trên tập dữ liệu điện ảnh để tìm công thức tạo phim có lợi nhuận (sử dụng nó làm nguồn cảm hứng), sử dụng tập dữ liệu từ y tế, tài chính, WHO, điều tra dân số trước đây, Thương mại điện tử, v.v.

4. Tìm hiểu về Kỹ thuật Dữ liệu

Ước tính thời gian cần: 4-5 tháng

Kỹ thuật dữ liệu hỗ trợ các nhóm R&D bằng cách cung cấp dữ liệu sạch cho các kỹ sư nghiên cứu và nhà khoa học tại các công ty dựa trên dữ liệu lớn. Bản thân nó là một lĩnh vực và bạn có thể quyết định bỏ qua phần này nếu bạn muốn chỉ tập trung vào khía cạnh thuật toán thống kê của các vấn đề.

Các trách nhiệm của một kỹ sư dữ liệu bao gồm xây dựng một kiến trúc dữ liệu hiệu quả, hợp lý hóa việc xử lý dữ liệu và duy trì các hệ thống dữ liệu quy mô lớn.

Các kỹ sư sử dụng Shell (CLI), SQL và Python / Scala để tạo ETL pipelines, tự động hóa các tác vụ hệ thống tệp và tối ưu hóa các hoạt động cơ sở dữ liệu để làm cho chúng có hiệu suất cao.

Một kỹ năng quan trọng khác là triển khai các kiến trúc dữ liệu này đòi hỏi sự thành thạo về các nhà cung cấp dịch vụ đám mây như AWS, Google Cloud Platform, Microsoft Azure, v.v.

Tài liệu để học Kỹ thuật dữ liệu

Ý tưởng dự án và chứng chỉ

5. Học về thống kê ứng dụng và toán học

Ước tính thời gian cần: 4-5 tháng

Phương pháp thống kê là một phần trung tâm của khoa học dữ liệu. Hầu hết tất cả các cuộc phỏng vấn khoa học dữ liệu chủ yếu tập trung vào thống kê mô tả và suy luận.

Đa phần mọi người thường bắt đầu viết code về các giải thuật machine learning mà không hiểu rõ về các phương pháp thống kê và toán học cơ bản giải thích hoạt động của các thuật toán đó. Tất nhiên, đây không phải là điều nên khuyến khích.

Các chủ đề chính về Thống kê ứng dụng (Applied Statistics) và toán học

Thống kê mô tả (Descriptive Statistics) – Tìm hiểu về các ước tính của vị trí (trung bình, trung vị, chế độ, thống kê có trọng số, thống kê được cắt bớt) và khả năng thay đổi để mô tả dữ liệu.Thống kê tham chiếu (Inferential statistics) – thiết kế kiểm tra giả thuyết, kiểm tra A / B, xác định số liệu kinh doanh, phân tích dữ liệu thu thập và kết quả thử nghiệm bằng cách sử dụng khoảng tin cậy, giá trị p và giá trị alpha.Đại số tuyến tính, phép tính đơn và đa biến (Linear Algebra, Single and multi-variate calculus) để hiểu các hàm mất mát, gradient và các trình tối ưu hóa trong học máy.

Tài liệu và khóa học về thống kê và toán

Ý tưởng dự án về thống kê

Giải các bài tập được cung cấp trong các khóa học ở trên và sau đó thử xem qua một số bộ dữ liệu công khai nơi bạn có thể áp dụng các khái niệm thống kê này. Đặt những câu hỏi như “Có đủ bằng chứng để kết luận rằng tuổi trung bình của các bà mẹ sinh con ở Boston là trên 25 tuổi với mức ý nghĩa 0,05” không?Cố gắng thiết kế và chạy các thử nghiệm nhỏ với các đồng nghiệp / nhóm / lớp của bạn bằng cách yêu cầu họ tương tác với một ứng dụng hoặc trả lời một câu hỏi. Chạy các phương pháp thống kê trên dữ liệu đã thu thập khi bạn có một lượng dữ liệu tốt sau một khoảng thời gian. Điều này có thể rất khó để thực hiện nhưng sẽ rất thú vị.Phân tích giá cổ phiếu, tiền điện tử và thiết kế giả thuyết xung quanh lợi nhuận trung bình hoặc bất kỳ số liệu nào khác. Xác định xem bạn có thể bác bỏ giả thuyết vô hiệu hay không bằng cách sử dụng các giá trị quan trọng.

6. Học về Machine Learning và AI

Ước tính thời gian cần: 4-5 tháng

Sau khi tự tìm hiểu và xem qua tất cả các khái niệm chính nói trên, bây giờ bạn nên sẵn sàng để bắt đầu với các thuật toán Machine Learning ưa thích.

Có ba kiểu học chính:

Học có giám sát (Supervised Learning ) – bao gồm các bài toán hồi quy và phân loại. Nghiên cứu hồi quy tuyến tính đơn giản, hồi quy bội, hồi quy đa thức, thuật toán Naive Bayes , hồi quy logistic, KNNs, mô hình cây, mô hình tổng hợp. Tìm hiểu về các chỉ số đánh giá.Học không giám sát (Unsupervised Learning )Phân cụm (Clustering) và giảm chiều dữ liệu ( dimensionality reduction) là hai ứng dụng được sử dụng rộng rãi của học không giám sát. Đi sâu vào PCA (Principal component Analysis), phân cụm K-mean, tạo cây phân cấp (hierarchical clustering) và mô hình gaussian hỗn hợp (gaussian mixtures).Học tập tăng cường (Reinforcement learning) – giúp bạn xây dựng hệ thống tự thưởng. Tìm hiểu cách tối ưu hóa phần thưởng, sử dụng thư viện TF-Agents, mô hình Deep Q-networks, v.v. Tuy nhiên bạn có thể bỏ qua phần này.

Tài liệu học về Machine Learning

Theo dõi tiến độ học tập

Bạn có thể sử dụng công cụ theo dõi học tập trên Notion được tạo sẵn ở đây . Bạn có thể tùy chỉnh nó theo nhu cầu của mình và sử dụng nó để theo dõi tiến trình của mình, dễ dàng truy cập vào tất cả các tài nguyên và dự án của bạn.

Xem thêm: Câu 1, 2, 3 Trang 83 Vở Bài Tập Toán Lớp 4 Trang 83 Tập 1, Vở Bài Tập Toán 4 Trang 83

Trên đây chỉ là tổng quan về phổ rộng của khoa học dữ liệu. Bạn có thể đi sâu vào từng chủ đề này và tạo kế hoạch cho riêng mình dựa trên khái niệm trong từng danh mục.

Bạn có thể xem bài gốc của Harshit Tyagi tại đây

Bạn có biết?

tham gia cộng đồng lingocard.vn trên Linkedin, Facebook và các kênh mạng xã hội khác có thể giúp bạn nhanh chóng tìm được những chủ đề phát triển nghề nghiệp và cập nhật thông tin về việc làm IT mới nhất Linkedin Page: https://bit.ly/Linkedinlingocard.vn Facebook Group: https://bit.ly/lingocard.vnvn cơ hội việc làm IT : lingocard.vn

Xem thêm bài viết thuộc chuyên mục: Khóa học