Mentor Nguyễn Hải Nam hiện là cố vấn kỹ thuật của Nhà thông minh LUMI. Là thạc sĩ Khoa học máy tính tại đại học UNICAS (Ý), anh từng đảm nhiệm vị trí Kỹ sư tối ưu tại VNPT và AI R&D Team Leader tại ASILLA Japan, một start-up chuyên về AI trong lĩnh vực y tế.
Trong buổi talk lần này, Mentor Hải Nam đã giới thiệu với khán giả các kỹ năng nền tảng để học Khoa học dữ liệu; các kiến thức chung cần thiết với bất cứ chuyên ngành nào trong Data science; kiến thức riêng của từng chuyên ngành; các nguồn tài nguyên hữu ích; cũng như các bí kíp riêng của cá nhân anh.
Để theo đuổi lĩnh vực đầy thử thách này, cần có tiếng Anh tốt, ít nhất từ 5.5 IELTS hoặc 600-650 TOEIC trở lên. Kiến thức về hệ điều hành, chủ yếu là Linux, khả năng làm việc với server, điều khiển máy tính thông qua cửa sổ giao diện dòng lệnh cũng hết sức cần thiết.
Một yếu tố tiên quyết khác là kiến thức về toán, cụ thể là đại số tuyến tính, xác suất thống kê, giải tích. Xác suất thống kê là kiến thức nền tảng quan trọng nhất của Data science vì những mô hình dự báo, mô tả… tất cả những mô hình về Data Science hiện tại đang được xây dựng dựa trên hai nền tảng chính: mô hình thống kê cổ điển, và mô hình học máy. Những người đi theo Big Data và Kỹ sư AI sẽ rất cần đến đại số tuyến tính cần dùng đến vector để tính toán. Thay vào đó, với người đi sâu vào mảng tối ưu, giải tích là không thể thiếu. Mentor Nam gợi ý cho khán giả các khóa học tương ứng trên Khan Academy và dự tính cần đến 75 tiếng mỗi môn để có thể đạt đến trình độ trung bình.
Cuối cùng, người học cần có kiến thức nền tảng về lập trình vững chắc, cụ thể là các ngôn ngữ như Python, Java, Scala, SQL; lập trình hướng đối tượng; cấu trúc dữ liệu và giải thuật. Các bạn có thể thực hành trên Hackerrank, Codefight; thảo luận trên Stackoverflow, Reddit; và sẽ cần đến 160 giờ để nắm vững mỗi môn.
Diễn giả nhấn mạnh kiến thức này không thể bị bỏ qua. Những bạn không có một nền tảng vững vàng sẽ gặp phải giới hạn nhất định không thể vượt qua, vì một khi đi sâu, Khoa học dữ liệu không phải chỉ có thực tiễn mà cần rất nhiều nghiên cứu. Khuyết thiếu một nền tảng cơ bản vững chắc, bạn sẽ không thể đi xa trong lĩnh vực công nghệ đầy thử thách này.
Dù đi theo ngạch nào trong Data science, người học cũng cần hiểu về toàn bộ chu trình của một dự án Data science (đã được mentor Nam giới thiệu trong talk 4), phân tích dữ liệu với Python; SQL, và Học máy cơ bản. Phần cuối là một phần có thể tạo ra nhiều giá trị nhưng khá khó, chỉ sau khi đã đi sâu vào thực tiễn thì mới có nhiều ứng dụng.
Bên cạnh những kiến thức chung, từng ngạch của Khoa học dữ liệu cũng cần có những chuyên môn riêng. Cụ thể, Học máy (Machine learning) cần kiến thức về Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semi-supervised learning), cung cấp qua các sách về Học máy cơ bản. Người học sẽ cần khoảng 200 giờ để có thể nắm vững những kiến thức này. Python cũng là một yếu tố quan trọng trong lĩnh vực này, có thể học qua Course’s Lab, Sklearn library, Kaggle…
Học sâu (Deep Learning) cần kiến thức về Thị giác máy tính (tác vụ liên quan đến mắt), Xử lý ngôn ngữ tự nhiên (tác vụ liên quan đến chữ viết, đọc, nghe, cảm nhận về ngôn ngữ), các framework liên quan đến GPU (Tensorflow, Keras, Pytorch, Cafe).
Phân tích dữ liệu (Data analysis) cần kiến thức về phân tích dữ liệu khám phá (EDA), trực quan hóa, phân tích dữ liệu với tableau, và Học máy.
Big Data cần kiến thức về hệ thống dữ liệu (SQL, DBMS); Kho dữ liệu (Data warehousing) và các công cụ ETL, công nghệ xoay quanh Hadoop (Hbase, Hive, MapReduce, etc); hệ điều hành và đám mây; Học máy.
Mentor Nguyễn Hải Nam gợi ý cho khán giả các nguồn tài nguyên như: Kaggle, Git, Machine Learning cơ bản, Medium, Towards Data Science. Đồng thời anh cũng chia sẻ về những bí quyết mình đã tích góp trong quá trình học: kỹ năng quản lý thời gian Pomodoro (chia công việc thành những khoảng thời gian ngắn dài chừng 25 phút với những quãng nghỉ ngắn ở giữa), kỹ thuật ghi chép…
Được về nhu cầu tuyển dụng ngành Khoa học dữ liệu, mentor Nam cho rằng trong vòng 5 năm tới, số lượng tuyển dụng vẫn sẽ chỉ bằng 1/10, thậm chí 1/20 so với các lĩnh vực như làm web, mobile. Nhưng bù lại, các bạn sẽ có cơ hội rất lớn vì có ít đối thủ cạnh tranh và lương rất cao.
Anh cũng khuyên các bạn trẻ, để có thể quyết định theo đuổi ngạch nào trong Data science, hãy làm một dự án thực tế, một bài toán đủ lớn để theo trong 6-12 tháng nhằm lấy trải nghiệm và cập nhật kiến thức.
Trả lời câu hỏi của một khán giả về khả năng theo đuổi Data science ở độ tuổi 45, anh Nam cho rằng, điều này còn tùy thuộc vào hoàn cảnh của mỗi người. Nếu không có ràng buộc trong cuộc sống thì cá nhân anh cho rằng đây là một lĩnh vực đáng để liều lĩnh “dấn thân” ngay cả ở độ tuổi 45.
Xem video buổi talk tại đây:
>>> Nếu bạn đang có nhu cầu học lập trình trực tuyến, tìm hiểu ngay tại đây:
>>> Xem thêm các chủ đề hữu ích:
- Tất cả những điều bạn cần biết về khóa học lập trình tại FUNiX FPT
- 5 Điểm đáng chú ý tại khóa học lập trình trực tuyến FPT – FUNiX
- Từ A-Z chương trình học FUNiX – Mô hình đào tạo lập trình trực tuyến số 1 Việt Nam
- Lý do phổ biến khiến học viên nước ngoài chọn FUNiX
- Lưu ý để học blockchain trực tuyến hiệu quả cao tại FUNiX
- Lý do nữ giới nên chọn FUNiX để học chuyển nghề IT
- FUNiX trở thành đối tác của Liên minh Blockchain Việt Nam
- 3 lý do bạn trẻ nên học blockchain trực tuyến ở FUNiX
Vân Nguyễn