Mỗi ngày, các cá nhân và tổ chức tạo ra khoảng 2,5 tỷ gigabyte dữ liệu. Đơn cử, một ngày có trung bình có 5 tỷ video được đăng tải lên Youtube, mỗi giây có khoảng 40.000 lượt tìm kiếm google …. nhưng chỉ hơn 1% trong số dữ liệu khổng lồ đó được phân tích. Ai khai thác và tận dụng được kho thông tin quý giá này người đó sẽ thành công. Tuy nhiên, để phát huy tối đa sức mạnh của nguồn dữ liệu này cần sự góp sức lớn của các nhà khoa học dữ liệu, những người sẽ chuyển nguồn dữ liệu thô thành thông tin có giá trị.
Khoa học dữ liệu sẽ giúp doanh nghiệp giải quyết các vấn đề đang tồn đọng và phức tạp, giảm thiểu việc không hiệu quả, nâng cao dịch vụ khách hàng và tạo ra cơ hội mới. Khoa học dữ liệu là một lĩnh vực liên ngành liên quan đến việc nghiên cứu, tìm hiểu và trích rút thông tin/tri thức từ các tập (rất lớn) dữ liệu tồn tại dưới nhiều các định dạng khác nhau. Khoa học dữ liệu có ảnh hưởng rộng lớn và trực tiếp đến nhiều lĩnh vực nghiên cứu ứng dụng khác nhau: từ dịch máy, nhận dạng tiếng nói, robot, công cụ tìm kiếm, cho đến các ngành khoa học sinh học, y sinh, chăm sóc sức khỏe, khoa học xã hội và nhân văn.