Thông tin dữ liệu là gì cho ví dụ

Thông tin dữ liệu là gì cho ví dụ
Tìm x X2−4+(x−2)(3−2x)=0 (Tin học - Lớp 8)

Thông tin dữ liệu là gì cho ví dụ

3 trả lời

Chọn đáp án đúng nhất (Tin học - Lớp 4)

1 trả lời

Chọn đáp án đúng nhất (Tin học - Lớp 4)

1 trả lời

Chọn đáp án đúng nhất (Tin học - Lớp 4)

1 trả lời

Tính (Tin học - Đại học)

1 trả lời

Dữ liệu là gì? big data là gì? các loại dữ liệu và cách sử dụng. Cách biểu diễn thông tin trong máy tính

Kể từ khi phát minh ra máy tính, con người đã sử dụng thuật ngữ dữ liệu để chỉ thông tin máy tính, và thông tin này được truyền đi hoặc lưu trữ. Nhưng đó không phải là định nghĩa dữ liệu duy nhất; cũng tồn tại các loại dữ liệu khác. Vậy, dữ liệu là gì? Dữ liệu có thể là văn bản hoặc số được viết trên giấy tờ, hoặc nó có thể là byte và bit bên trong bộ nhớ của các thiết bị điện tử, hoặc nó có thể là các dữ kiện được lưu trữ bên trong tâm trí của một người.

Dữ liệu (data) là chuỗi bất kỳ của một hoặc nhiều ký hiệu có ý nghĩa thông qua việc giải thích một hành động cụ thể nào đó. Dữ liệu cần phải được thông dịch để trở thành thông tin. Để dữ liệu thành thông tin, cần xem xét một số nhân tố bao gồm người tạo ra dữ liệu và thông tin được mong muốn từ dữ liệu đó. (Nguồn Wikipedia)

Bây giờ, nếu chúng ta nói về dữ liệu chủ yếu trong lĩnh vực khoa học, thì câu trả lời cho “dữ liệu là gì” sẽ là dữ liệu là các loại thông tin khác nhau thường được định dạng theo một cách cụ thể.

Dữ liệu máy tính là gì?

Dữ liệu máy tính là thông tin xử lý hoặc lưu trữ bởi một máy tính. Thông tin này có thể ở dạng tài liệu văn bản, hình ảnh, đoạn âm thanh, chương trình phần mềm hoặc các dạng dữ liệu khác. … Điều này cho phép truyền dữ liệu từ máy tính này sang máy tính khác bằng kết nối mạng hoặc các thiết bị đa phương tiện khác nhau.

Các kiểu dữ liệu phổ biến bao gồm:

  • Số nguyên
  • Số dấu phẩy động
  • Ký tự
  • Chuỗi
  • Boolean
  • Âm thanh
  • Hình ảnh

Để đạt được hiệu quả cao khi xử lý, lưu trữ và truyền thông tin điều cần thiết là phải tìm cách tổ chức và biểu diễn (thể hiện) thông tin trong MTĐT một cách hợp lý. Như đã biết, dữ liệu là hình thức biểu diễn thông tin. Vậy đối với máy tính dữ liệu chính là các thông tin đã được mã hoá dưới dạng số nhị phân. Dữ liệu – thông tin được máy tính xử lý có thể có các dạng khác nhau.

Máy tính có thể tính toán trên các số, có thể xử lý thông tin chữ hay thông tin logic, có thể xử lý những thông tin đa phương tiện (multimedia) như âm thanh và hình ảnh. Máy tính còn có thể xử lý tri thức (knowledge).

Thông tin về một đối tượng có thể rất phức tạp và có thể được thể hiện bằng nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin về một cán bộ có thể có tên, nơi sinh là văn bản; ngày sinh, lương là số; ảnh chân dung là ảnh…

Để lưu trữ trong MTĐT cả dữ liệu số, phi số và tri thức đều được mã hóa bằng các mã nhị phân. Theo nghĩa đó mọi dữ liệu dù là bản chất có khác nhau nhưng đều được số hoá.

Dữ liệu kiểu số

Biểu diễn số dấu phảy tĩnh

Với kiểu biểu diễn số dấu phảy tĩnh, người ta chọn một độ rộng n bít nào đó cho một số. Trong n bit này, bít đầu tiên dùng để mã dấu của số theo cách bít 0 dùng để mã dấu dương, bít 1 dùng để mã dấu âm. Trong n-1 bít còn lại, lấy một số bít cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 bít sau nếu ta dùng 7 bít cho phần nguyên và 8 bít cho phần lẻ và một bít cho dấu thì biểu diễn sau thể hiện số 1100101,11011011

Thông tin dữ liệu là gì cho ví dụ
Biểu diễn số dấu phảy tĩnh fixed point number

Do với mỗi kiểu biểu diễn đã chọn, vị trí dấu phảy mang tính quy ước nằm ở một vị trí cố định nên kiểu biểu diễn này gọi là kiểu dấu phảy tĩnh.

Trên thực tế đa số các môi trường xử lý quy ước dấu phảy đứng sau ô cuối cùng có nghĩa là chỉ áp dụng chế độ dấu phảy tĩnh cho số nguyên. Độ dài của biểu diễn tuỳ thuộc vào nhu cầu. Các số nguyên thường dùng chủ yếu có các loại độ dài 8 bit, 16 bít và 32 bit.

Mã số nguyên trình bày trên đây được gọi là mã thuận. Thực ra để tiện cho việc thực hiện các phép tính đại số, người ta còn sử dụng nhiều loại mã số nguyên khác như mã ngược, mã bù…mà ta sẽ không trình bày ở đây.

Biểu diễn số dấu phảy động

Thông tin dữ liệu là gì cho ví dụ
Biểu diễn số dấu phảy động – floating point number

Biểu diễn dấu phảy tĩnh không đáp ứng được một số nhu cầu, đặc biệt trong tính toán gần đúng. Đối với các bài toán tính gần đúng người ta có thể chấp nhận những sai số là lớn về tuyệt đối nhưng tỉ số của sai số trên giá trị thực của số là nhỏ (sai số tương đối).

Mặt khác cách biểu diễn số trong dấu phảy tĩnh không đủ mềm dẻo để thể hiện các số quá lớn hoặc quá bé. Đã từ lâu, khi có nhu cầu tính toán gần đúng trên máy tính người ta thường dùng một loại biểu diễn số khác là biểu dấu phảy động.

Dữ liệu phi số

Mã hoá chữ và dữ liệu kiểu văn bản.

Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu theo nghĩa rộng, không chỉ là các chữ cái la tinh mà kể cả chữ số, các dấu chính tả, các dấu toán học, các kí hiệu để trình bày. Mặt khác không phải dân tộc nào cũng dùng chữ latinh nên đối với một số dân tộc có thể có những chữ riêng. Ví dụ bộ chữ Trung hoa có đến hơn 60 nghìn chữ.

Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa chữ cái thông thường (letter) với “chữ” dùng trong văn bản nói chung kể cả văn bản máy tính, từ đây trở đi chúng ta sẽ dùng thuật ngữ ký tự (character) với ý nghĩa là một ký hiệu dùng trong văn bản.

Nếu dùng một vùng nhớ k bit để mã hoá một chữ thì chỉ có thể biểu diễn được tối đa là 2k kí tự vì chỉ có thể tạo được đúng 2K các mã nhị phân khác nhau. Điều này giải thích tại sao người Mỹ chỉ cần 7 bit để mã cho các chữ của họ; để có thêm các mặt chữ châu Âu, chữ Hy lạp và một số ký hiệu trình bày cũng chỉ cần 8 bít; trong khi đó người Trung hoa hay người Nhật phải dùng các mã 16 bít.

Các văn bản được hình dung như một chuỗi kí tự. Nội dung một cuốn sách, một bài thơ được đưa vào máy tính là những ví dụ cụ thể về thông tin văn bản. Hầu hết các máy tính và môi trường lập trình hiện nay đều sử dụng một byte để mã hoá một chữ.

Các dữ liệu logic

Dữ liệu loại logic chỉ thể hiện một trong hai trạng thái đối lập là đúng/sai, hoặc có/không.

Điều này ta thường thấy trong rất nhiều loại hồ sơ. Ví dụ trong lý lịch cá nhân: họ tên, quê quán là dữ liệu kiểu văn bản, ngày tháng năm sinh, lương có thể thể hiện bằng số, còn các thông tin như có là đoàn viên không, có gia đình hay không là các thông tin có kiểu logic.

Các thông tin kiểu logic chịu tác động của các phép toán đặc trưng như các phép toán so sánh, các phép toán nhân logic “và”, cộng logic “hoặc” hay phủ định logic “không” ví dụ trong một hệ thống quản lý sinh viên người ta có thể phải đặt các câu hỏi như: In ra danh sách các sinh viên (mà) tuổi < 20 hoặc tuổi <21 và là nữ và là đoàn viên và không phải nơi sinh là Hà Nội.

Về nguyên tắc có thể mã giá trị sai hay không bởi bít 0, giá trị đúng hay có bởi bít 1. Tuy nhiên ít khi người ta sử dụng tới mức bít vì cơ chế địa chỉ hoá thường ít nhất ở mức byte. Khi đó người ta vẫn dùng một byte để mã hoá các giá trị logic.

Dữ liệu hình ảnh

Hình ảnh cũng có thể xử lý bằng máy tính. Khác với hình ảnh thông thường, hình ảnh trong máy tính được mã hoá dưới dạng nhị phân. Có rất nhiều kiểu mã hoá ảnh trong đó hai kiểu thông dụng nhất.

Ảnh bitmap

Thông tin dữ liệu là gì cho ví dụ
Ảnh bitmap

Ảnh bitmap (nghĩa là bản đồ các bít) thể hiện ảnh như một lưới điểm. Như vậy mỗi điểm sẽ phải nằm trong một hàng và một cột nào đó trong lưới, ngoài ra màu của điểm cũng được mã hoá. Các ảnh khí tượng do các vệ tinh chụp gửi về, ảnh phong cảnh, chân dung đều có thể thể hiện theo kiểu này. Ta cũng có thể đưa một ảnh bất kỳ vào máy dưới dạng bitmap bằng máy quét ảnh (scanner), máy quay video số (digital video camera) hay máy chụp ảnh số (digital camera)…

Nói chung dữ liệu ảnh bitmap là dữ liệu lớn. Vì vậy, người ta thường sử dụng các kỹ thuật nén ảnh trước khi đưa vào máy lưu trữ và khôi phục ảnh khi trình bày.

Có rất nhiều chuẩn ảnh khác nhau, chủ yếu khác nhau ở cách tổ chức để nén được ảnh mà vẫn giữ được chất lượng và thể hiện được các hiệu ứng ảnh. Còn lúc hiển thị để xem thì ảnh sẽ được khôi phục dưới dạng bitmap. Ảnh thể hiện theo từng điểm còn gọi là ảnh raster.

Ảnh vector

Kiểu thứ 2 thể hiện ảnh theo cách vẽ. Kiểu này chỉ phù hợp với các ảnh có thành phần là các điểm rời rạc, các đường hoặc hình thể hiện bằng các đường biên như bản vẽ kiến trúc, các bản vẽ kỹ thuật, bản đồ. Cách lưu trữ là lưu thông tin về các thành phần của ảnh.

Đối với một đoạn thẳng thì chỉ lưu toạ độ các đầu mút, đối với một hình tròn thì chỉ lưu toạ độ tâm và bán kính… Vì thế các ảnh này thường gọn gàng và dễ phóng to thu nhỏ (vì chỉ dùng các phép biến đổi toạ độ). Các ảnh kiểu này gọi là ảnh vector.

Dữ liệu âm thanh

Âm thanh cũng có thể được xử lý bằng máy tính. Cũng có nhiều phương pháp mã hoá âm thanh. Cách đơn giản nhất là mã hoá bằng cách xấp xỉ dao động sóng âm bằng một chuỗi các byte thể hiện biên độ dao dộng tương ứng theo từng khoảng thời gian bằng nhau. Dĩ nhiên các đơn vị thời gian này cần phải đủ nhỏ để không làm nghèo âm thanh. Đơn vị thời gian này gọi là chu kỳ lấy mẫu.

Hình vẽ minh hoạ cách lưu trữ xấp xỉ sóng âm, theo đó sẽ lưu lại dãy các giá trị sau:

Thông tin dữ liệu là gì cho ví dụ
Dữ liệu âm thanh

Khi phát, một mạch điện sẽ khôi phục lại sóng âm với một sai lệch chấp nhận được.

Một cách khác là phân tích dao động âm thanh thành tổng các dao động điều hoà (các dao động hình sinh với tần số và biên độ khác nhau) và chỉ lưu lại các đặc trưng về tần số, và biên độ.

Còn có nhiều cách mã hoá âm thanh dựa theo những nguyên lý nén dữ liệu rất hiệu quả.

Việc số hoá âm thanh cũng được thực hiện nhờ các thiết bị chuyên dụng.

Xử lý âm thanh trên máy tính gồm những việc sau:

  1. Thu và mã hoá âm thanh
  2. Biên tập (sửa chữa, ghép, cắt)
  3. Phân tích (tìm các đặc trưng để nhận dạng tiếng nói). Một số máy tính đã có thể nghe được các lệnh đơn giản. Các máy điện thoại di động hiện nay đã có khả năng nhận dạng tiếng nói
  4. Tổng hợp tiếng nói. Ở mức độ đơn giản máy tính có thể đọc văn bản thành lời.

Biểu diễn vật lý của thông tin trong máy tính

Đối với bộ nhớ trong, các thông tin dữ liệu sau khi mã hoá dưới dạng nhị phân được đưa vào bộ nhớ theo quy ước. Mỗi ngăn của ô nhớ sẽ lưu giữ một trong hai trạng thái được quy ước là một trong hai bit 0 hoặc 1.

Với đĩa từ, người ta không ghi mã hoá bit 0 hay 1 theo chiều của từ thông của các vùng nhiễm từ. Vấn đề là khi đọc, đầu đọc trên nguyên tắc cảm ứng từ chỉ có thể cảm nhận được các trạng thái khác nhau qua sự biến thiên của từ trường. Nếu dùng chiều của từ thông để mã hoá thì không thể phân biệt được các bít giống nhau đứng liền nhau. Thông thường các bít được ghi theo kiểu điều tần. Các bít được thể hiện qua các kiểu biến thiên của từ trường chứ không phải chiều của từ thông một vùng nhiễm từ trên đĩa. Thực ra cách ghi trên đĩa từ khá phức tạp vì người ta không những chỉ ghi dữ liệu mà còn có các thông tin về địa chỉ và các thông tin đồng bộ giúp cho việc đọc thông tin được chính xác.

Truyền tin giữa các máy tính như thế nào?

Người ta muốn truyền các bít từ máy này đến máy khác và cách đơn giản nhất là phân biệt các bit bằng điện áp, ví dụ điện áp 5v để thể hiện bít 1, điện áp -5v thể hiện bit 0.

Thực tế không bao giờ có thể truyền và nhận các tín hiệu dưới dạng các xung vuông mà bao giờ khi chuyển từ mức điện áp nọ đến mức điện áp kia cũng có những giai đoạn điện áp nhận những giá trị trung gian. Không những thế còn rất nhiều ảnh hưởng khác làm tín hiệu lúc nhận khác với tín hiệu mức thu như sự suy yếu tín hiệu làm biên độ thay đối, hình dạng tín hiệu thay đổi – bị méo và đường cong tín hiệu không trơn như lúc đầu do nhiễu. Những vấn đề này cần được khắc phục bằng các mạch vật lý.

Thể hiện các bít bằng mức điện áp chỉ là một cách điều chế tín hiệu mà ta gọi là điều biên. Còn có các phương pháp điều chế tín hiệu khác gọi là điều tần theo đó, các bít thể hiện bằng sự thay đổi tần số của tín hiệu và phương pháp điều pha theo đó các bít được thể hiện bằng pha của tín hiệu hình sin. Người ta cũng kết hợp cả nhiều cách điều chế để có thể tăng tốc độ truyền tin.

Thông tin dữ liệu là gì cho ví dụ
Điều chế tín hiệu

Một trong các thiết bị cho phép truyền tin giữa các máy qua mạng điện thoại là modem. Tên “modem” có nguồn gốc từ cặp từ “modulation – demodulation” nghĩa là điều chế và giải điều chế. Các dữ liệu truyền ra từ một máy tính sẽ được modem điều chế thành tín hiệu tương tự và gửi đi theo đường điện thoại. Modem nhận sẽ giải điều chế từ tín hiệu tương tự thành các bít chuyển cho máy tính nhận.

Một cách mã hoá để truyền trong modem là kết hợp điều biên và điều pha cho phép có thể truyền tin với tốc độ cao hơn tần số của sóng mang.

Còn rất nhiều kiểu truyền thông khác như truyền thông nhờ các môi trường không dây như sóng điện từ hay tia hồng ngoại. Đối với mỗi kiểu truyền thông đó đều có một cách điều chế tín hiệu riêng.

Big data là gì?

Big data – Thuật ngữ Dữ liệu lớn – được sử dụng trong định nghĩa dữ liệu để mô tả dữ liệu nằm trong phạm vi petabyte hoặc cao hơn. Dữ liệu lớn cũng được mô tả dưới dạng 5V : đa dạng, khối lượng, giá trị, tính xác thực và vận tốc.

Ngày nay, Thương mại điện tử dựa trên web đã phổ biến rộng rãi, các mô hình kinh doanh dựa trên Dữ liệu lớn đã phát triển và chúng coi dữ liệu như một tài sản. Và có rất nhiều lợi ích của Dữ liệu lớn, chẳng hạn như giảm chi phí, nâng cao hiệu quả, nâng cao doanh số bán hàng, v.v.

Ý nghĩa của dữ liệu mở rộng ra ngoài quá trình xử lý dữ liệu trong các ứng dụng máy tính. Khi nói đến khoa học dữ liệu là gì , một cơ quan được tạo nên từ các dữ kiện được gọi là khoa học dữ liệu. Theo đó, tài chính, nhân khẩu học, sức khỏe và tiếp thị cũng có các ý nghĩa khác nhau của dữ liệu, cuối cùng tạo nên các câu trả lời khác nhau cho dữ liệu là gì.

Nguồn: Dữ liệu là gì? Big data là gì? Dữ liệu máy tính là gì? Cách biểu diễn thông tin trong máy tính

Bài viết này có hữu ích với bạn không?