Monday, February 17, 2014

Tagged under: , ,

Bốn Câu Hỏi Của Các Cio Về Big Data Và Hadoop

Đã hơn bảy năm kể từ khi Apache Hadoop được thành lập với mục đích ban đầu của nó là để lưu trữ và xử lý dữ liệu trên Internet một cách đơn giản và khả thi về mặt kinh tế.

Đó là những bước đi đầu tiên của ngành công nghệ mã nguồn mở, và là khái niệm trung tâm của hệ kiến trúc tiếp theo – Big Data


Trong những năm qua, Hadoop đã liên tục trưởng thành, từ một phần nhỏ của các website lớn (bao gồm cả Yahoo!), đã trở thành một công nghệ đã vượt qua cả các phần mềm lớn. Sự nổi lên của “Enterprise Hadoop” cung cấp cơ hội tạo ra lợi ích mới cho các công ty, từ một nền tảng dữ liệu kết hợp hài hòa giữa công nghệ với lợi ích kinh tế và hoạt động kinh doanh


CIO của các doanh nghiệp lớn thường có 4 câu hỏi về Big-data và sự hòa nhập với Hadoop

Câu hỏi đầu tiên: Big data và Hadoop đã được quảng bá rất mạnh, nhưng nó là gì?
Hadoop là một công nghệ dành cho big-data


Hadoop là một công nghệ dành cho big-data, dựa trên hai yếu tố.

Đầu tiên, xét về hiệu quả. Hadoop cung cấp một nền tảng hiện đại để lưu trữ và xử lý dữ liệu, cho phép các công ty lấy được thông tin có giá trị từ dữ liệu của họ theo những cách mà truowcs đây không thể làm được, qua đó thúc đẩy đầu tư và năng lực hiện có.

Thứ hai, xét về cơ hội. Hadoop có thể phân cấp một cách hiệu quả cả về mặt kỹ thuật và kinh tế, nó có thể xây dựng các ứng dụng phân tích sử dụng các loại dữ liệu mới có năng suất cao hơn tới 20%, hoặc mở ra những nguồn doanh thu mới cho các doanh nghiệp hướng tới xu hướng tương lai.

Từ quan điểm hiệu quả, Hadoop là một nền tảng dữ liệu được thiết kế để chạy trên phần cứng chi phí thấp thay cho các phần cứng chuyên môn hóa, đắt tiền như RDBMShoặc các hệ thống HPC.

Hơn nữa, Hadoop không chỉ có khả năng lưu trữ và xử lý dữ liệu kiểu mới, mà còn cho phép doanh nghiệp có cơ hội để đánh giá cấu trúc dữ liệu tổng quan của họ và đưa ra cách tiếp cận tốt nhất, tập trung vào hệ thống Hadoop. Ngoài ra, có những yêu cầu quan trọng cho doanh nghiệp như quản lý, giám sát, bảo mật dữ liệu và hiệu quả cao mà sự phân bố Hortonwworks của Hadoop (Tức là nền tảng dữ liệu Hortonworks) tích hợp để đảm bảo khả năng phát triển doanh nghiệp.

Từ quan điểm cơ hội, Hadoop mở ra khả năng cải tiến và khám phá các tập dữ liệu rất lớn, phân cấp các nguồn dữ liệu mới và cũ theo mức độ tăng dần. Các trường hợp được phân chia từ việc phân tiechs chuyên sâu của web clickstream và dữ liệu mang tính xã hội, đến việc phân tích cao cấp dữ liệu của máy, cảm biến và dữ liệu vị trí (được tạo ra với tốc độ cực lớn)

Với Hadoop, doanh nghiệp ngày nay có cơ hội vươn xa hơn so với việc chỉ phân tích dữ liệu sau giao dịch 1 cách đơn giản, và nắm lấy một kiến trúc có khả năng pha trộn dữ liệu qua giao dịch, tương tác và quan sát nên kết quả kinh doanh có thể được dự đoán trước khi giao dịch.

Câu hỏi thứ 2: Kiểm tra trung tâm dữ liệu không phải việc đơn giản. Thực tế quá trình đó được thực hiện như thế nào?

Nhiều tổ chức có kinh nghiệm về Hadoop cho biết: thông qua Hadoop họ có khả năng phân bậc, phân tích thăm dò với chi phí thấp và hỗ trợ cho dữ liệu đa cấu trúc. Do đó, bạn có thể bắt đầu bằng cách tạo ra một trường hợp kinh doanh cho Hadoop, dựa trên các trình điều khiển và ứng dụng phân tích mục tiêu mà Hadoop có thể kích hoạt.

Bạn cũng nên cân nhắc sử dụng Hadoop khi phạm vi kiến trúc dữ liệu của bạn lớn hơn, tích hợp kinh doanh thông minh, kho dữ liệu, và phân tích một theo dõi được ưu tiên.

Thêm nữa, xét đến sự cường điệu. Người ta nói nhiều về cái chết của các kho dữ liệu doanh nghiệp. Từ đầu, mục tiêu của Hortonworks là tạo ra một thế hệ kiến trúc dữ liệu liền mạch, tích hợp hệ thống dữ liệu hiện có và hệ thống mới (mở rộng ứng dụng cơ sở dữ liệu, kho dữ liệu, Hadoop,…), mở ra giá trị kinh doanh mới trong khi vẫn giữ được các khoản đầu tư hiện có.

Hadoop đã tạo ra những mối quan hệ chiến lược với các đối tác như Microsoft, Teradata, Rackspace, …, với mục tiêu tích hợp Hadoop với các công nghệ trung tâm dữ liệu hiện một cách hiệu quả. Mặc dù vẫn còn nhiều việc phải làm, nhưng đã có những tiến bộ lớn trong việc tích hợp Hadoop với các đối tượng khác như:

a) Các công cụ phân tích và BI như Excel, Tableau, MicroStrategy, các đối tượng kinh doanh, và SAS,

b) Các hệ thống dữ liệu và công cụ tích hợp dữ liệu từ các nhà cung cấp bao gồm Teradata, Microsoft, Informatica, IBM, và Talend,

c) Nền tảng quản lý bao gồm cả Microsoft System Center and Active Directory, và Teradata Viewpoint.

d) Nền tảng cơ sở hạ tầng như Windows, Linux, VMware, Azure, Amazon Web Services, Rackspace Opencloud, và Openstack

Bằng cách tập trung giải quyết những khó khan của việc tích hợp Hadoop với các nền tảng và công cụ thường được sử dụng, sẽ thúc đẩy việc áp dụng những thành công của Hadoop vào thị trường doanh nghiệp truyền thống.

Câu hỏi thứ 3: Thích ứng với các kỹ năng sử dụng cũng không phải dễ. Làm thế nào để giải quyết điều đó?

Hadoop là một nền tảng mới, nó cung cấp môi trường quen thuộc cho các nhà phát triển, nhà phân tích dữ liệu, và nhà quản trị hệ thống để sử dụng và khai thác sức mạnh của nó. Ví dụ, nhà phát triển quen thuộc với Java, .NET và các ngôn ngữ hướng đối tượng như Python hay Pig, có các Tool, SDK và API để làm việc với Hadoop. Những người quen làm việc với dữ liệu SQL có thể tận dụng Hive (Hệ thống kho dữ liệu của Hadoop) để truy vấn và tương tác với dữ liệu Hadoop theo những cách quen thuộc. Việc vận hành Hadoop sẽ có một loạt các lựa chọn bao gồm sử dụng Apache Ambari Web Console, tích hợp trực tiếp với trình quản lý Ambari Apache và giám sát REST APIs, hoặc tích hợp sẵn vào các giải pháp quen thuộc như Teradata Viewpoint, Microsoft System Center hoặc giải pháp quản lý thứ của bên thứ ba khác.

Hadoop, như bất kỳ một nền tảng mới nào, cần một chặng đường học tập, vì vậy các nhà phát triển, tương tác dữ liệu, quản trị hệ thống nên đầu tư vào việc học tập để được chuẩn bị tốt nhất, khai thác được nhiều nhất từ Hadoop. Họ nên thực hiện việc học tập này với một cảm giác tự tin rằng họ đang xây dựng các kỹ năng quan trọng – các kỹ năng làm cho họ hoàn thiện hơn, làm việc hiệu quả hơn.

Câu hỏi thứ 4: Khi nào là thời điểm thích hợp để triển khai?

Theo Merv Adrian của Gartner, người đã thuyết trình tại Hội nghị thượng đỉnh Hadoop hồi tháng 6-2013, 30% doanh nghiệp đã sử dụng Big data, và 34% có kế hoạch triển khai thêm trong 12-24 tháng tới.

Hầu như tất cả các doanh nghiệp đã triển khai hoặc có một kế hoạch triển khai Big Data. Hơn nữa, đa số các doanh nghiệp lớn đã thực hiện chiến lược Big-Data. Nhiều doanh nghiệp đã thành công với Hadoop bắt đầu bằng việc triển khai các khái niệm thiết kế với mục tiêu phát hiện và chứng minh cơ hội kinh doanh của họ. Khi quá trình sử dụng ban đầu được triển khai, cuộc đua vào các quá trình sử dụng khác nhằm thúc đẩy hơn nữa lợi thế cạnh tranh hoặc hiệu quả hoạt động chính thức bắt đầu.

Lời khuyên của chúng tôi: do tính chất mã nguồn mở của Hadoop, chỉ có một trở ngại nhỏ trước khi sử dụng, và đó là con đường nhanh nhất để thành công bước đầu rồi. Hiểu và mở khóa tất cả dữ liệu có giá trị của bạn sẽ là một nhân tố quan trọng quyết định thành công của những dự án Big Data, vậy thì hãy bắt đầu càng sớm càng tốt.

Bài viết có nguồn gốc từ Shaun Connolly, Phó chủ tích chiến lược doanh nghiệp tại Hortonworks. Shaun cũng đã giữ chức chủ tịch tại VMWare, SpringSource, Red Hat và JBoss, và là Giám đốc của HP.

Bài dịch của Vinasystem.

0 comments:

Post a Comment