Data Science ศาสตร์ที่จะช่วยให้องค์กรพัฒนาอย่างก้าวกระโดด

GUEST1649747579

สุดยอดขีดเีขียน (555)
เด็กใหม่ (0)
เด็กใหม่ (0)
POST:994
เมื่อ 25 เมษายน พ.ศ. 2566 01.56 น.

data science

ในยุคดิจิทัลในปัจจุบัน ข้อมูลทั้งหลายถือว่ามีความสำคัญมาก หากใครที่สามารถวิเคราะห์ข้อมูลแล้วนำมาวางแผนกลยุทธ์ เพื่อทำนายและคาดการณ์แนวโน้มที่จะเกิดขึ้นได้ ถือว่า เป็นบุคคลที่หลาย ๆ องค์กรต้องการตัว เพราะในเวลานี้ Data Science ถือว่าเป็นศาสตร์ที่กำลังได้รับความนิยมที่จะช่วยพัฒนาและผลักดันธุรกิจได้อย่างก้าวกระโดด แต่หลาย ๆ คนก็อาจจะยังสงสัยว่า Data Science คืออะไร ทำไมถึงมีความสำคัญมากขนาดนั้น บทความนี้ มีคำตอบ



Data Science (วิทยาการข้อมูล) คืออะไร

วิทยาการข้อมูล หรือที่เรียกว่า Data Science คือ ศาสตร์ที่รวบรวมหลายแขนงวิชาเข้าด้วยกัน ไม่ว่าจะเป็นการจัดการข้อมูล (Manage) จัดเก็บข้อมูล (Collect) รวบรวม ตรวจสอบ วิเคราะห์ข้อมูล (Analyze) วิจัยข้อมูลเชิงลึก นำข้อมูลมาช่วยตัดสินใจ (Decision) และนำเสนอผลการวิเคราะห์ 

โดย Data Science มีวัตถุประสงค์เพื่อค้นหาข้อมูลเชิงลึกภาพใหญ่ ทั้งจากชุดข้อมูลดิบและข้อมูลที่ผ่านการจัดระบบแล้ว เพื่อตอบคำถามที่เกิดขึ้นโดยภาพรวม พร้อมทั้งมองหาปัญหาที่ควรได้รับการแก้ไข ซึ่งสามารถทำได้ด้วยการคาดคะเน (Predict) ทิศทางของแนวโน้ม สถิติ สำรวจแหล่งข้อมูลที่แตกต่างอย่างหลากหลาย และพยายามค้นหาวิธีที่ดีที่สุดในการวิเคราะห์ข้อมูล

ซึ่งเราจะนำข้อมูลจาก Data Science มาใช้ประโยชน์ในงานด้านต่าง ๆ เช่น เช่น ด้านธุรกิจ โลจิสติกส์ เศรษฐศาสตร์ การเงิน การแพทย์ วิศวกรรม สารสนเทศ สาธารณสุข ฯลฯ โดยผลลัพธ์ที่ได้รับนั้น จะเรียกว่า ผลิตภัณฑ์ข้อมูล หรือ Data Products ซึ่งก็คือ องค์ความรู้ สติปัญญา ภูมิปัญญา และการตัดสินใจ ในรูปแบบของคำแนะนำ การทำนาย การตัดสินใจ กรอบความคิด แบบจำลอง เครื่องมือ หรือระบบที่ช่วยให้งานของเราสามารถพัฒนาได้อย่างก้าวกระโดด



ทักษะสำคัญในการทำ Data Science

 

data science คือ

 

 

เราจะเห็นได้ว่า Data Science คือ กระบวนการคิดวิเคราะห์ข้อมูลและมองหาปัญหา ดังนั้น ผู้ที่ต้องการทำ Data Science หรือที่เราเรียกว่า Data Scientist และก่อนที่เราจะไปรู้จักทักษะสำคัญ เราจะมาทำความรู้จักกับ Data Scientist กันก่อน

นักวิทยาศาสตร์ข้อมูล หรือนักวิทยาการข้อมูล หรือ Data Scientist คือ ผู้เชี่ยวชาญที่ใช้วิธีการทางวิทยาศาสตร์ หรือเครื่องมือต่าง ๆ ไม่ว่าจะเป็น Data Mining, เทคนิคเชิงสถิติ, Algorithms และ Machine Learning เพื่อทำความเข้าใจกับข้อมูล ตลอดจนการหาคำตอบในภาพรวม ด้วยการสร้างโมเดล (Model) ระบุแนวโน้มหรือทำนาย (Predictive Analytics) และหา Insight จากข้อมูลดิบ โดย Data Scientist จะนำผลลัพธ์มาใช้ เพื่อการตัดสินใจทางธุรกิจ หรือกำหนดกลยุทธ์ให้กับองค์กร

ดังนั้น Data Scientist จึงจำเป็นที่จะต้องมี 3 ทักษะที่สำคัญ ดังนี้


1. Hacking Skills

Hacking Skills ถือว่า เป็นทักษะสำคัญทักษะแรกของการทำ Data Science เพราะ Hacking Skills นี้ คือ ทักษะที่เกี่ยวกับการใช้เทคโนโลยีและเทคนิคทำงานในด้านต่าง ๆ เช่น

  • การเขียนโปรแกรมด้วยภาษา Python หรือภาษา R 
  • การจัดการและวิเคราะห์ข้อมูลด้วย Python Data Science
  • การจัดการฐานข้อมูล โดยการใช้ My SQL, PostgreSQL, Cassandra, MongoDB หรือ CouchDB 
  • การสร้างรายงาน และการแสดงข้อมูล (Visualization) โดยการใช้เครื่องมือ อย่างเช่น D3 Tableau, Qlikview หรือ R Markdown 
  • การใช้เทคโนโลยี เพื่อจัดการกับข้อมูลที่เรียกว่า Big Data อย่างเช่น Hadoop, MapReduce หรือ Spark เป็นต้น

2. Math & Statistics Knowledge

ทักษะที่สำคัญของ Data Science ถัดมา คือ Math & Statistics Knowledge ซึ่งเป็นทักษะที่เกี่ยวข้องกับด้านคณิตศาสตร์และทางสถิติ โดยคณิตศาสตร์และสถิติถือเป็นความรู้พื้นฐานหลักในงานด้าน Data Science เพราะถึงแม้ว่า ในปัจจุบัน เราจะมีโปรแกรมที่ช่วยในการวิเคราะห์ทางสถิติ แต่ในการเลือกใช้แบบจำลองในการวิเคราะห์และตีความผลลัพธ์ เราก็ยังจำเป็นต้องอาศัยความรู้เชิงลึกด้านคณิตศาสตร์และสถิติมาช่วย เช่น

  • การเรียนรู้ด้วยเครื่อง (Machine Learning) 
  • การทำเหมืองข้อมูล (Data Mining) 
  • พีชคณิต (Algebra) 

3. Substantive Expertise 

ทักษะสำคัญสุดท้ายของ Data Science คือ Substantive Expertise เป็นความรู้ความเชี่ยวชาญเฉพาะด้าน (Domain Knowledge) ที่จะทำให้เรามีความเข้าใจเกี่ยวกับวัตถุประสงค์ ขอบเขต และเป้าหมายของงานมากขึ้น เนื่องจากการตั้งคำถามที่ดีต้องอาศัยความเข้าใจในเรื่องนั้นจริง ๆ รวมถึงทักษะด้านการนำเสนอและสื่อสาร ที่จะช่วยให้ทุกคนในทีมรวมถึงผู้บริหารเข้าใจสถานการณ์ที่เกิดขึ้นได้อย่างชัดเจน

แต่การที่จะหา Data Scientist ที่มีความสามารถครบทั้ง 3 ทักษะนั้น ถือว่าเป็นเรื่องที่ยาก ดังนั้น ในหลาย ๆ องค์กรจึงมีการจัดตั้งทีม Data Science ที่ประกอบด้วย Data Scientist ที่เก่งในทักษะแต่ละด้านมาอยู่ในทีมเดียวกัน เพื่อสามารถหา Data Products ที่ดีให้กับองค์กรได้



The Data Science Lifecycle 

 

data science process คือ

เมื่อเรารู้ว่า Data Science คืออะไรแล้ว สิ่งถัดมาก็คือ Data Science Lifecycle หรือที่เรียกว่า วงจรชีวิตของวิทยาการข้อมูล ซึ่งแบ่งออกเป็น 6 ขั้นตอน ดังนี้

  1. Capture เป็นการรวบรวมข้อมูลดิบในรูปแบบต่าง ๆ เช่น ไฟล์คอมพิวเตอร์ รูปภาพ คลิปวิดีโอ ไฟล์เสียง เป็นต้น เพื่อนำไปใช้ในระบบคอมพิวเตอร์ ด้วยวิธีการรวบรวมข้อมูล (Data Acquisition) หรือการป้อนข้อมูล (Data Entry) หรือการดึงข้อมูล (Data Extraction) 

  2. Maintain เป็นการจัดเก็บรักษาและจัดระบบข้อมูล โดยมีการทำความสะอาดข้อมูล (Data Cleansing) การทำสถาปัตยกรรมข้อมูล (Data Architecture) เป็นแผนผังสำหรับกำหนดมาตรฐาน และการทำระบบคลังข้อมูล (Data Warehousing System) เพื่อให้เข้าถึงและดึงข้อมูลได้อย่างรวดเร็ว
     
  3. Process เป็นการจัดการข้อมูลให้อยู่ในรูปของข้อมูลที่ต้องการ ไมว่าจะเป็นการทําเหมืองข้อมูล (Data Mining) การอธิบายความสัมพันธ์และความหมายของข้อมูล (Data Modeling) การสรุปข้อมูล (Data Summarization) เป็นต้น

  4. Analyze เป็นการวิเคราะห์ข้อมูลด้วยวิธีการต่าง ๆ เช่น การวิเคราะห์องค์ประกอบเชิงสำรวจ (Exploratory Factor Analysis) การวิเคราะห์องค์ประกอบเชิงยืนยัน (Confirmatory Factor Analysis) การวิเคราะห์เชิงทำนาย (Predictive Analysis) การวิเคราะห์การถดถอย (Regression Analysis) เป็นต้น

  5. Communicate เป็นขั้นตอนสุดท้ายของ Data Science ที่ Data Scientist จะจัดทำ Data Products ในรูปแบบที่เข้าใจง่าย เช่น แผนภูมิ กราฟ รายงาน เป็นต้น



ขั้นตอนของการทำ Data Science 

 

กระบวนการ data science

กระบวนการวิทยาการข้อมูล หรือ Data Science Process คือ กระบวนการในการจัดทำ Data Science เพื่อนำ Data Products ไปใช้ประโยชน์ โดยเราจะแบ่งออกเป็น 6 ขั้นตอนที่ Data Scientist จะต้องทำ ได้แก่


1. Business Understanding

ขั้นตอนแรกของ Data Scientist Process คือ Business Understanding เป็นการทำความเข้าใจในธุรกิจหรือสิ่งที่กำลังจะเข้าไปวิเคราะห์ โดยเริ่มจากการศึกษาหาปัญหาและกำหนดวัตถุประสงค์ของธุรกิจจากมุมมองทางธุรกิจ เช่น การทำ SWOT การทำ Customer Journey เป็นต้น จากนั้น ปรับเปลี่ยนปัญหาให้พร้อมสำหรับกระบวนการทำ Data Science 


2. Data Understanding

การทำความเข้าใจข้อมูล (Data Understanding) เป็นขั้นตอนที่เริ่มต้นหลังจากทำความเข้าใจธุรกิจ โดยรวบรวมข้อมูลเพิ่มเติม ทำการตรวจสอบคุณภาพข้อมูล และพิจารณา ตัดสินใจเลือกข้อมูลที่เก็บรวบรวมไว้ ว่าข้อมูลใดบ้างที่ดีและมีคุณภาพมากเพียงพอที่จะนำมาใช้ในการวิเคราะห์ เพื่อหาข้อมูลเชิงลึกต่อไป


3. Data Preparation

ขั้นตอนถัดมาของกระบวนการ Data Science คือ การเตรียมข้อมูลสำหรับขั้นตอนถัดไป เป็นการแปลงข้อมูลดิบทั้งหลายที่เรารวบรวมมาให้เป็นข้อมูลในรูปแบบที่เราต้องการ หรือพร้อมสำหรับการวิเคราะห์ เช่น

  • การล้างข้อมูล (Data Cleaning) : การแก้ไขข้อมูลที่ไม่สมบูรณ์หรือผิดพลาด 
  • การรวมข้อมูล (Data integration) : การรวมข้อมูลจากแหล่งข้อมูลต่าง ๆ 
  • การแปลงข้อมูล (Data Transformation) : การจัดรูปแบบข้อมูล 
  • การลดข้อมูล (Data Reduction) : การลดข้อมูลให้อยู่ในรูปแบบที่ง่ายที่สุด 
  • การแยกข้อมูล (Data Discretization) : การลดจำนวนข้อมูล เพื่อให้จัดการข้อมูลได้ง่ายขึ้น 
  • วิศวกรรมคุณลักษณะ (Feature Engineering) : กระบวนการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปใช้งานได้ใน Machine Learning


4. Modeling

ขั้นตอนถัดมาของ Data Scientist Process คือ การสร้างโมเดล เป็นการเลือกและทดสอบโมเดลหรือแบบจำลองข้อมูลหลาย ๆ แบบที่คาดว่า น่าจะสามารถแก้ไขปัญหาที่ต้องการได้ จากนั้น จึงค่อย ๆ ทำการปรับค่าพารามิเตอร์ของแต่ละโมเดล เพื่อให้ได้โมเดลที่เหมาะสมที่สุดมาใช้ในการแก้ไขปัญหา แต่ถ้าหากว่า ยังไม่ได้โมเดลที่น่าพอใจ ก็อาจจะต้องย้อนกลับไปทำการเตรียมข้อมูลใหม่อีกครั้ง


5. Evaluation

การวัดประสิทธิภาพของโมเดล (Evaluation) เป็นการประเมินโมเดลตามเป้าหมายของธุรกิจ โดย Data Scientist จะมีหน้าที่ในการตรวจสอบกระบวนการทำงานว่า โมเดลมีประสิทธิภาพเพียงพอต่อการนำไปใช้งานแล้วหรือไม่ ซึ่งโมเดลแต่ละประเภทก็จะมีตัววัดประสิทธิภาพที่แตกต่างกันออกไป พร้อมสรุปสิ่งที่ค้นพบและทำการแก้ไขให้เรียบร้อย


6. Deployment

ขั้นตอนสุดท้ายของกระบวนการ Data Science คือ การนำโมเดลไปใช้งานจริง เพื่อวิเคราะห์และแก้ปัญหาที่ต้องการ แต่ทั้งนี้ ไม่จำเป็นต้องเป็นจุดสิ้นสุดของการทำ Data Science Process เพราะอาจจะมีการรายงานเพื่อบอกว่า ตั้งใจจะปรับใช้โมเดลอย่างไร วิธีส่งมอบและนำเสนอผลลัพธ์อย่างไร รวมถึงการดูแลรักษาโมเดลในระหว่างของการนำไปใช้เรื่อย ๆ อย่างไร



Data Analytics vs. Data Science 

นอกจาก Data Science ที่เรามักจะได้ยินกันบ่อยแล้ว บางคนก็อาจจะสับสนกับคำว่า Data Analytics โดยเราขอสรุปคือ ทั้ง Data Science และ Data Analytics เป็นกระบวนการในการวิเคราะห์ข้อมูลเหมือนกัน แต่ต่างกันตรงที่ Data Analytics จะวิเคราะห์ข้อมูลที่เฉพาะเจาะจงมากกว่า และเป็นข้อมูลเชิงลึกที่สามารถนำมาปรับใช้ได้ทันที ตรงข้ามกับ Data Science ที่จะเน้นการวิเคราะห์ข้อมูลโดยภาพรวม นิยมใช้ในการทำนายแนวโน้มและอนาคตของธุรกิจ

กล่าวได้ว่า หากต้องการแก้ไขปัญหาที่เฉพาะเจาะจงในทันที ด้วยข้อมูลที่มีอยู่แล้ว ก็ควรจะใช้ Data Analytics ที่มีความเหมาะสมมากกว่า แต่ถ้าหากต้องการวิเคราะห์ข้อมูลเชิงลึกโดยภาพรวม ก็ควรจะใช้ Data Science แทน



คำถามที่พบบ่อย

นอกจากความหมายและขั้นตอนของกระบวนการ Data Science แล้ว หลายคนยังมีข้อสงสัยเกี่ยวกับ Data Scientist แม้ว่าจะทราบแล้วว่า Data Science คือใคร แต่ก็ยังไม่ทราบว่า มีหน้าที่ทำอะไรบ้าง เราจะพาไปหาคำตอบกัน


1. ตำแหน่งงาน Data Scientist มีหน้าที่ทำอะไรบ้าง

Data Scientist คือ ผู้เชี่ยวชาญที่ใช้วิธีการทางวิทยาศาสตร์ หรือเครื่องมือต่าง ๆ เพื่อทำความเข้าใจกับข้อมูล ตลอดจนการหาคำตอบในภาพรวม โดย Data Scientist หน้าที่หลัก ๆ คือ การเก็บข้อมูล จัดการข้อมูล วิเคราะห์ข้อมูล นำข้อมูลมาช่วยตัดสินใจ ด้วยการใช้เทคโนโลยีเพื่อจัดการกับข้อมูลขนาดใหญ่ โดยจะต้องออกแบบโมเดลของข้อมูล จนออกมาเป็นโมเดลที่นำไปใช้ได้จริง

โดยตำแหน่งที่เกี่ยวข้องกับ Data Scientist ได้แก่

  • ผู้จัดการธุรกิจ (Business managers) เป็นผู้ที่จะต้องทำงานร่วมกับทีม Data Scientist เพื่อกำหนดปัญหาและพัฒนากลยุทธ์สำหรับการวิเคราะห์ข้อมูล 
  • ผู้จัดการฝ่ายไอที (IT Managers) มีหน้าที่สร้างและปรับปรุงเครื่องมือที่ใช้ให้เหมาะสมสำหรับขั้นตอนต่าง ๆ ในการทำ Data Science เพื่อสนับสนุนการทำ Data Science ให้ลุล่วง
  • ผู้จัดการด้านวิทยาศาสตร์ข้อมูล (Data Science Managers) เป็นผู้ดูแลทีม Data Science และงานต่าง ๆ ให้สำเร็จตามกำหนด ช่วยสร้างสมดุลภายในทีมและการประสานงานร่วมกับแผนกอื่น ๆ 


ข้อสรุป

 

data scientist process

Data Science คือ การนำข้อมูลดิบมาผ่านกระบวนการจัดเก็บ รวบรวม และวิเคราะห์ เพื่อพัฒนาเป็นโมเดล (Model) หรือเครื่องมือ (Tools) ที่จะช่วยให้ธุรกิจและองค์กรสามารถตัดสินใจในการวางแผนกลยุทธ์ได้อย่างเหมาะสมและประสบความสำเร็จตามการคาดการณ์จากข้อมูลของการทำ Data Science หรือที่เรียกว่า Data Products จากทีม Data Scientist ภายในองค์กรนั่นเอง

โพสตอบ

* ต้องล็อกอินก่อนครับ ถึงสามารถเโพสตอบได้

 
รอสักครู่กำลังโหลดข้อมูล
ข้อความ : เลือกเล่นเสียง
สนทนา