รู้จักกับ Wisesight Sentiment Corpus

· December 20, 2023

Wisesight Sentiment Corpus เป็นชุดข้อมูลที่ทาง Wisesight ได้ปล่อยออกมาสำหรับงาน Sentiment analysis บนโดเมนเครือข่ายสังคมออนไลน์ มีป้ายกำกับความรู้สึก (บวก, กลางๆ, ลบ, คำถาม) รวม 26,737 ข้อความ เผยแพร่เป็นสมบัติสาธารณะ ภายใต้สัญญาอนุญาต Creative Commons Zero v1.0 Universa ซึ่งปัจจุบันได้กลายเป็นชุดข้อมูลมาตรฐานภาษาไทยสำหรับงาน Sentiment analysis บนโดเมนเครือข่ายสังคมออนไลน์

นอกจากจะเป็น Sentiment Corpus อย่างเดียว ภายในมีชุดข้อมูลย่อยสำหรับตัดคำภาษาไทยบนโดเมนเครือข่ายสังคมออนไลน์ 2 ชุดข้อมูล คือ wisesight-160 (160 ข้อความ) และ wisesight-1000 (1000 ข้อความ) พัฒนาโดยคุณเติ้ล เรียกได้ว่ามีทั้งชุดข้อมูล Sentiment analysis กับตัดคำภาษาไทยภายในตัว

ปัจจุบัน Wisesight Sentiment Corpus สามารถใช้งานได้ผ่าน HF Hub: https://huggingface.co/datasets/wisesight_sentiment

ส่วนชุดข้อมูล กับ ข้อมูลต้นฉบับ wisesight-160, wisesight-1000 สามารถโหลดได้จาก https://github.com/PyThaiNLP/wisesight-sentiment

Twitter, Facebook