Yerel Seçim Analizi (Başkan Adayları Duygu Analizi!),
Bilindiği üzere günümüzde Sosyal Medya kullanımı giderek artmakta ve faydalı ve büyük veri (big data) kaynağını oluşturmaktadır. Özellikle attığımız “tweet” lerle düşüncelerimiz dünyanın her tarafından paylaşılmakta ve hızla yayılabilmektedir. Ancak Sosyal Medyada yapılmakta olan bir çok analiz nitel verileri saydırmak (frekansları) yoluyla veya sınırlı sayıdaki sözcüklere göre taranmaktadır. Bu durum üst sevide ölçümlerimizi ve raporlarımızı sınırlı kılmaktadır. Şüphesiz sosyal medya kullanımı toplumun her kesimini temsil etmemesine karşın giderek temsil gücü artmaktadır. Sosyal medya üzerinden marka, şirket ve kişi analizleri yapılarak itibar ölçümleri yapılabilmekte, pozitif veya negatif yönde eğilimler duygu analizi (sentiment analysis) ile belirlenebilmektedir. Bu analizler de yapay zeka uzantısında öğrenmeye dayalı veri madenciliği (veya makine öğrenmesi) algoritmaları kullanılarak üst seviyede anlamlı bilgiler üretilebilmektedir.
Sosyal Medya üzerinde kullanılan duygu ifadelerinin eğilimlerini belirlemeye, olumlu veya olumsuz yönde sınıflandırmaya ilişkin bir uygulama, 30 Mart Yerel Seçimlerinde İstanbul ve Ankarada ki AKP, CHP, MHP Başkan adayları için yapılmıştır. Sosyal Medya da “tweet” ler sürekli toplanmakta ve ilgili rapor güncelenmektedir (bkz. aşağıdaki bağlantı). 29.03.2014 saat 07:20:42 itibariyle İstanbul ve Ankara ili olumlu ifade ve tweet yüzdeleri örnek olarak aşağıda verilmiştir. Detayları sürekli güncellenebilen ayrıntılı raporu aşağıdaki web sitemizden takip edebilirsiniz:
http://www.smartinovasyon.com/analizlerimiz/mart-2014-yerel-secimler/
29.03.2014 | 07:20:42 | |||
İSTANBUL | ||||
AKP | CHP | MHP | Toplam | |
Olumsuz ifade | 254,636 | 158,837 | 2,409 | |
Olumlu ifade | 932,207 | 489,710 | 6,911 | |
Toplam | 1,186,843 | 648,547 | 9,320 | 1,844,710 |
Tweet Yüzdesi | 64.3% | 35.2% | 0.5% | 100.0% |
Olumluluk oranı | 78.5% | 75.5% | 74.2% | |
ANKARA | ||||
AKP | CHP | MHP | Toplam | |
Olumsuz ifade | 298,386 | 8,251 | 331 | |
Olumlu ifade | 862,417 | 124,161 | 3,279 | |
1,160,803 | 132,412 | 3,610 | 1,296,825 | |
Tweet yüzdesi | 89.5% | 10.2% | 0.3% | 100.0% |
Olumluluk oranı | 74.3% | 93.8% | 90.8% |
Bu raporda, Doktora Danışmanlığını yapmış olduğum Dr. F. Özgür Çatak’ın tez çalışmasında geliştirdiği model kullanılmış olup aşağıdaki işlemler sonucunda elde edilen veri seti üzerinde uygulanmıştır:
- Retweetler: Retweet, kullanıcılar tarafından ilginç gelen mesajların tekrarlanmasıdır. Retweetler farklı mesaj farklı aynı içerik olmasından dolayı niteliklin ağırlıklarını etkilememesi için kaldırılmıştır.
- Mentions: Bir kullanıcı başka bir kullanıcıdan bahsedeceği zaman, “mention” özelliğini kullanmaktadır. Anma ifadeleri “@” ifadesi ile başlamaktadır. Bu niteliğin önemli olmamasından dolayı mesajlarda yer alan bütün “mention” ifadeleri temizlenmiştir.
- Linkler: Mesajlar içerisinde yer alan niteliklerin önemli olmamasından dolayı mesajlarda yer alan bütün linkler temizlenmiştir.
- Hashtag: Hashtag, Twitter da yer alan başlıkların adıdır. Kullanıcılar “#” işareti kullanarak yeni bir hashtag açabilirler. Bu niteliğin önemli olmamasından dolayı mesajlarda yer alan bütün hashtag ifadeleri temizlenmiştir.
- ASCII karakterler: Türkçe metinlerde yer alan ASCII karakterler temizlenip, yerlerine Türkçe karakterler kullanılmıştır. Örnek olarak “calisma planlarina carsamba devam edelim” şeklinde ki metin “çalışma planlarına çarşamba günü devam edelim” şekline dönüştürülmüştür.
- Noktalama işaretleri: Mesajlarda “!, ?, /, %” gibi noktalama işaretleri bulunmaktadır. Mesaja olumlu veya olumsuz anlam yüklememelerinden dolayı bütün noktalama işaretleri kaldırılmıştır.
- Önemsiz kelime temizliği : Bir dilde çok kullanılan ve genellikle doğal dilde göz ardı edilen kelimelere etkisiz kelimeler denilmektedir. Örnek olarak “ama”, ”bazı”, ”nasıl” verilebilir. Bu kelimeler veri setinden temizlenmiştir.
- Metin şeklinde olan veri seti vektör uzayına taşınmıştır.
- Oluşan vektör uzayından nitelik seçimi yapılmıştır.
- Oluşan veri seti Destek Vektör Makinesi sınıflandırma algoritması MapReduce tekniği ile eğitilmiştir.