豆瓣電影數(shù)據(jù)可視化項(xiàng)目(豆瓣電影大數(shù)據(jù)分析)
本篇文章給大家談?wù)劧拱觌娪皵?shù)據(jù)可視化項(xiàng)目,以及豆瓣電影大數(shù)據(jù)分析對(duì)應(yīng)的知識(shí)點(diǎn),希望對(duì)各位有所幫助,不要忘了收藏本站喔。
本文目錄一覽:
- 1、數(shù)據(jù)可視化的設(shè)計(jì)步驟有哪些?
- 2、數(shù)據(jù)可視化的16個(gè)經(jīng)典案例
- 3、從電影網(wǎng)站爬取數(shù)據(jù)并進(jìn)行可視化分析會(huì)用到哪些數(shù)據(jù)
- 4、數(shù)據(jù)分析項(xiàng)目包含哪些流程?
- 5、豆瓣電影數(shù)據(jù)分析
- 6、簡書用戶畫像 之 如何挖掘用戶的電影喜好
數(shù)據(jù)可視化的設(shè)計(jì)步驟有哪些?
1、需求分析
需求分析是大數(shù)據(jù)可視化項(xiàng)目開展的前提,要描述項(xiàng)目背景與目的、業(yè)務(wù)目標(biāo)、業(yè)務(wù)范圍、業(yè)務(wù)需求和功能需求等內(nèi)容,明確實(shí)施單位對(duì)可視化的期望和需求。包括需要分析的主題、各主題可能查看的角度、需要發(fā)泄企業(yè)各方面的規(guī)律、用戶的需求等內(nèi)容。
2、建設(shè)數(shù)據(jù)倉庫/數(shù)據(jù)集市的模型
數(shù)據(jù)倉庫/數(shù)據(jù)集市的模型是在需求分析的基礎(chǔ)上建立起來的。數(shù)據(jù)倉庫/數(shù)據(jù)集市建模除了數(shù)據(jù)庫的ER建模和關(guān)系建模,還包括專門針對(duì)數(shù)據(jù)倉庫的維度建模技術(shù)。
3、數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載(ETL)
數(shù)據(jù)抽取是指將數(shù)據(jù)倉庫/集市需要的數(shù)據(jù)從各個(gè)業(yè)務(wù)系統(tǒng)中抽離出來,因?yàn)槊總€(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量不同,所以要對(duì)每個(gè)數(shù)據(jù)源建立不同的抽取程序,每個(gè)數(shù)據(jù)抽取流程都需要使用接口將元數(shù)據(jù)傳送到清洗和轉(zhuǎn)換階段。
4、建立可視化場(chǎng)景
建立可視化場(chǎng)景是對(duì)數(shù)據(jù)倉庫/集市中的數(shù)據(jù)進(jìn)行分析處理的成果,用戶能夠借此從多個(gè)角度查看企業(yè)/單位的運(yùn)營狀況,按照不同的主題和方式探查企業(yè)/單位業(yè)務(wù)內(nèi)容的核心數(shù)據(jù),從而作出更精準(zhǔn)的預(yù)測(cè)和判斷。
數(shù)據(jù)可視化的16個(gè)經(jīng)典案例
[數(shù)據(jù)可視化]
本文編譯自:Ross Crooks
數(shù)據(jù)可視化是指將數(shù)據(jù)以視覺的形式來呈現(xiàn),如圖表或地圖,以幫助人們了解這些數(shù)據(jù)的意義。通過觀察數(shù)字、統(tǒng)計(jì)數(shù)據(jù)的轉(zhuǎn)換以獲得清晰的結(jié)論并不是一件容易的事。而人類大腦對(duì)視覺信息的處理優(yōu)于對(duì)文本的處理——因此使用圖表、圖形和設(shè)計(jì)元素,數(shù)據(jù)可視化可以幫你更容易的解釋數(shù)據(jù)模式、趨勢(shì)、統(tǒng)計(jì)數(shù)據(jù)和數(shù)據(jù)相關(guān)性,而這些內(nèi)容在其他呈現(xiàn)方式下可能難以被發(fā)現(xiàn)。
數(shù)據(jù)可視化可以是靜態(tài)的或交互的。幾個(gè)世紀(jì)以來,人們一直在使用靜態(tài)數(shù)據(jù)可視化,如圖表和地圖。交互式的數(shù)據(jù)可視化則相對(duì)更為先進(jìn):人們能夠使用電腦和移動(dòng)設(shè)備深入到這些圖表和圖形的具體細(xì)節(jié),然后用交互的方式改變他們看到的數(shù)據(jù)及數(shù)據(jù)的處理方式。
我們必須用一個(gè)合乎邏輯的、易于理解的方式來呈現(xiàn)數(shù)據(jù)。但是,并非所有數(shù)據(jù)可視化作品的效果都一樣好。那么,如何將數(shù)據(jù)組織起來,使其既有吸引力又易于理解?讓我們通過下面的16個(gè)有趣的例子獲得啟發(fā),它們是既注重風(fēng)格也注重內(nèi)容的數(shù)據(jù)可視化經(jīng)典案例。
1:為什么會(huì)有“巴士群”現(xiàn)象
這里有一個(gè)關(guān)于復(fù)雜數(shù)據(jù)集的很好的例子,它看起來感覺像一個(gè)游戲。在這個(gè)例子里,Setosa網(wǎng)站為我們呈現(xiàn)了“巴士群”現(xiàn)象是如何發(fā)生的,即當(dāng)一輛巴士被延遲,就會(huì)導(dǎo)致多輛巴士在同一時(shí)間到站。
只用數(shù)字講述這個(gè)故事是非常困難的,所以取而代之的是,他們把它變成一個(gè)互動(dòng)游戲。當(dāng)巴士沿著路線旋轉(zhuǎn)時(shí),我們可以點(diǎn)擊并按住一個(gè)按鈕來使巴士延遲。然后,我們所要做的就是觀察一個(gè)短暫的延遲如何使巴士在一段時(shí)間以后聚集起來。
2:世界上的語言
這個(gè)由DensityDesign設(shè)計(jì)的互動(dòng)作品令人印象深刻,它將世界上眾多(或者說,我們大多數(shù)人)語言用非語言的方法表現(xiàn)出來,一共有2678種。
這件作品可以讓你瀏覽使用共同語言的家庭,看看哪些語言是最常用的,并查看語言在世界各地的使用范圍。這是一種了不起的視覺敘事方法:將一個(gè)有深度的主題用一種易于理解的方式進(jìn)行解讀。
3:按年齡段分布的美國人口百分比
應(yīng)該用什么方式去呈現(xiàn)一種單一的數(shù)據(jù)?這是一個(gè)令人信服的好榜樣。
Pew Research創(chuàng)造了這個(gè)GIF動(dòng)畫,顯示人口統(tǒng)計(jì)數(shù)量隨著時(shí)間推移的的變化。這是一個(gè)好方法,它將一個(gè)內(nèi)容較多的故事壓縮成了一個(gè)小的動(dòng)圖包。此外,這種類型的微內(nèi)容很容易在社交網(wǎng)絡(luò)上分享或在博客中嵌入,擴(kuò)大了內(nèi)容的傳播范圍。
4:NFL(國家橄欖球聯(lián)盟)的完整歷史
體育世界有著豐富的數(shù)據(jù),但這些數(shù)據(jù)并不總是能有效地呈現(xiàn)。然而,F(xiàn)iveThirtyEight網(wǎng)站做得特別好。
在下面這個(gè)交互式可視化評(píng)級(jí)中,他們對(duì)國家橄欖球聯(lián)盟史上的每一場(chǎng)比賽計(jì)算“等級(jí)分” – – 根據(jù)比賽結(jié)果對(duì)球隊(duì)實(shí)力進(jìn)行簡單的衡量 。總共有超過30,000個(gè)評(píng)級(jí),觀眾可以通過比較各個(gè)隊(duì)伍的等級(jí)分來了解每個(gè)隊(duì)伍在數(shù)十年間的比賽表現(xiàn)。
5:Google Flights 上的美國感恩節(jié)
下面是將一段時(shí)間內(nèi)在空中移動(dòng)的物體進(jìn)行可視化的好方法。這是由Google Trends驅(qū)動(dòng)的項(xiàng)目,它跟蹤感恩節(jié)前出發(fā)、到達(dá)和穿越美國的航班。
可視化始于當(dāng)天很早的時(shí)間,隨著時(shí)間的推移,像播放電影一樣顯示在全國各地飛行中的航班。不需要顯示時(shí)間外的任何數(shù)字,觀眾即可以看到當(dāng)天哪段時(shí)間是國際航班、國內(nèi)航班以及往返于全國各地不同樞紐的航班的熱門時(shí)間。
6:是什么真正造成了全球變暖?
我們都知道,“不要只簡單地展示數(shù)據(jù),講個(gè)故事吧”。這正是彭博商業(yè)正在做的可視化 ——用互動(dòng)的方式來講述故事的來龍去脈。。
此圖的關(guān)鍵是要反駁用自然原因解釋全球變暖的理論。首先你會(huì)看到從1880年至今觀測(cè)到的溫度上升情況。為了使故事內(nèi)容更加豐富,當(dāng)你向下滾動(dòng)時(shí),這個(gè)可視化圖會(huì)讓你清楚的了解到相較于已被觀測(cè)到的因素,造成全球變暖的不同因素到底有多少。作者希望觀眾能夠得到非常清晰的結(jié)論。
7:在敘利亞,誰和誰在戰(zhàn)斗?
許多不同的團(tuán)體之間的關(guān)系可能令人很難理解 – 尤其是當(dāng)有11個(gè)這樣的團(tuán)體存在的時(shí)候。這些團(tuán)體之間有的結(jié)盟,有的敵對(duì),反之亦然。這讓人難以理解。
但是,Slate網(wǎng)站通過表格的形式和熟悉的視覺表達(dá),將這些數(shù)據(jù)簡化為一種簡單的、易于理解和可交互的形式。觀眾可以點(diǎn)擊任一張臉來查看雙方關(guān)系的簡要描述。
8:最有價(jià)值的運(yùn)動(dòng)隊(duì)
這是通過疊加數(shù)據(jù)來講述深層故事的一個(gè)典型例子。
這個(gè)交互由Column Five設(shè)計(jì),受福布斯“2014年最具價(jià)值的運(yùn)動(dòng)隊(duì)50強(qiáng)”名單得到的啟發(fā)。但是它不僅將列表可視化,用戶還可以通過它看到每支隊(duì)伍參賽的時(shí)間以及奪得總冠軍的數(shù)量。這為各隊(duì)的歷史和成功提供了更全面的概況信息。
9:美國風(fēng)圖
下面是一個(gè)類似感恩節(jié)航班的可視化圖,除了圖中顯示的時(shí)刻,它還能實(shí)時(shí)顯示美國本土的風(fēng)速和風(fēng)向。
它是直觀設(shè)計(jì)的一個(gè)很好的案例:風(fēng)速用線條移動(dòng)的快慢來表示,方向通過線條移動(dòng)的路徑來表示。它會(huì)即時(shí)顯示美國風(fēng)向的總體趨勢(shì),無需任何數(shù)字,除非你在地圖上點(diǎn)擊鼠標(biāo)。另外,使用時(shí)設(shè)定最多兩個(gè)變量會(huì)使它更容易操作。
10:政治新聞受眾渠道分布圖
據(jù)Pew研究中心稱,當(dāng)設(shè)計(jì)師在信息內(nèi)容很多又不能刪的時(shí)候,他們通常會(huì)把信息放到數(shù)據(jù)表中,以使其更緊湊。但是,他們?cè)谶@里使用分布圖來代替。
為什么呢?因?yàn)榉植紙D可以讓觀眾在頻譜上看到每個(gè)媒體的渠道。在分布圖上,每個(gè)媒體的渠道之間的距離尤為顯著。如果這些點(diǎn)僅僅是在表中列出,那么觀眾就無法看到每個(gè)渠道之間的對(duì)比效果。
11:著名創(chuàng)意人士的日程安排
這個(gè)數(shù)據(jù)可視化圖是用奇特的想法描繪出的一個(gè)簡單概念。這個(gè)表格利用Mason Currey的《日常慣例》一書中的信息展示了那些著名創(chuàng)意人士的日程安排,解讀其時(shí)間和活動(dòng)安排。這不僅是一個(gè)數(shù)據(jù)分析的例子(因?yàn)槟憧梢酝ㄟ^單獨(dú)的活動(dòng)來瀏覽日程安排),也是一個(gè)品牌宣傳的佳作。
12:今年發(fā)生了哪些新聞?
最好的數(shù)據(jù)可視化方式,就是用直觀和美麗的方式傳達(dá)信息。Echelon Insights致力于這一方式,將2014年Twitter上最受關(guān)注的新聞進(jìn)行了可視化。
1億8450萬條推文是什么樣子?就是如下圖所示的藝術(shù)品。
13:問題的深度
當(dāng)你想強(qiáng)調(diào)規(guī)模的時(shí)候,靜態(tài)數(shù)據(jù)可視化是表達(dá)你的觀點(diǎn)的極佳方式。下面這張來自《華盛頓郵報(bào)》的信息圖長得令人難以置信…這是故意的。他們?cè)趫D中展示了一架飛機(jī)可以探測(cè)到的深海信號(hào)是多么的深,通過比較飛機(jī)的探測(cè)深度與高層建筑、已知哺乳動(dòng)物的最大深度、泰坦尼克號(hào)沉船的深度等。這是簡單的視覺效果和顏色梯度的極佳使用方式。
最后,將數(shù)據(jù)添加到新聞報(bào)道中(文中為失蹤的馬航)是提供背景的好方式。
14:前沿預(yù)算
上述圖表相對(duì)簡單,以下是創(chuàng)造設(shè)計(jì)精致的、傳遞大量數(shù)據(jù)的圖表的方法。秘訣何在?——用簡單和干凈的格式,便于讀者理解數(shù)據(jù)。
這個(gè)由GOOD Magazine 和 Column Five制作的圖表,解讀了NASA的五年預(yù)算,顯示資金將怎么花、花在哪里。此外,它還有一個(gè)主題設(shè)計(jì),這真是一個(gè)全面成功的作品!
15: Kontakladen慈善年報(bào)
不是所有的數(shù)據(jù)可視化都需要用動(dòng)畫的形式來表達(dá)。當(dāng)現(xiàn)實(shí)世界的數(shù)據(jù)通過現(xiàn)實(shí)生活中的例子進(jìn)行可視化,結(jié)果會(huì)令人驚嘆。設(shè)計(jì)師Marion Luttenberger把包含在Kontakladen慈善年報(bào)中的數(shù)據(jù)以一種獨(dú)特的方法表現(xiàn)出來。
該組織為奧地利的吸毒者提供支持,所以Luttenberger就通過現(xiàn)實(shí)生活中的視覺元素來宣傳他們的使命。例如,這輛購物車的形象表現(xiàn)出受助者每一天可以負(fù)擔(dān)得起多少生活必需品。
16:奧地利太陽能年報(bào)
雖然有許多方法都能使數(shù)據(jù)可視化,但是其中,使用真實(shí)信息主體去創(chuàng)建數(shù)據(jù)可視化作品的做法非常了不起。這份來自Austria Solar的年度報(bào)告,通過在頁面上使用太陽光感墨水,用真正的太陽能給公司數(shù)據(jù)賦予生命。
一句話總結(jié):他們是天才。
從電影網(wǎng)站爬取數(shù)據(jù)并進(jìn)行可視化分析會(huì)用到哪些數(shù)據(jù)
從電影網(wǎng)站爬取數(shù)據(jù)并進(jìn)行可視化分析會(huì)用到的數(shù)據(jù)如下。
1、beautifulsoup、re、urllib庫。
2、SQLite包,數(shù)據(jù)可視化方面主要用到flask框架、echarts和wordcloud等。
3、此類數(shù)據(jù)可以搭建簡單的數(shù)據(jù)可視化網(wǎng)站。
數(shù)據(jù)分析項(xiàng)目包含哪些流程?
1、數(shù)據(jù)采集
了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時(shí)間、條件、格式、內(nèi)容、長度、限制條件等。
2、數(shù)據(jù)存儲(chǔ)
無論數(shù)據(jù)存儲(chǔ)于云端還是本地,數(shù)據(jù)的存儲(chǔ)不只是我們看到的數(shù)據(jù)庫那么簡單。
3、數(shù)據(jù)提取
數(shù)據(jù)提取是將數(shù)據(jù)取出的過程,數(shù)據(jù)提取的核心環(huán)節(jié)是從哪取、何時(shí)取、如何取。
4、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是面對(duì)海量數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)價(jià)值提煉的關(guān)鍵。
5、數(shù)據(jù)分析
數(shù)據(jù)分析相對(duì)于數(shù)據(jù)挖掘更多的是偏向業(yè)務(wù)應(yīng)用和解讀,當(dāng)數(shù)據(jù)挖掘算法得出結(jié)論后,如何解釋算法在結(jié)果、可信度、顯著程度等方面對(duì)于業(yè)務(wù)的實(shí)際意義,如何將挖掘結(jié)果反饋到業(yè)務(wù)操作過程中便于業(yè)務(wù)理解和實(shí)施是關(guān)鍵。
6、數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分,數(shù)據(jù)分析師如何把數(shù)據(jù)觀點(diǎn)展示給業(yè)務(wù)的過程。數(shù)據(jù)展現(xiàn)除遵循各公司統(tǒng)一規(guī)范原則外,具體形式還要根據(jù)實(shí)際需求和場(chǎng)景而定。
7、數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用是數(shù)據(jù)具有落地價(jià)值的直接體現(xiàn),這個(gè)過程需要數(shù)據(jù)分析師具備數(shù)據(jù)溝通能力、業(yè)務(wù)推動(dòng)能力和項(xiàng)目工作能力。
豆瓣電影數(shù)據(jù)分析
這篇報(bào)告是我轉(zhuǎn)行數(shù)據(jù)分析后的第一篇報(bào)告,當(dāng)時(shí)學(xué)完了Python,SQL,BI以為再做幾個(gè)項(xiàng)目就能找工作了,事實(shí)上……分析思維、業(yè)務(wù),這兩者遠(yuǎn)比工具重要的多。一個(gè)多月后回過頭來看,這篇報(bào)告雖然寫得有模有樣,但和數(shù)據(jù)分析報(bào)告還是有挺大差別的,主要原因在于:a.只是針對(duì)豆瓣電影數(shù)據(jù)分析太過寬泛了,具體關(guān)鍵指標(biāo)到底是哪些呢?;b.沒有一個(gè)確切有效的分析模型/框架,會(huì)有種東一塊西一塊的拼接感。
即便有著這些缺點(diǎn),我還是想把它掛上來,主要是因?yàn)椋?.當(dāng)做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進(jìn)行分析確實(shí)很難找到一條業(yè)務(wù)邏輯線支撐,總體上還是描述統(tǒng)計(jì)為主;3.比起網(wǎng)上能搜到的其他豆瓣電影數(shù)據(jù)分析,它更為詳細(xì),可視化效果也不錯(cuò);
本篇報(bào)告旨在針對(duì)豆瓣電影1990-2020的電影數(shù)據(jù)進(jìn)行分析,首先通過編寫Python網(wǎng)絡(luò)爬蟲爬取了51375條電影數(shù)據(jù),采集對(duì)象包括:電影名稱、年份、導(dǎo)演、演員、類型、出品國家、語言、時(shí)長、評(píng)分、評(píng)論數(shù)、不同評(píng)價(jià)占比、網(wǎng)址。經(jīng)過去重、清洗,最后得到29033條有效電影數(shù)據(jù)。根據(jù)電影評(píng)分、時(shí)長、地區(qū)、類型進(jìn)行分析,描述了評(píng)分與時(shí)長、類型的關(guān)系,并統(tǒng)計(jì)了各個(gè)地區(qū)電影數(shù)量與評(píng)分。之后,針對(duì)演員、導(dǎo)演對(duì)數(shù)據(jù)進(jìn)行聚合,給出產(chǎn)量與評(píng)分最高的名單。在分析過程中,還發(fā)現(xiàn)電影數(shù)量今年逐步增加,但評(píng)分下降,主要原因是中國地區(qū)今年低質(zhì)量影視作品的增加。
另外,本篇報(bào)告還爬取了電影票房網(wǎng)( )1995-2020年度國內(nèi)上映的影片票房,共采集4071條數(shù)據(jù),其中3484條有效。進(jìn)一步,本文分析了國內(nèi)院線電影票房年度變化趨勢(shì),票房與評(píng)分、評(píng)價(jià)人數(shù)、時(shí)長、地區(qū)的關(guān)系,票房與電影類型的關(guān)聯(lián),并給出了票房最高的導(dǎo)演、演員與電影排名。
清洗、去重后,可以看到29033條數(shù)據(jù)長度、評(píng)分、評(píng)論數(shù)具有以下特點(diǎn):
結(jié)合圖1(a)(b)看,可以看到電影數(shù)據(jù)時(shí)長主要集中在90-120分鐘之間,向兩極呈現(xiàn)階梯狀遞減,將數(shù)據(jù)按照短(60-90分鐘),中(90-120分鐘),長(120-150分鐘),特長(150分鐘)劃分,各部分占比為21.06%, 64.15%, 11.95%, 2.85%。
結(jié)合圖2(a)看,可以看到我們采集到的電影數(shù)據(jù)評(píng)分主要集中在6.0-8.0之間,向兩極呈現(xiàn)階梯狀遞減,在此按照評(píng)分劃分區(qū)間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。
這5種電影數(shù)據(jù)的占比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再將評(píng)分?jǐn)?shù)據(jù)細(xì)化到每年進(jìn)行觀察,可以發(fā)現(xiàn),30年內(nèi)電影數(shù)量與年度電影均分呈反相關(guān),年度均分整體呈現(xiàn)下降趨勢(shì),2016年電影均分最低,電影數(shù)量最多。
進(jìn)一步做出每個(gè)年份下不同評(píng)級(jí)等級(jí)的電影數(shù)據(jù)占比,可以發(fā)現(xiàn),近年來,評(píng)分在[2.0,6.0)的電影數(shù)據(jù)占比有著明顯提升,評(píng)分在[6.0,7.0)的數(shù)據(jù)占比不變,評(píng)分在[7.0,10.0)的數(shù)據(jù)占比減少,可能原因有:
對(duì)照?qǐng)D5,可以發(fā)現(xiàn),評(píng)分與時(shí)長、評(píng)論人數(shù)的分布大致呈現(xiàn)漏斗狀,高分電影位于漏斗上部,低分電影位于漏斗下部。這意味著,如果一部電影的評(píng)論人數(shù)很多(特別是超過30w人觀影),時(shí)長較長(大于120min),那么它大概率是一部好電影。
根據(jù)各個(gè)國家的電影數(shù)量作圖,可以得到圖6,列出電影數(shù)量前十的國家可得表格2,發(fā)現(xiàn)美國在電影數(shù)量上占第一,達(dá)到8490部,中國其次,達(dá)6222部。此外,法國,英國,日本的電影數(shù)量也超過1000,其余各國電影數(shù)量相對(duì)較少。這可以說明美國電影有著較大的流量輸入,在中國產(chǎn)生了較大的影響。
進(jìn)一步分析各國電影的質(zhì)量,依據(jù)評(píng)分繪制評(píng)分箱線圖可得圖7,在電影數(shù)量排名前20的國家中:
接著我們可以探索,哪個(gè)國家的電影對(duì)豆瓣評(píng)分隨年份下降的貢獻(xiàn)最大,考慮到電影數(shù)量對(duì)應(yīng)著評(píng)分的權(quán)重。根據(jù)上述各國的電影評(píng)分表現(xiàn),我們可以猜測(cè)電影數(shù)量較多的國家可能對(duì)年度均分的下降有較大影響。于是,我們?cè)儆?jì)算出這些國家的年度電影均分,并與整體均分進(jìn)行比較分析。
再作出中國大陸,中國臺(tái)灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低于港臺(tái)電影,且存在大量低分電影拉低了箱體的位置。
分析相關(guān)性可得,大陸、香港、臺(tái)灣電影年度均分與全部評(píng)分關(guān)聯(lián)度分別為R=0.979,0.919,0.822,說明濾去臺(tái)灣和香港電影,大陸電影年度均分的變化趨勢(shì)與全部評(píng)分變化更接近。圖9(b)可以進(jìn)一步反映這一點(diǎn)。
可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區(qū)間范圍內(nèi),劇情、喜劇、愛情、犯罪、動(dòng)作類電影數(shù)量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影占比最多,音樂、傳記類電影平均得分更高,但在數(shù)量上較少,動(dòng)作、驚悚類電影評(píng)論人數(shù)雖多,但評(píng)價(jià)普遍偏低。
除此之外,還有兩塊區(qū)域值得關(guān)注:
根據(jù)類型對(duì)電影數(shù)據(jù)進(jìn)行聚合,整理得到各類型電影評(píng)分的時(shí)間序列,計(jì)算它們與整體均分時(shí)間序列的相關(guān)性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢(shì)變化相關(guān)性最強(qiáng),同時(shí)劇情、喜劇類電影在電影數(shù)量上也最多,因此可以認(rèn)為這兩類電影對(duì)于下跌趨勢(shì)影響最大,但其余類別電影的相關(guān)性也達(dá)到了0.9以上,說明幾種熱門的電影得分的變化趨勢(shì)與總體均分趨勢(shì)一致。
前面已經(jīng)得知,中美兩國電影占比最高,且對(duì)于均分時(shí)間序列的影響最大。在此,進(jìn)一步對(duì)兩國電影進(jìn)行類型分析,選取幾種主要的類型(數(shù)量上較多,且相關(guān)性較高)進(jìn)行分析,分別是劇情,喜劇,愛情,驚悚,動(dòng)作,懸疑類電影,繪制近年來幾類電影的數(shù)量變化柱狀圖與評(píng)分箱線圖可得圖12,13,14,15。
對(duì)導(dǎo)演與演員進(jìn)行聚合,得到數(shù)據(jù)中共有15011名導(dǎo)演,46223名演員。按照作品數(shù)量在(0,2], (2,5], (5,10], (10,20], (20,999]進(jìn)行分組統(tǒng)計(jì)導(dǎo)演數(shù)量,可以發(fā)現(xiàn),15009名導(dǎo)演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍?zhí)椎难輪T,數(shù)據(jù)總體符合二八定律,即20%的人占據(jù)了行業(yè)內(nèi)的大量資源。
在此,可以通過電影得分、每部電影評(píng)論人數(shù)以及電影數(shù)目尋找優(yōu)秀的電影導(dǎo)演與演員。這三項(xiàng)指標(biāo)分別衡量了導(dǎo)演/演員的創(chuàng)作水平,人氣以及產(chǎn)能。考慮到電影數(shù)據(jù)集中可能有少量影視劇/劇場(chǎng)版動(dòng)畫,且影視劇/劇場(chǎng)版動(dòng)畫受眾少于電影,但得分普遍要高于電影,這里根據(jù)先根據(jù)每部電影評(píng)論數(shù)量、作品數(shù)量來篩選導(dǎo)演/演員,再根據(jù)電影得分進(jìn)行排名,并取前30名進(jìn)行作圖,可得圖17,18。
結(jié)合電影票房網(wǎng)( )采集到的3353條票房數(shù)據(jù),與豆瓣數(shù)據(jù)按照電影名稱進(jìn)行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內(nèi)地電影的數(shù)量、票房變化趨勢(shì),票房與評(píng)分、評(píng)價(jià)人數(shù)、時(shí)長、地區(qū)以及類型的關(guān)系,此外還給出了不同導(dǎo)演與演員的票房表現(xiàn)以及影片票房排名。
如圖19所示,國內(nèi)票房數(shù)據(jù)與上映的電影數(shù)量逐年遞增,2020年記錄的只是上半年的數(shù)據(jù),且由于受疫情影響,票房與數(shù)量驟減。這說明在不發(fā)生重大事件的情況下,國內(nèi)電影市場(chǎng)規(guī)模正在不斷擴(kuò)大。
對(duì)電影數(shù)據(jù)根據(jù)類型進(jìn)行聚合,繪制散點(diǎn)圖21,可以發(fā)現(xiàn):
提取導(dǎo)演/演員姓名,對(duì)導(dǎo)演/演員字段進(jìn)行聚合,計(jì)算每個(gè)導(dǎo)演/演員的票房總和,上映電影均分、以及執(zhí)導(dǎo)/參與電影數(shù)目進(jìn)行計(jì)算,作出票房總和前30名的導(dǎo)演/演員,可得圖22,23,圖中導(dǎo)演/演員標(biāo)號(hào)反映了票房排名,具體每位導(dǎo)演/演員的上映影片數(shù)量、均分、每部電影評(píng)價(jià)人數(shù)、平均時(shí)長與總票房在表5、表6中給出。
最后根據(jù)電影票房進(jìn)行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號(hào)為3、10、12、14、18、19為美國電影,這也反映了除國產(chǎn)電影之外,好萊塢大片占據(jù)較大的市場(chǎng)。
本篇報(bào)告采集了1990-2020年間豆瓣電影29033組有效數(shù)據(jù),從豆瓣電影的評(píng)分、時(shí)長、地區(qū)、類型、演員、導(dǎo)演以及票房等信息進(jìn)行分析評(píng)價(jià),主要有以下結(jié)論:
簡書用戶畫像 之 如何挖掘用戶的電影喜好
我在 《爬取百萬頁面 分析用戶畫像》 中分析了用戶的書籍喜好,這里繼續(xù)嘗試通過影評(píng)文章的抓取、內(nèi)容清洗、影評(píng)句子提取,建立機(jī)器學(xué)習(xí)情緒預(yù)測(cè)模型,挖掘分析用戶對(duì)流行電影的喜好。
涉及的NLP(自然語言處理)知識(shí)點(diǎn):
涉及的ML(機(jī)器學(xué)習(xí))知識(shí)點(diǎn):
電影的拍攝成本高、票價(jià)也不低,消費(fèi)者投入的關(guān)注度和觀看成本高(最終的投入成本是包括注意力投入、金錢投入、時(shí)間投入和感情投入)。
簡單算下觀看一部電影的成本(步驟):先看下預(yù)告內(nèi)容,做下同期上映電影的比較,覺得導(dǎo)演、演員陣容都不錯(cuò),下定決心要看了,跟男/女友/老婆 /老公/基友/閨密做推薦,推薦成功后去選座買票,觀影當(dāng)天說不定還得先吃個(gè)飯,飯后乖乖的在影院呆上90分鐘(關(guān)鍵時(shí)刻還得憋尿),觀影結(jié)束后指不定還得來個(gè)夜宵、開個(gè)房間探討下人生什么的。。。
讀一本書的成本(步驟):1.打開書/電子閱讀器/手機(jī);2. 讀!
這樣對(duì)比看一部電影比讀一本書的投入成本高多了!
因此觀眾給出的反饋?zhàn)匀灰脖葧畷?huì)強(qiáng)烈一些,特別是滿懷期待看完卻發(fā)現(xiàn)是一部爛片,有種上當(dāng)受騙的感覺。
因此對(duì)電影光是通過詞頻作為喜好度是不夠的,用戶可能反復(fù)的在罵呢。
所以需要引入多一個(gè)分析的因子:情緒。用戶提及某個(gè)電影時(shí)的情緒是怎么樣的,是積極愉悅、還是負(fù)面憤怒,加上這個(gè)才能有效判定用戶對(duì)電影或者某個(gè)事物的喜好。
在豆瓣上,用戶的評(píng)分就是最直接的情緒數(shù)值:5力薦,4推薦,3還行,2較差,1很差。
但在這類寫作平臺(tái)上,發(fā)布文章時(shí)是沒有一個(gè)選項(xiàng)來填寫分?jǐn)?shù),也沒提供選擇心情的選項(xiàng)。
“所言即其所思”,這是普遍人性。每個(gè)用戶寫下的文字表達(dá)想法,在字里行間都會(huì)不經(jīng)意的使用一些情緒用詞來表達(dá),這些便是我可以獲取的“原始數(shù)據(jù)”。
精準(zhǔn)推薦!用戶談?wù)摰枚嗟臇|西未必是TA所喜愛的,也許是TA痛恨的(比如說前任)。如果用戶在自己大力差評(píng)某部電影的文章底部看到另一部相似爛片的推薦,推薦文案還寫著“親,我猜你還喜歡看這些”,估計(jì)這用戶會(huì)有種吃了蒼蠅剛吐出來發(fā)現(xiàn)迎面又飛來幾只的感覺。
通過用戶在討論某事物時(shí)上下文的情緒分析,來判斷對(duì)該事物的喜惡,將預(yù)測(cè)結(jié)果加入對(duì)事物的打分計(jì)算中,最后得出一個(gè)可量化、可計(jì)算的分?jǐn)?shù)值,便是一個(gè)精準(zhǔn)推薦系統(tǒng)的需要解決的問題。
理論上只需要一句話:要識(shí)別出文章中提及的電影,以及作者對(duì)該電影的評(píng)論,是好評(píng)還是差評(píng),作為文章作者對(duì)該電影的喜惡,并根據(jù)評(píng)論的情緒強(qiáng)烈程度轉(zhuǎn)化為喜惡程度即可。
那實(shí)際上,就要解決以下問題:
下面逐一細(xì)說。
我采集了上幾個(gè)比較受歡迎的電影專題以及一個(gè)大V帳號(hào)文章(數(shù)據(jù)截止至采集數(shù)據(jù)時(shí)):
但由于對(duì)專題頁面加了訪問限制,每個(gè)專題只能訪問到最新的200個(gè)列表頁面,因而每個(gè)專題可獲取2~3000篇文章,以此作為抽樣數(shù)據(jù)樣本。
要分析對(duì)電影的評(píng)價(jià),首先就要獲取到文章中提到電影名稱有哪些,最簡單的匹配規(guī)則便是提取書名號(hào) 《》 內(nèi)的內(nèi)容。
而實(shí)際獲取到的電影名稱真可謂“臟亂差”,有電影名、書籍名、文章名等,有些電影名稱會(huì)用縮寫引用(如《變1》、《復(fù)聯(lián)》、《生化危機(jī)4/5/6》),或者中英文混合在一起(如《機(jī)器人總動(dòng)員(wall-e)》),甚至還有錯(cuò)漏別字(如《那些年,我們一起追過的女孩》,多了個(gè)“過”字),以及包含中英文特殊標(biāo)點(diǎn)空白符號(hào)等,例如:
因此需要進(jìn)行一輪“數(shù)據(jù)大清洗”,我使用如下清洗策略:
其中“電影專用詞典”,是通過采集了 「貓眼 影片總票房排行榜」 2000~2017年間上榜的所有電影,約有3000+部,如圖:
再根據(jù)文章中所收集到的電影名稱的候選文本,抓取「豆瓣網(wǎng)」的官方電影名字(遭遇了豆瓣業(yè)內(nèi)聞名的反爬策略就不多說了),合并去重后約有8400多部。看一眼才發(fā)現(xiàn)好多電影連聽都沒聽過,有些電影名稱還挺有趣,以后有時(shí)間還可以做下電影名稱的分析。
為了解決錯(cuò)別字,我通過文本相似性算法,在電影專用詞典里找出與之最相似名稱。
知名的相似算法有不少,如:
經(jīng)過簡單比較,我選擇了其中表現(xiàn)最好的 jaro_winkler_distance
運(yùn)用到文章內(nèi)容上,可得到相似電影名稱,感覺效果還可以:
構(gòu)建一個(gè)Pipeline用于提取頁面中電影名稱,對(duì)單個(gè)頁面測(cè)試效果如下:
運(yùn)用到所有頁面上:
至此完成了電影名稱的提取、清洗,得出每篇文章提及的電影名稱,如圖:
判斷一篇文章的情緒,最簡單的做法是通過提取所有情緒詞來統(tǒng)計(jì)下詞頻及其權(quán)重可得到一個(gè)粗糙的結(jié)果,但這樣的結(jié)果對(duì)“影評(píng)”類文章不是很準(zhǔn)確。
根據(jù)觀察,一篇電影評(píng)論文章中,往往會(huì)有大段的電影情節(jié)描述,然后夾雜一兩句評(píng)論。而有些電影本身劇情就是比較負(fù)面、陰暗的(如災(zāi)難片類的),但影片本身質(zhì)量很高(如《釜山行》,豆瓣評(píng)分8.2),如果文章內(nèi)容包含大量的劇情描述,那么得到關(guān)鍵詞會(huì)偏向于負(fù)面情緒,并不能用于表達(dá)出作者對(duì)電影的喜好情緒。
因此我使用了這樣的提取策略:
評(píng)論句子提取的結(jié)果示例如下:
這樣的策略對(duì)有些內(nèi)容不是很適用,例如這樣的標(biāo)題:《同樣是豆瓣9.2分,它或許比《摔跤吧!爸爸》更深》,這是典型的“借勢(shì)營銷”型文案,文章內(nèi)容中推介的是另外一部韓國電影《熔爐》,而時(shí)下《摔跤吧!爸爸》正熱,標(biāo)題中帶上這個(gè)會(huì)更吸引用戶點(diǎn)擊。
另外一個(gè)思路是對(duì)文章進(jìn)行摘要提取,然后對(duì)摘要進(jìn)行情緒識(shí)別。而對(duì)于文章的主題提取,可以使用在ML算法中的用于解決 主題模型 問題的算法(如LDA),但不確定是否適合影評(píng)這種混合了大量劇情描述的文章內(nèi)容。
得到相關(guān)評(píng)論文本后,便可對(duì)文本進(jìn)行分詞及情緒識(shí)別,這里有兩種做法,一是使用帶有情緒情感度的專業(yè)詞典,配合專有算法;另外一種是使用機(jī)器學(xué)習(xí)算法。
一開始我使用了大連理工大學(xué)的《大連理工情感詞匯本體庫》,是目前最權(quán)威的中文情緒詞典,共含有情感詞共計(jì)27466個(gè),包含了詞語的詞性種類、情感類別、情感強(qiáng)度及極性等信息,例如:
中文情感詞匯本體的情感分類體系是在國外比較有影響的Ekman的6大類情感分類體系的基礎(chǔ)上構(gòu)建的。在Ekman的基礎(chǔ)上,詞匯本體加入情感類別“好”對(duì)褒義情感進(jìn)行了更細(xì)致的劃分。最終詞匯本體中的情感共分為7大類21小類,如圖:
把情感詞典加入分詞詞典,對(duì)候選每個(gè)句子進(jìn)行分詞,得出情感詞組,并累加每個(gè)情感詞的強(qiáng)度值作為句子的情感值。
但經(jīng)過測(cè)試后,發(fā)現(xiàn)預(yù)測(cè)效果并不理想,究其原因發(fā)現(xiàn)是情感詞典中命中的詞語太少,在句子中得不到相關(guān)詞語,也就無法判斷情感極性和強(qiáng)度。
使用情感詞典的測(cè)試結(jié)果:
而專業(yè)詞典的擴(kuò)展需要專業(yè)領(lǐng)域知識(shí),擴(kuò)展起來很困難,我目前沒找到更新的專業(yè)詞典,國內(nèi)這塊的資料相當(dāng)匱乏,而國外有個(gè)知名的SentiWordNet庫,中文NLP研究的難度系數(shù)可想而知。
鑒于情感詞典的資源限制,決定嘗試使用機(jī)器學(xué)習(xí)來對(duì)文本做正、負(fù)面情緒預(yù)測(cè)。
1). 構(gòu)建分詞詞典:
分詞需要構(gòu)建專用領(lǐng)域的詞典,這樣得到的分詞結(jié)果才會(huì)更精確。
因?yàn)橹恍枰姓?fù)情感類別、不需要有情感強(qiáng)度及極性等信息,我使用了網(wǎng)絡(luò)上公開的一些情感詞典,:
合并、清洗和去重后,最終構(gòu)建出了 14000+ 個(gè)詞的積極情緒詞典, 18000+ 個(gè)詞的消極情緒詞典。
積極詞典:
消極詞典:
2). 準(zhǔn)備訓(xùn)練語料
從網(wǎng)上搜集到幾個(gè)帶有積極、消極的標(biāo)注的評(píng)論語料數(shù)據(jù)集,分別包含了書籍、DVD、音樂、購物領(lǐng)域的各有4000條評(píng)論,如下圖:
可惜沒找到中文影評(píng)相關(guān)的語料,但找到 國外英文的影評(píng)語料 ,對(duì),英文資料很豐富。。。
3). 訓(xùn)練模型
由于是文本型特征,分類算法上選擇了 樸素貝葉斯 ,把數(shù)據(jù)分為2份,一半訓(xùn)練,另一半做測(cè)試。
使用 jieba 分詞工具,對(duì)文本進(jìn)行分詞得到候選詞組,把得到的詞組作為特征輸入來訓(xùn)練情緒預(yù)測(cè)模型。
訓(xùn)練后的模型測(cè)試結(jié)果如下:
訓(xùn)練后的模型在書籍、音樂、影碟及購物評(píng)論的語料上都有不錯(cuò)的效果。
在提取出的影評(píng)短句上測(cè)試:
又是“無聊”、“又俗又傻”而一個(gè)“但”字就反轉(zhuǎn)了情緒,真是難為分類器了:
經(jīng)過反復(fù)對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)語料的質(zhì)量決定了模型的精度,而語料的擴(kuò)展對(duì)比擴(kuò)展專業(yè)詞典卻容易多了。例如幾年前都沒有“ 因吹斯汀 ”這些網(wǎng)絡(luò)流行詞,更不知道它代表是正面情緒,以后只要不斷更新相關(guān)領(lǐng)域的語料庫來重新訓(xùn)練則可得到更精確的模型。
俗話說“是騾子是馬拉出來遛遛”。
得到一個(gè)預(yù)測(cè)情緒的模型后,便可對(duì)影評(píng)文章進(jìn)行預(yù)測(cè),但預(yù)測(cè)的結(jié)果是否準(zhǔn)確?準(zhǔn)確率又有多高?這又是個(gè)問題。
每當(dāng)事情陷入停滯,我就會(huì)想起日本漫畫大師安達(dá)充說過“當(dāng)故事情節(jié)發(fā)展不下去的時(shí)候,加入一個(gè)新角色,是最簡單的做法”。
這時(shí)需要祭出一個(gè)“旁證”了。這所謂的“旁證”,也就是目前大家比較認(rèn)可的電影評(píng)分網(wǎng)站——豆瓣網(wǎng)。
大家都知道豆瓣網(wǎng)上的電影用戶通過打星(5力薦,4推薦,3還行,2較差,1很差),轉(zhuǎn)換得出的10分制的評(píng)分,我們可簡單把1 4.9分視作負(fù)面評(píng)價(jià)、5 10分視作正面評(píng)價(jià),沒有分?jǐn)?shù)的視作中性評(píng)價(jià)。再把豆瓣的評(píng)價(jià)結(jié)果視作大部分人認(rèn)同的結(jié)果,當(dāng)然這樣肯定是有偏差的。
大膽假設(shè),小心求證,先試試看吧。
根據(jù)電影名詞典再次去抓取豆瓣網(wǎng)上的電影信息,這次包含了電影分?jǐn)?shù)::
使用獲取到的電影專題『電影院』文章內(nèi)容測(cè)試,結(jié)果如下:
1048篇中,豆瓣評(píng)分結(jié)果與模型預(yù)測(cè)符合的有974篇,準(zhǔn)確率是92.9%,WOW!真的這么準(zhǔn)嗎?
看下詳細(xì)結(jié)果,豆瓣評(píng)分是正面的有1022條,預(yù)測(cè)對(duì)了973篇,例如:
而豆瓣評(píng)分是負(fù)面的有28條記錄,而模型只預(yù)測(cè)出1篇是負(fù)面的:
真的是模型預(yù)測(cè)錯(cuò)了嗎?
從負(fù)面例子中抽樣看看模型分解的結(jié)果:
評(píng)論《麻煩家族》(豆瓣評(píng)分4.8)的:
從自動(dòng)摘要出來的句子來看,實(shí)際上文章作者表現(xiàn)出正面情緒,模型預(yù)測(cè)為正面,預(yù)測(cè)正確 ??。
再看評(píng)論同一部電影的另外一個(gè)文章的評(píng)論:
作者顯然是給了個(gè)差評(píng),但模型給了出的預(yù)測(cè)是正面,預(yù)測(cè)錯(cuò)誤 ??。
負(fù)例的預(yù)測(cè)準(zhǔn)確率低,有兩個(gè)原因,一個(gè)是豆瓣評(píng)分正負(fù)標(biāo)準(zhǔn)的閥值設(shè)定不夠精準(zhǔn),二是訓(xùn)練數(shù)據(jù)不平衡。
之前使用的閥值策略是:“簡單把1 4分視作負(fù)面評(píng)價(jià)、5 10分視作正面評(píng)價(jià),沒有分?jǐn)?shù)的視作中性評(píng)價(jià)”。
我猜測(cè)在4~5分這個(gè)區(qū)間應(yīng)該是灰度地帶,正負(fù)面評(píng)論都會(huì)有。為了驗(yàn)證這個(gè)猜想,使用獲取到的所有豆瓣電影分?jǐn)?shù),導(dǎo)入數(shù)據(jù)分析工具中,排除掉沒有分?jǐn)?shù)的條目后得到6500+條電影數(shù)據(jù),其中最低是2.1,最高是9.7。
查看評(píng)分分布的直方圖與比例餅圖:
調(diào)整區(qū)間閥值,把 2.1-4.9 劃分為一個(gè)區(qū)間,系統(tǒng)自動(dòng)分成了3組分值:
發(fā)現(xiàn)5分以下電影僅占12%。
從評(píng)分分布結(jié)果看,在上大部分人寫文章是針對(duì)高分(好評(píng))電影為主,低分(差評(píng))電影的文章數(shù)量很少,從提取出來的數(shù)據(jù)量看,兩者比率約為100:3。
訓(xùn)練數(shù)據(jù)不平衡導(dǎo)致正例過擬合,而負(fù)例欠擬合。
要解決數(shù)據(jù)不平衡問題,可以重新采樣訓(xùn)練集。有兩種方法使不平衡的數(shù)據(jù)集來建立一個(gè)平衡的數(shù)據(jù)集——欠采樣和過采樣,解釋如下:
由于訓(xùn)練數(shù)據(jù)不多,我使用了 過采樣 中的自舉方案。我將另外一個(gè)的電影專題『影視天堂』中模型預(yù)測(cè)結(jié)果與豆瓣評(píng)分結(jié)果一致的內(nèi)容作為訓(xùn)練數(shù)據(jù)集來強(qiáng)化訓(xùn)練模型:
然后再對(duì)電影專題『電影院』測(cè)試一次:
負(fù)例的準(zhǔn)確率改善了一些些,這說明效果是有的,以后只需繼續(xù)獲取到新的數(shù)據(jù)再“喂”給模型,模型預(yù)測(cè)結(jié)果會(huì)越來越精準(zhǔn)。
至此,得到一個(gè)不算成熟的電影情緒預(yù)測(cè)模型,可以用來做一些有趣的統(tǒng)計(jì)分析了。
將『影視天堂』專題的分析結(jié)果在數(shù)據(jù)分析工具上進(jìn)行數(shù)據(jù)可視化展示,得到一個(gè)「長尾圖」:
從報(bào)表中可得到這些信息:
注1:嚴(yán)格來說《歡樂頌》不是電影而是電視劇作品,在用豆瓣網(wǎng)的數(shù)據(jù)構(gòu)建電影詞典時(shí)我沒有做嚴(yán)格區(qū)分
注2:專題的數(shù)據(jù)獲取是在5月份完成的,以及專題的最新收錄文章有訪問限制,無法獲取到舊的文章,因此得到的當(dāng)時(shí)熱門影視作品的影評(píng),從而呈現(xiàn)出信息跟當(dāng)時(shí)熱播作品比較相關(guān)
再對(duì)先前獲取到的 1萬個(gè)用戶的近60萬篇文章內(nèi)容 ,運(yùn)行相應(yīng)的Pipeline進(jìn)行電影情緒數(shù)據(jù)的提取。
可視化數(shù)據(jù)后得到圖表:
現(xiàn)在可以看看,上用戶給予好評(píng)的電影有哪些,使用「詞云圖」展示如下:
用戶給予差評(píng)的電影有哪些:
現(xiàn)在也可以精準(zhǔn)了解每一個(gè)用戶的電影口味了,以 『毒舌電影 - 』 為例子:
注3:本文發(fā)表時(shí)上“毒舌電影”經(jīng)歷過被封事件后已改名為“Sir電影”;專題“影視天堂”已改名為“電影”
以后做電影個(gè)性化推薦可就不要推薦錯(cuò)了 ??。
關(guān)于豆瓣電影數(shù)據(jù)可視化項(xiàng)目和豆瓣電影大數(shù)據(jù)分析的介紹到此就結(jié)束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關(guān)注本站。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。