如果需要保留其他的用戶信息,例如cookieid,登錄名,訪問時(shí)間等信息,這個字符串會更加復(fù)雜些。如果我們研究目的比較簡單,還可以進(jìn)一步處理,如果不需要對步長信息進(jìn)行分析,我們可以去掉相鄰重復(fù)的一些數(shù)據(jù),把上式簡化為” a,c,0,a,p,c,0,c,t,0”。
這個過程請參看圖2中的①和②,由此我們可以得到多個用戶的路徑的字符串形式的文件。
圖2
得到這個聚焦式用戶路徑文件后,我們就可以對這個字符串文件進(jìn)行分析了。例如,我們需要計(jì)算a頁面后有多少個c頁面,需要能忽略中間的翻頁頁面(p頁面)。在上例中的這個用戶的字符串中,就是1個用戶,2次c頁面。如果在訪問了其他頁面之后再訪問c頁面的行為也可計(jì)算入內(nèi)的話,那就是1個用戶,3次c頁面。
接下來就是分析的樣本量問題。一般分析過程中會講究“多而全”,但數(shù)據(jù)量大到一定級別,分析1/10甚至1/100人群與分析全樣本所得到的結(jié)果相差無幾,花費(fèi)很多資源去提升一點(diǎn)精確度是一件很得不償失的事情。因此可以酌情分析小樣本量,節(jié)省分析成本。
由于目標(biāo)頁面業(yè)務(wù)的獨(dú)特性,每次需要分析的方式也很個性化。路徑查詢器可以靈活應(yīng)對各種查詢。例如,我們需要計(jì)算a后面有t的人次,a后面緊跟著c的人次,行為符合某種模式的用戶數(shù)有多少等等。需要統(tǒng)計(jì)的模式在分析算法配置文件(圖2中的③)中進(jìn)行配置,查詢器會計(jì)算并導(dǎo)出最終結(jié)果。
另外,查詢器還支持分類信息查詢,根據(jù)用戶路徑文件的配置信息,對每種分類的人群分別查詢,或者導(dǎo)出符合某種模式的人群Cookieid,用戶名等,與其他數(shù)據(jù)存儲媒介聯(lián)接,取得這部分人群的其他信息,從而進(jìn)行綜合分析。
這種方法優(yōu)點(diǎn)在于比較靈活,如果網(wǎng)站的URL規(guī)則比較規(guī)范,在配置過程中可以多采用正則表達(dá)式,從而可以發(fā)現(xiàn)更多有趣的現(xiàn)象。
本文鏈接:http://m.95time.cn/tech/site/2010/8017.asp
出處:alibaba.com中國站
責(zé)任編輯:bluehearts
上一頁 聚焦式分析 [1] 下一頁
◎進(jìn)入論壇網(wǎng)站綜合、網(wǎng)頁制作版塊參加討論
|