神策数据干货：利用数据驱动计算热门榜单

2018年06月16日由荟荟发表 704464 0

用户行为数据在产品功能中的应用多种多样，一个典型且容易理解的例子是各类榜单的计算。

几乎所有的小说、视频、音乐等内容网站都有不止一处的榜单，这些榜单主要的数据依据就是用户的行为数据，下面我们来简单看看这一过程是如何进行的。

首先，我们需要采集到用户在产品上的各类行为，例如搜索、浏览、播放等行为，这些行为需要通过 APP 或者浏览器发送，然后到达数据接收服务。

紧接着，我们需要对这些数据进行清洗。行为数据中会存在大量的非法数据，包括机器访问（例如搜索引擎爬虫）、非正常用户访问（例如靠刷量产生的用户），或者干脆直接就是程序模拟的行为数据。这些数据会导致榜单数据不准确，因此需要在这个阶段进行清洗。

由于要兼顾榜单的时效性，实时的数据清洗一般只能利用一个较短窗口期内的数据来做决策，并且无法回溯数据。例如对于一个特定 IP 的访问，可能处理了 500 条之后才能判断来自该 IP 的访问是非法的，但是这个 IP 的行为可能已经被用于之前榜单的计算了。

在经过这一阶段之后，我们就可以拿行为数据来计算实时的热门榜单并将其更新到产品上。根据产品需求的不同，可能是秒级的实时更新，也可能是 5 分钟甚至半小时级别更新。

实时的行为数据不能在计算完成之后就丢掉，而需要被持久地存储。因为除了实时的热门榜单，一般的内容网站往往还会提供周榜、月榜等周期的榜单。这些榜单需要更长周期的数据以及更复杂的策略，例如综合考虑播放量、播放时长、评分等信息。并且，在这一阶段我们有了更丰富的信息，可以对数据进行进一步的清洗，例如可以找出那些长期进行刷量的黑名单，以进一步提高数据的可靠性。由于更新周期足够长，在最终的结果被使用之前还可以加上人工的编辑审核，以确保榜单结果符合产品运营的需求。

标签：

公司板神策数据

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇神策数据干货下载 | 如何完成产品和运营的数据驱动闭环?

下一篇神策数据：“神策杯”2018高校算法大师赛

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）