四月遐思

4 月 28日

每个人真正青梅竹马的是时间。认识这位青梅竹马的朋友却和认识自己一样难。有必要重新认识这位朋友,以便让它在生命中发挥更重要的作用,毕竟,时间离去,就代表着生命终将到达尽头。

人一过 30 岁(准确地说结婚有孩子后),能够自由分配的时间就越来越少了。接近奔四,更会觉得时间紧迫。到底成为一个什么样的人?今天得到的答案是不能成为一个平庸的人,不平庸,代表着某方面有成就。想获得成就,要有基本条件、要有耐心、要有方法、要坚持。

4 月 3 日

大部分时候,追求的都是结果,目的性很强。极少情况下,追求的是过程。在悲观的人眼里,一切美好的事物在接近和获得之后,就会变得平淡无奇,得到了就意味着结束。随着时间的流逝,旅程的推进,美好的事物终将会衰落,被更美好的事物所替代,所以过程也没有长久可言。

4 月 1 日

总结了一组关键词,并按重要性排了序:

  1. 心力:一切惟心造。愿力强大,目标专注,路径可能尚未清晰,但一定知道方向在哪里。心力强大,能够藐视一切困难、百折不挠,心有定见,不再为虚名、尊严和无关紧要的事耗费心力,就有机会取得胜利。心力主要靠内积,也要从外部寻找滋养,靠近那些让心力增长的人或事,吸收能量。
  2. 认知:认识到认知是可以刷新的,是元认知。保护好注意力(也不要为浪费了注意力而耗费心力),才有条件提升认知。认知很多时候是回归常识和本质,认知需要深度思考。
  3. 时间:唯有时间对每个人是公平的,但时间对于每个人的价值不一样。把时间用在哪里?如何让单位时间的效用最高?健康和精力,本质上是时间。
  4. 消费侧:这不单是个经济术语。主要是指能控制和影响的受众,拥有庞大的受众基数,有渠道触达他们,有平台让他们获益,这是最大的倚仗,通过与受众价值交换而获得。
  5. 供应侧:这也不单是个经济术语。拥有下文技术、管理、资金几个关键词,更容易掌握供应侧。对上游来说,「定价权」是最大的优势。向着供应侧、生产方转移,创造、创作有价值的东西,于个人而言,和消费侧重运营的工作性质有较大的不同。判断自己的优势所在,选择更适合自己的。换句话说,你更适合发现、创造有价值的东西,还是更适合把有价值的东西推向受众。
  6. 技术:学习技术的资源已经没有门槛了。关键在于效率,这时候基础知识的重要性就体现出来了。在年轻力壮时没有把结构性、原理性的知识打通,以后掌握应用层面的技术就更困难一些。困难的另一个方面,还在于日后可自由支配的时间更少。学的越多,知识会自动编织,用一种体系来旁通其它体系,这个体系可能是辩证法。
  7. 管理:纯粹的管理,以团队为单位,控制成本、提高效率为要务。管理之上,成为领袖,大局的公平、效率也只是迎合人心、人性的几个因子而已。
  8. 运营:标准的 OKR (目标-关键成果)体系。是一张地图,知道现在在哪儿,做什么动作,要去哪儿,走了多远。
  9. 资金:当以上关键词都不具备时,拥有大把的资金,做个刘禅就挺好。不动不作,低风险地缓慢收益,享乐就好。当有了大把的资金时,以上只有心力、认知和时间三个买不到,其它关键词,如果用买更合算,那就让资金流动起来。没有资金时,前面 8 点就是赢得资金的关键因素。

生财有术体验营首日思考

第一篇:只有掌握了资源,才有可能获得别人用金钱来换取资源的机会。这些资源可以是技术、商品、流量、渠道、平台,更可以是信息。知道谁需要什么,知道谁可以满足,就可以在其中运作。信息差是反「同理心」的,不能用同理心来获得,需要客观地观察多元化、差异化的用户群体和细分市场。

第二篇:我有幸亲身加入过千团大战,并且是起步较早的那一批。美团 2010 年 3 月上线,我的团购网站晚一个月 4 月上线,为我赚得了第一桶金。现在回归上班,对于普通上班族来说,一定要在出卖固定时间获取工资之外,拥有不靠出卖时间赚钱的能力,规避掉失业风险。要么是投资,要么是打造出实现「睡后收入」的产品,结合第一篇获取信息差的方法,打造这样的产品也并非难事。

第三篇:要善于利用自己的技能优势,自己视为平常的手艺,很多人都不具备,需要付费才能获得相应服务。如何将技能产品化或服务化,并进行规模化,掌握定价权,需要持续思考。这是已有的「资源」,比寻找新的资源更为容易。

写下以上文字后的感悟:学而不思则罔,看的多,却缺乏深度的思考,涉猎再多的信息都是无效的,写下思考的过程和结论,这种方法就很好。思考之外,还需要执行力,知行合一,才能有机会获得财富。

抖音运营手记

2020-11-08 周日

想不如做,说不如干。

周一说了书摘类抖音账号变现思路,周末我们就来实际操作。

找一张图书背景,选择一段以前发在朋友圈广受点赞的文字,再挑选一段轻音乐配好。

还可以合成配音?别的账号似乎没有人这么干,算是创新,编辑好发到抖音上。

再来修改头像、简介,取消以前关注的账号。做完这些事,抖音运营就正式启动了。

我有一颗只要你和别人不一样,就觉得你需要教导的温暖爱心💗#读书 #人性 #智慧 https://v.douyin.com/Jugyy8Y/ 复制此链接,打开抖音,直接观看视频!

第一条视频几分钟内就有 300 多播放量。最终达到 400 多不再增长,30 余个赞,赞比还不错,基本没有粉丝增长。

到了晚上,发出第二条视频,内容来自某号的文案,播放量基本和第一条持平,点赞数仅 10 个,原因可能是没人愿意为扎心的内容再去点赞

#不念过往不畏将来 #智慧 https://v.douyin.com/JugPoru/ 复制此链接,打开抖音,直接观看视频!

这条视频犯了个错误,没有控制播放时长。大约有 12 秒,对完毕率的指标不太友好

两条视频都是 500 个播放量以下,粉丝数增长不到 10 个,无评论。抖音平台应该是先小范围投放曝光,再看点赞与评论,再决定投放范围。

期待明天。

2020-11-09 周一

想到以前在 Kindle 上看书标记了很多句子,看看有哪些可以用。

灵机一动,直接拍个 Kindle 实物照片怎么样?比前两条做起来更简单。

加开幕特效,再根据内容类型,配个稍激昂的音乐,吸取之前没有控制视频时长的教训,控制在 7 秒左右。

对待爱人、孩子也是一样,不应该反复暴露、指责她们的缺点#领袖智慧 #人性 https://v.douyin.com/JugPHph/ 复制此链接,打开抖音,直接观看视频!

上传,触发了审核机制,一直是等待审核的状态。过了 15 分钟左右,被审核通过,播放量停在 50 不动了。尴尬,这可能是条失败的创作(结论先不要下那么早)。

晚上下班时间,再发一条,还是回归到前 2 条的形式,这次内容比较多,来自莎士比亚的《哈姆雷特》,时长控制在 8 秒。

你要了解的#经典名著 #智慧 #人性@DOU+小助手 https://v.douyin.com/Jugyajf/ 复制此链接,打开抖音,直接观看视频

8 秒时间肯定无法看完全部内容,视频自动从头播放,音乐总是在 8 秒间循环,不断地重复,令人烦躁。我觉得这种体验并不好,用户可能会点击暂停去看。

吃晚饭的时候,Kindle 那条视频也超过 400 播放量。看着 4 条播放量均在 470 左右没超过 500 的视频,不禁感叹抖音的算法控制得实在太好。

高潮来了。

Kindle 视频突然点赞数上升,紧接着播放量也开始猛增,以十几秒百级播放量的速度上升。

感觉是肯定能上千的节奏。20:15 播放量 999

可能能达到 3 K 播放量?21:21播放量 8888

破万是有希望了。想截一个 9999 的图,但是涨太快了,没截到。21:42 播放量 1W 整

这么容易做出一个爆款?真是有点小惊喜。不知道最终有会多少播放量,23 点上床睡觉的时候,2.5W 播放量。

其它 3 个视频并没有被带动,只有个位数的增长。

早上醒来,这条视频播放量达到 3.2W,粉丝增长 170 个,点赞约 1100 个。

第 3 条视频就有了这样的成绩,真是鼓舞人心。3

2020-11-09 周二

中午常规发一条,中午 12:10 前后是个好时间,大家吃饭午休是个刷抖音的小波峰。

今天没有太多时间选择内容,内容不够有力道。在关键词句上加了小箭头的特效,算是小优化。

很快播放量破 500,增长停滞。收获了一条评论互动,若干个赞和粉丝。

计划发布 10 条视频后,做一次 Dou+ 推广,使粉丝量尽快达到 1K。

持续稳定地输出高质量的内容,是取胜之道。重点就是选择什么样的书摘内容,晚上继续加油。

一个简单的抖音变现小思路

在抖音中,有一类账号的内容制作较为简单,这类账号就是「书摘」。背景是一本书,从网上搜索一些金句放在书页上,静态图片配乐。以下面这个账号举例:

可以看到,编辑这种视频非常简单,所需时间也短。视频的质量关键在于搜索和选择「书摘」的内容。

我们来看看这个账号的数据方面:

点赞量和粉丝量分别是 430 万和 38 万,最高的一个爆款视频获赞 9.8 万。

那么它又是如何变现的呢?通过橱窗和小黄车,这个账号橱窗中销量排名第一的图书,显示销量为 10.3 万册。现在还没研究清楚销量是如何统计的,假设佣金每本只有 1 元,光这一个产品就赚不少。

这个思路,用在视频号中也未尝不可。

从今天起,坚持每天写作 45 分钟

打两把王者荣耀要 40 分钟,刷一会儿抖音很快半小时过去,清理当天未读的公众号也得一顿饭的功夫。

争取拿出一节课的时间来写作。

为什么是一节课的时间?太长的时间也没有,日常活动的关键词有:陪伴与教育、锻炼、运营网站、阅读、编程、学习、工作任务,各项只用一个小时,也几乎占满了白天的全部时间。

一节课的时间,够简单地写写当天的感悟和思考,但系统性肯定不够,这也是公众号断更的原因,总觉得需要较为完美和系统地输出一个主题,否则对不起订阅的朋友,或者说很担心被订阅的朋友看不起,取关。

对于自己来说,写总比不写强。也许要先满足自己,再「取悦」别人。这样持续下去,说不定才能两者兼得。

今天得到的启发是对「资源」的理解。我们每个人都有很多资源,但因为它很常见,或者你获得它较为容易,所以觉得它很平凡,但这个世界上还有很多人想各种办法求而不得。比如一些电子书,比如某软件的序列号,或者是一些模板、素材,也或者是你习以为常的一项技能,这些不起眼的资源,都能变现。

变现比以前更容易,是因为:

  • 移动支付不像支付现金那样让人心疼,看起来减少的只是数字。
  • 人们已经有了为节省时间小额付费的习惯。
  • 人们有了为别人的劳动买单的意识。尽管这种劳动可能只是简单地搬运、打包,但人们已不再纯粹地享受「免费」,存心只做伸手党。我理解这更类似于「小费」意识。

但把资源变现,还需要方法、平台和渠道。今天的时间不够说。

思考是逻辑和步骤是:

  • 自己有什么资源?资源够不够多,能不能持续输出,输出的成本高不高。
  • 再看寻找这些资源的人群活跃在哪儿,如果没有细分的平台,笼统地说有几亿人都活跃在那五六个 App 上。
  • 如何获得大曝光率?
  • 如何把变现闭环打通?

晴转小雨

🌧

把时间、精力和情绪,用于产生长久价值的行动上。

尤其是情绪,包含着创造和毁灭的能量,不要把情绪用于无意义、无价值的事情上,更不要让情绪蔓延。

平静地说出正确的观点,至于别人如何理解,如何抨击,都是别人的事,不必解释,更不必重复去解释。

大格局,第一步是识别长久价值,第二步是为长久价值提供空间,供它生存、发展、壮大。把多余的东西扔出去,空间就变大了。

想清楚那些真正对我有用的,对我长期有用的,把时间、精力和情绪,都放在它上面。

能不能看懂随缘了

商业的本质是使资源和需求对齐过程中产生溢价。商机,就是发现需求,发现资源,发现对齐的最优路径。

资源分为信息、物质、能力。信息就是我知道别人不知道的事;物质,包含一切有形的商品和产品,也包含资本;能力就是我能而别人不能的无形力量,关系是能力,研发、生产、包装、渠道、流量也是能力。

从拥有的角度来说,分为我的资源和世界的资源。我的资源是有限的,世界的资源是无限的。

我的资源中有重要的两项:发现自己核心资源的能力,发现并使用世界资源的能力。

拥有我的和世界的资源的成本不同。世界的资源在未动用之前,可能无需成本。《老子》说,资源向低姿态方流动。

需求产生市场。市场有不同的维度,客户性质维度有 to B 和 to C,客户的生理属性、社会属性都构成维度。时空均在这些属性中。

可以卖我的资源,或世界的资源。卖向维度切割出来的市场。

发现一个好资源,或创造一个好资源,推向有需求的那群人。

人接收信息的渠道只有眼(50%)、耳(40%)、鼻(10%)。眼睛看到的有静态的和动态的,耳朵听到的是声音。形式上也有维度。对人施加影响的形式,也由此固定。

如果能重上大学,我会对自己说……

上周高考可以查分了。大部分小伙伴两个月后就能走进象牙塔,享受至青春、至快乐的时光。提笔的当下,我都能回忆起上大学前那种后所未有的轻松。

当时对于如何度过大学生活,我并没有深思熟虑。后来的许多岁月中,我依然如此,对即将展开的新生活没有认真审视,以致于回头看时,空留一丝遗憾。

我想大部分人都这样懵懂,那些有清晰目标并为之奋斗的人,早已跃到上一个层级,享受他们的快乐去了。

我时常想,如果有人能在关键时刻给我一些建议,让我“早知三年事,富贵万万年。”那我多么幸运啊!

少走弯路,就是捷径。今年我身边有三个小朋友要上大学,这篇文章就当是小礼物送给他们。

如果给我一次重上大学的机会,我会告诉自己这样度过大学——

掌握学习的技术

如果上了大学后只有一件最重要的事,那就是学会学习。

寒窗苦读了十二年,难道还不会学习吗?

过去,老师制定教学计划,我们在老师的带领下熟记各门功课的知识点和解题思路,力求写下正确的答案。

大学里的一部分课程同样如此,但更多的课程将引导自学的能力。

在大学里,要掌握自学的技能。自己制定计划、收集资料、展开调研。当你想了解一个新领域时,能够快速地搭建起整体知识结构。明确学科要达到的目标、所解决的主要问题,了解它的历史进程和当前状态,能深入思考新概念的本质,了解不同派别的核心观点,掌握学科的精华和前沿内容,和过去的知识、思维建立起联系。

如学习历史、管理、营销、经济,学习写作、理财、人际关系管理、时间管理、情绪管理,学习具体的工具和技术:乐器、编程、Photoshop、炒股等,都能快速阅读大量材料,构建整体轮廓,从中抓住重点,了解原理和本质。

并不是都要学,而是想学哪一样时,或被迫要学时(在工作中,通常要有很多新内容要学),都能迅速入门,进而精通。

以后的世界一定变化更快,需要终生学习,不断迭代更新自己的思维。最坏的情况是,当你需要转行时,也能快速掌握新行业、新岗位所需的知识和技能。

除此以外,工作、社会上的问题一般没有唯一正确的答案。越是开放,就越难获得最佳答案,就需要能够快速地获取新知识、进行分析判断。没有老师带着入门、阅读、练习,自己有计划性地收集资料、调研实践,拿出自己的观点、思路和解决方案来。

我是大学毕业后很多年,才逐渐有了学习的心得。之前上大学学的两个专业分别是会计学和新闻学,都属于文科,和我从事的工作不直接相关。我的岗位是互联网产品经理,需要涉猎的知识面比较广,比如美学、心理学、社会学、计算机、工程管理、数据统计、运营增长等,目前所在行业是大数据和人工智能,也是有大量新的艰涩的内容要学。除此以外,兴趣使然,我也学了 10 多年中医,略有心得。

就我的经验来讲,首先是学得越多,学得越快。尽量多地跨领域学习,知识会自动关联,潜移默化地融合,很多原理性的东西是相通的,“悟性”就会越来越高。

其次是知识框架、结构的搭建,先形成一份知识地图,始终知道所处位置,要去到哪里,全程有清晰的全局视角和脉络感。

然后是抓住某一点的主题性阅读,重点突破,就像“学习方法”这个主题,有非常多的书在写这个内容,拿来通读一遍,心里就有数了。

再是材料的收集整理,信息的选择过滤。建议会上国际互联网,很多最新的内容全球都是以英文首发的,能获得第一手资料。

再是对不同观点的容纳能力。

最后是基于输出的学习。

当然还有更多的技巧。

学习是一门技术,大学中牢固掌握了这门技术,以后将无往不利。

此为第一。

拆解观念

拆解观念的意思是松解已形成的固有观念。

18 岁的时候,很多观念已经形成了。比如,饮食健康观念、地域偏见等,也会有自己的一些禁忌、喜好和原则……上大学后,会有五湖四海的同学,能接触到不同的观念,这对松解观念有好处。

人和人最大的不同,就是三观的不同,人和人最多的冲突,也是三观的不合。

每每心中产生“应该……”、“不应该……”这种信念时,都要关注下心中之神发出这种声音的缘由,避免偏激、执拗。

这方面我也吃过很多亏,一直在修行。

为可预见的事做准备

上大学过程中和毕业以后,必然要发生哪些事儿?

期末考试、英语四六级、恋爱、考驾照、毕业、考研、找工作、买房、结婚、生子……

为必然要发生的事,做好充足的准备。否则,你可能面临非常具体的问题。比如,毕不了业、结不了婚、买不了车(需要摇号)、买不了房(需要若干年的连续纳税)、孩子上不了学(没有当地户口)……

每一个新的阶段,都是可预见的,凡事预则立,不预则废。

对于以上列举的那些事情,是否是人生之路必然的选择?

有句话说:大多数人过的一生,才是值得过的。

还有句话说:人们还像两千年前那样生活,秉承着传统的理念。很多人都不用像过去那样生活,因为世界已经不同了。

结交优秀的朋友

大学时期建立的感情,和其它阶段不同。

大学之前的朋友,会因为走的路不同,渐行渐远。

大学四年,在同一个院系,学着相同的专业,毕业后留在相同的城市,大概率进同一个行业,将会有更多的合作基础。

那些行走在校园里的优秀的老师、同学,尽可能主动地结识他们。靠近优秀,就有机会变得优秀。

去欣赏他们的优秀,去感恩他们对你的影响,去珍惜共同的经历。

读 500 本书

这是个很量化的指标。

每周读两本半,四年后就能达到目标。

一本平常厚度的书,4 小时内可读完;稍厚的书,大概需要 8 小时以上。

就按读完一本书平均按 8 小时算的话(实际上要低于这个时间),5 本书需要 40 小时。

如果每天读 3 小时的话,一周正好是 20 小时。

也就是说,只要保持每天有 3 小时的阅读时间,上完大学后就能读完 500 本书。

每天少 2 小时打游戏、刷抖音,就能完成这个目标。

退而求其次,读完 300 本也能建立起读书的习惯。

如果本文里提到的其它事情都没有完成,仅完成了读书这件事,人生也将不同。

我现在尽量不开车,上下班地铁上看 2 小时,平均每年看几十本。很后悔浪费了大学时的时光。

看书尽可以从感兴趣的书看起,不需要刻意选择。看的多了,自然就会不满足低质内容,进入到更高质量的选择中。

书中自有千钟黍。

书中自有黄金屋。

书中自有颜如玉。

丰富人生经历

在同等时间下,经历的越多,人生就越有厚度。

所以,到达一个新的城市,进入一所新的学府,结识新的同学,尽情体验各种生活。去游玩,去远足,去恋爱……保障安全的前提下,没有经历过的,都可以尝试。

繁华落尽,才能平淡归真。经历过,方风轻云淡。

与过来人交流

年轻的时候,总是低估了经验的价值。有了一些经验后,才知道别人真的知道你不曾经历就不会懂的道理。

多少有点“年少不知曲中意,读懂已是曲中人。”的意味。

听闻过来人的一句话,感觉轻飘飘没有分量,甚至可笑,等到醒悟的时候,才感觉震撼。

我觉得人生的遗憾就在于这里,不经历,不经时间的洗练和社会的毒打,经验就无法获得。

不妨多和过来人聊聊。审问之,慎思之,明辨之。

过来人如果能分享一些经验,何尝不是快乐。

如果有缘看到这篇文章的小伙伴,能稍稍获益,那我的快乐就加倍了。

请将这 9 大类数据业务,牢记在心中

在大数据行业,经常把数据比作石油。长远来看,数据的战略价值不亚于石油,人工智能时代来临之后,相信每个人都能感受到这一点。

石油作为能源物资,尚有部分替代品;而数据,几乎意味着未来数字世界的生存规则。人类生老病死、衣食住行、工作消费、政治文化经济生活等活动都将被数据影响和控制,说统治也不为过。

把数据比作石油,还因为它们有相似的价值提炼过程。

石油从最初原油经过加工,提炼出汽油、柴油,进而合成塑料、橡胶等产品。

数据由原始的形态,经过加工,也会像石油一样有广泛的用途。

但并不是每个人都能说清楚数据能用来做什么,产生什么价值,大部分人可能只有一个模糊的印象。我想通过本文,使大家对大数据的典型应用有更进一步的了解。

1、主数据

狭义的主数据是指多个系统中高度复用的那类数据。当同一个数据在多个系统中存在的时候,主数据的问题就产生了。

举个例子,你收到了本月的工资,银行卡会有一条入账记录。同时,你又有记账的良好习惯,需要在记账软件中手动把工资收入的数字记录进去(除非你不怕隐私泄露,将银行卡交易信息授权给记账软件使用),完成两个数据的同步。如果记错了,很可能这个月的账对不上。这就是主数据的典型问题。银行卡交易数据,对个人来说就是主数据。

主数据是个人和组织价值较高的稳定数据。在多个系统中存在,也体现了它的重要性,所以它还被称为黄金数据。

最早的主数据问题,首先在企业中产生。一家公司,会有很多业务系统,比如 OA 办公系统、财务系统、CRM 客户管理系统、ERP 进销存系统等,如果是一家大型的集团公司,每个子公司同类业务的系统也可能不同。这就造成了同类数据如员工、供应商、客户等,在各个系统中不同步,这会造成业务延迟,甚至统计出错。

主数据本质是拥有数据的主体,保有一致性数据的问题。

个人、公司、政府都会受到这个问题的挑战。常说的数据孤岛,一方面是讲数据锁定在局部,不发生流通,另一方面,是讲同一份数据,不能保持一致性。

主数据的概念出现的非常早,大约 20 年前,IBM 就提出了概念、问题和方法。直到今天,这个问题也解决的不是十分完美。这里面的问题非常多,最重要的有几点:

  • 如何确定是同一个数据?
  • 数据以哪个系统为准(具体到字段级别)?
  • 如何及时同步给其它系统,遇到冲突怎么办?

政务数据共享交换开放,从广义上讲,也属于主数据的范畴,属于国家对政府各部门所拥有的高价值数据的定义、识别与分发。

在日常生活中,我们都已经享受到国家持续解决这个问题所带来的红利。比如异地检车、一网通办等各类便民业务。

在主数据应用领域中,更重要的是数据技术。如使用统一标识(One ID)技术去定位唯一数据,变化数据捕捉(CDC)技术及时发现变动的数据,数据同步技术完成数据的分发等。

2、搜索

这里主要是指全文检索

首先谈谈大家日常使用频率最高的大数据应用——搜索引擎。

百度的网络蜘蛛在全网抓取网页内容,将爬取的网页快照存储在自己的服务器上。毫无疑问,这是真正的大数据。

为了给用户返回精确的结果,接下来还有两件事情。首先是关键词和网页的匹配,其次是搜索结果的排序。

网页的内容,通过分词的手段,将内容打散,判断各词汇的密度,大体猜测出这篇内容讲得是哪方面的内容。这是传统搜索引擎主要做的工作,现代则应用了更多 NLP(自然语言处理)的技术,使程序“阅读”文本内容后“总结中心思想”更为精确。这里主要解决搜得准。

关键词和相关网页建立联系,就是索引,技术上也通过索引的优化,使得搜索结果能在毫秒级返回,这里很考验技术,既需要考虑相同关键词的索引数据尽可能分区集中,避免跨节点的读取延时,又需要考虑多并发(每天几十亿次查询)随机读的性能。这里主要解决搜得快。

搜索引擎另一大核心任务是对结果排序,按关键词密度给网页确定权重的方式,相对低级,内容生成者也容易作弊。排序本质是结果的精确度和内容价值的权重计算。如何靠机器判断内容的价值高低?Google 创建 PR 算法的假设是一个网页被其它网页引用的次数越多,该网页价值就越大,类似于评估论文的重要性的方法是统计它被引用的次数;另外也可以根据结果列表被点击的间隔时间来判断,如果第一个结果条目被点击后,很多人都又很快点击第二个条目,表明第一个结果质量不太高,并不是用户所需要的,系统就会逐步降低第一个条目的权重。类似的判断逻辑会有很多。

搜索引擎也在向个性化搜索结果的方向演进,判断用户的特征,呈现不一样的搜索结果。

明白了搜索引擎的原理,就很容易理解另一种大数据应用——舆情监控系统。可以理解为将有限数量的关键词的搜索结果自动汇总,再按情感聚类,最简单按正面的、负面的聚类,按负面的级别向用户告警。

除此之外,如法律文书的检索,或其它海量文本的检索,底层都是全文检索的技术引擎。著名的大数据组件 Elasticsearch 正是为此而生。

以提交关键词的方式,从海量文本中精确命中结果,是大数据的第二大类应用。

3、查询

这里主要指即席查询(Ad Hoc),又称为交互式查询。

提到交互式,程序员比较容易理解这个词,在命令行终端里,输入命令或程序语句,回车后系统马上能返回结果,这称为交互式环境。Node.js、Python 都提供了这样的交互式编程环境。

即席查询也是同样的道理,用户在界面上选择查询的条件、范围,或输入 SQL 语句,提交后立即可以获得查询结果。

和上面第二类全文检索核心不同之处在于查询所输入的内容不同,一种是灵活的文本关键词,另一种可以理解为 SQL 语句。理论上来讲,即席查询的数据比全文检索数据结构化程度更深,查询的命令也更为精确,相对更为容易。

但真的更容易吗?在数据量小的情况下,确实很容易,如果是单库单表查询,即使再复杂的SQL,加上比较耗性能的去重计数 count(distinct) 类的统计,也会在很短时间内获得正确的结果。

但是大数据量的情况就不同了。首先,数据量可能会大到用普通关系型数据库分表的方式都没办法存储,只能存在大数据库中,以前的文章中提到,NoSQL 的列式数据库适合存储大数据,如 HBase,这类数据库对 SQL 支持并不如关系型数据库那么良好。其次,复杂 SQL 语句或特定 SQL 语法在这类数据库里执行效率非常差,可能数十分钟,甚至小时级才能返回结果,或者干脆查不出来。

这就与即席查询的理念不符。用户所面临的问题是,查询所需的基础数据都已存储在物理数据库里,但查询耗时太长,不能满足查询时效的要求。

为了解决这个问题,诞生了很多即席查询的引擎。如 Impala、Presto、Druid、Doris、ClickHouse 等。

它们的技术原理也很简单,比如增加热点数据的缓存、优化数据分区、预计算、内存计算、并行计算等,达到加快获得查询结果的目的。

4、分析

这里主要指多维分析,即 OLAP。数据分析可以说是最常见、最直接的数据业务,我们每个人或多或少地做过一些数据分析的工作。

基于统计学的数据分析,核心就是确定维度、指标、度量。多维分析,强调的是分析的灵活性。

从维度的角度来说,不同类型的维度值,有稳定不变的、缓慢增长的、急剧变化的;维度的层级和粒度,可以向上汇总、向下细分,即术语所说的上卷、下钻;从维度度量的组合、裁剪来说,借助数据立方体的模型,可以有切片、切块、旋转等操作。

度量,常见是那些聚合操作,求和、最小值、最大值、平均值、总数等。

指标,如人口数量、销量、及格率等,有的是数据库表中的一个已有的字段,称为原子指标,意思是不可再拆分,利用原子指标再计算得到的指标,称为派生指标。

数据分析,就是在玩维度、指标和度量,核心工作在于构建这三者组成的数据模型。

很多人分不清即席查询和多维分析的区别。多维分析始终围绕着数据建模,原始数据为了适应新模型,需要有数据融合、多表关联、指标定义加工等工作;即席查询,更多是通过查询获得一个值、一条数据或一批数据。在数据规模大的情况下,多维分析同样存在像即席查询的性能问题。

出于建模的需要,OLAP 常常和数据仓库紧密衔接。数据仓库的明细层、汇总层、公共维表层等,经常是为了 OLAP 的分析目标去构建模型。

现在常说的智能数据分析,是提取数据集里数据的特征,判断其连续性,偏离散的,自动识别为维度,偏连续的,识别为度量。自动生成事实表,再智能挑选合适的图表类型(折线图、柱状图、饼图等)表现出来。

5、可视化

数据可视化,也是较常见的数据业务。通过图表的方式,可更直观地表达数据的含义和数据之间的关系。分为 BI 可视化和大屏。

这里的 BI,是狭义的 BI,主要是指借助 BI 工具,去完成数据的可视化表达。更广义的 BI,是通过数据挖掘产生商业智能决策的依据,可进行规律探索、趋势发现和商业洞察。

一个好用的 BI 工具,支持快速选择和拖动维度和度量字段,生成恰当的数据透视表。可灵活地完成多维分析中提到的维度、度量、指标三者的定义和转换等。

现在某些厂商的 BI 产品,已经向着智能问答式的交互方向发展,对着系统说出分析的需求,如“某地区产品销量环比”,系统就能自动从相关数据集中获取维度与度量,智能生成透视表。

大屏,也是近年来较常见的数据需求,基于统计分析和监控告警的仪表盘(DashBoard)和领导驾驶舱,如天猫双十一销售统计大屏。

政府机构对大屏有比较广泛的需求,原因是数据大屏是展示数据建设工程成果比较好的方式。

为了快速生成大屏,也有相应的产品支撑,如阿里云的 DataV。这种产品可以自由地设定画布大小,灵活布局。可视化组件拖放到画布上,设置好所连接的数据源和更新频率,即可直接查询数据库或通过 API 请求所需数据。用户可以在很短时间内,配置出非常炫的大屏。

6、画像

我们常听到的用户画像,是从用户数据中提取用户特征,包含生理、社会属性,以及行为习惯的特征,以此精细刻画用户——甚至比他对自己的了解更深入。另外也可以根据相同的特征选取同一用户群体——这个操作称为用户圈层,接下来就可以针对性地对这类用户实施影响策略。

实际上,不只用户可以画像,一切实体均可画像。

画像背后的核心,是一套标签体系。标签可以是人工或程序产生。给数据打标签,有的简单,经过常规计算就能完成,有的则需要机器学习算法参与。

人工参与打部分标签,类似监督学习;无人干预,类似于无监督学习,算法自动找出数据规律,贴上正确的标签。

比如,出生地、80 后这种标签,根据字段值就能直接获得,有些则需要经过简单的计算。

另外一些就比较复杂。比如人的自然性别只有男女两种,购物性别则不然,男性在购买特定品类也会呈现出不同程度的女性心理,反之亦然,所以,淘宝的购物性别标签,据说有近 20 种。

这样一来,在导购设计、商品推荐和活动运营中,对不同品类和用户就可以有不同的策略设计。

7、广告

营销领域中,广告主最在意的就是效果和成本。为了服务好广告主,广告平台通过大数据不断优化广告内容、渠道和人群的匹配,实现效果营销和精准投放的目的。

这是三赢的局面,平台推送给用户的广告精准,一方面广告主高投入产出比达到了营销目的,也就更愿意选择这样优质的平台,另一方面,用户也不会受到太大的干扰。

精准投放和上面的画像应用密切相关,除此以外还包含更多的分析应用。

首先在投放层面需要有基础数据,包括用户画像、广告物料画像、渠道画像、三者的关联数据和生命周期数据等,算法不断调整它们的匹配度,给出投放建议。

在效果评估层面,有到达、转化的漏斗模型统计分析。这里有基于埋点日志的实时统计分析方法,去统计曝光率、事件交互等。

日志分析也是大数据的重要细分领域之一,有专门的大数据组件完成日志的采集,如 Flume、LogStash。配合实时计算引擎,如 Flink,完成一些实时分析统计。

至于我们搜索后在其它产品中出现相关广告,或者说过一句话,就在某产品中就出现了应答广告。原因是在技术上,系统确定了我们的唯一用户身份,并通过广告联盟平台进行了数据共享。

很多网站和应用上出现的广告,并不是它自身投放的。它作为一个流量主,注册成为了广告平台上的一个渠道。当广告平台获取到你的用户身份和行为,它就能把匹配到的广告投放到能触达你的每一个渠道。

如你在百度上完成了一次搜索,百度的广告平台就能获取到你的用户标识和搜索关键词,把匹配好的广告,自动投放到你使用的其它应用上,这样你就感觉在一段时间里,相同的广告包围了你。

APP 偷听也是同样的道理,某个 APP 获得手机麦克风的使用权限,如果它不尊重用户隐私,就会滥用权限,就可能把它匹配出来的广告通过广告联盟分发到其它 APP 上。

大部分 APP 还会读取剪贴板,获取我们复制的内容,用于广告或其它目的。目前大部分移动操作系统还都没有对剪贴板的权限进行管控。

8、风控

在工业和金融领域,对风控有很高的要求。需要基于规则模型处理大量数据,且实时性非常强。

工业方面,主要有设备故障监测告警、预警。在传感器产生的时序数据中,要能及时地发现异常波动,包含频率、周期的异常及其它离群值高的数据,结合上下游设备和环境的数据,定位风险,实时暴露。

金融安全方面,有针对贷款业务的征信数据分析,也有对异常交易行为的快速处置。如发生一笔信用卡刷卡业务,产生了一条交易数据,会立即触发上百条规则去校验是否存在盗刷、套现等恶意行为。这些规则包含对商户、POS 机、持卡人、交易额度、时间、频率非常多交叉的判断。

除此以外,谋求黑产利益的羊毛党,对电商、O2O 业务也存在很大的挑战,商品限购、代金券优惠券发放的业务,都存在被刷的风险。除了在业务代码逻辑上防范这些风险,还要有基于数据实时分析的风控保障,疑似恶意的行为被及时感知并告警。误报、漏报之间的平衡,是技术细节的难点。

风控模型和规则引擎,是大数据风控业务的核心技术。

9、推荐

我们的生活已经被算法推荐包围了。拥有头条、抖音现象级产品的字节跳动公司的估值,也已超过了百度的市值。

推荐是大数据应用很重要的一个方向,目前已成效显著。可分为信息流推荐和商品推荐。

信息流推荐就是新闻、视频等内容推荐。根据我们点击、查看的记录,系统会不断学习识别我们的偏好,把相似内容不断地推送到眼前,让我们沉浸其中。

商品推荐一方面是根据我们的行为,如搜索、浏览、收藏、加购物车等进行推荐,另一方面是推荐同一类型画像用户购买的商品,这样会提高用户的下单率。

“千人千面”是这一业务的核心挑战,想想看,亿级用户个性化的推荐清单,都要随着用户行为变化而更新和排序,还要把已购商品从清单中去除,光是这项工作,就非常复杂了。

总结

立足于数据本身所能做的事情,我们总结出上述九大类业务。如果将数据和 AI 人工智能算法结合,数据作为燃料,算法作为引擎,还能展开更多的智能化业务,就不在本文的讨论范围内了。

可以说,这九大类的数据业务,足以涵盖目前及未来几年内的数据业务需求,数据产品经理可牢记心中。我们设想数据能发挥什么价值时,可以从这九类里寻找答案,获得启发。

这九大类数据业务,从上到下依次是从传统到现代、从离线到实时的变化特点,每个类别重点所需的大数据处理技术也不相同,有的重数据集成,有的重数据治理,有的重数据计算,越靠后的业务对大数据实时计算的要求越高。

在以后的文章中,我们逐步来了解每一项技术。

以上是「关耳爷」对大数据业务的一点小总结,请笑纳。